期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
模态间关系促进的行人检索方法
1
作者 李博 张飞飞 徐常胜 《软件学报》 EI CSCD 北大核心 2024年第10期4766-4780,共15页
基于文本描述的行人检索是一个新兴的跨模态检索子任务,由传统行人重识别任务衍生而来,对公共安全以及人员追踪具有重要意义.相比于单模态图像检索的行人重识别任务,基于文本描述的行人检索解决了实际应用中缺少查询图像的问题,其主要... 基于文本描述的行人检索是一个新兴的跨模态检索子任务,由传统行人重识别任务衍生而来,对公共安全以及人员追踪具有重要意义.相比于单模态图像检索的行人重识别任务,基于文本描述的行人检索解决了实际应用中缺少查询图像的问题,其主要挑战在于该任务结合了视觉内容和文本描述两种不同模态的数据,要求模型同时具有图像理解能力和文本语义学习能力.为了缩小行人图像和文本描述的模态间语义鸿沟,传统的基于文本描述的行人检索方法多是对提取的图像和文本特征进行机械地分割,只关注于跨模态信息的语义对齐,忽略了图像和文本模态内部的潜在联系,导致模态间细粒度匹配的不准确.为了解决上述问题,提出模态间关系促进的行人检索方法,首先利用注意力机制分别构建模态内自注意力矩阵和跨模态注意力矩阵,并将注意力矩阵看作不同特征序列间的响应值分布.然后,分别使用两种不同的矩阵构建方法重构模态内自注意力矩阵和跨模态注意力矩阵.其中自注意力矩阵的重构利用模态内逐元素重构的方式可以很好地挖掘模态内部的潜在联系,而跨模态注意力矩阵的重构用模态间整体重构矩阵的方法,以跨模态信息为桥梁,可充分挖掘模态间的潜在信息,缩小语义鸿沟.最后,用基于任务的跨模态投影匹配损失和KL散度损失联合约束模型优化,达到模态间信息相互促进的效果.在基于文本描述的行人检索公开数据库CUHK-PEDES上进行了定量以及检索结果的可视化,均表明所提方法可取得目前最优的效果. 展开更多
关键词 行人检索 跨模态任务 文本语义学习 关系对齐 注意力机制
在线阅读 下载PDF
基于多尺度特征增强与对齐的跨模态行人检索
2
作者 徐领 缪翌 张卫锋 《现代电子技术》 北大核心 2024年第22期44-50,共7页
为了解决跨模态行人检索从图像和文本中抽取有效的细节特征,以及实现图像与自然语言文本跨模态对齐的问题,提出一种基于多尺度特征增强与对齐的跨模态行人检索模型。该模型引入多模态预训练模型,并构建文本引导的图像掩码建模辅助任务,... 为了解决跨模态行人检索从图像和文本中抽取有效的细节特征,以及实现图像与自然语言文本跨模态对齐的问题,提出一种基于多尺度特征增强与对齐的跨模态行人检索模型。该模型引入多模态预训练模型,并构建文本引导的图像掩码建模辅助任务,充分实现跨模态交互,从而无需显式地标注信息即可增强模型学习图像局部细节特征的能力。另外,针对行人图像身份易混淆问题,设计全局图像特征匹配辅助任务,引导模型学习身份关注的视觉特征。在CUHK-PEDES、ICFG-PEDES和RSTPReid等多个公开数据集上的实验结果表明,所提模型超越了目前已有的主流模型,其第一命中率分别达到了72.47%、62.71%和59.25%,实现了高准确率的跨模态行人检索。 展开更多
关键词 跨模态行人检索 多尺度特征增强 多模态对齐 CLIP 图像掩码 跨模态交互 交叉注意力
在线阅读 下载PDF
GCTR:粒度统一的跨模态文本行人检索网络模型
3
作者 覃晓 张金勇 +4 位作者 龚远旭 吴琨生 黄豪杰 淳鑫 元昌安 《广西科学》 北大核心 2024年第5期988-1001,共14页
现有的文本行人检索网络模型在检索任务中缺乏对图文语义联系的关注,且容易忽略文本与图像特征之间的粒度差异,针对这两大问题,本研究提出一种粒度统一的跨模态文本行人检索网络模型(Granularity-unified Cross-modal Text-person Retri... 现有的文本行人检索网络模型在检索任务中缺乏对图文语义联系的关注,且容易忽略文本与图像特征之间的粒度差异,针对这两大问题,本研究提出一种粒度统一的跨模态文本行人检索网络模型(Granularity-unified Cross-modal Text-person Retrieval model, GCTR)。首先,GCTR利用具备跨模态迁移知识能力的视觉语言预训练模型来获取具有基础关联性的文本和图像特征;其次,本研究提出一个跨模态粒度特征增强模块(Cross-Model Feature Enhancement module, CMFE),它利用跨模态特征增强码表(Enhanced Cross-modal Feature Codebook, ECFC)获取具有统一粒度的图像文本特征,解决了图文特征粒度差异的问题;最后,结合局部和全局的匹配损失策略完成模型的训练。GCTR在CUHK-PEDES、ICFG-PEDES和RSTPReid 3个公开数据集上的表现均优于现有的主流模型,证明了GCTR在跨模态文本行人检索任务上的优越性。 展开更多
关键词 跨模态检索 图文检索 行人检索 视觉语言预训练 粒度特征增强
在线阅读 下载PDF
基于虚拟属性学习的文本-图像行人检索方法 被引量:1
4
作者 王成济 苏家威 +3 位作者 罗志明 曹冬林 林耀进 李绍滋 《软件学报》 EI CSCD 北大核心 2023年第5期2035-2050,共16页
文本-图像行人检索旨在从行人数据库中查找符合特定文本描述的行人图像.近年来受到学术界和工业界的广泛关注.该任务同时面临两个挑战:细粒度检索以及图像与文本之间的异构鸿沟.部分方法提出使用有监督属性学习提取属性相关特征,在细粒... 文本-图像行人检索旨在从行人数据库中查找符合特定文本描述的行人图像.近年来受到学术界和工业界的广泛关注.该任务同时面临两个挑战:细粒度检索以及图像与文本之间的异构鸿沟.部分方法提出使用有监督属性学习提取属性相关特征,在细粒度上关联图像和文本.然而属性标签难以获取,导致这类方法在实践中表现不佳.如何在没有属性标注的情况下提取属性相关特征,建立细粒度的跨模态语义关联成为亟待解决的关键问题.为解决这个问题,融合预训练技术提出基于虚拟属性学习的文本-图像行人检索方法,通过无监督属性学习建立细粒度的跨模态语义关联.第一,基于行人属性的不变性和跨模态语义一致性提出语义引导的属性解耦方法,所提方法利用行人的身份标签作为监督信号引导模型解耦属性相关特征.第二,基于属性之间的关联构建语义图提出基于语义推理的特征学习模块,所提模块通过图模型在属性之间交换信息增强特征的跨模态识别能力.在公开的文本-图像行人检索数据集CUHK-PEDES和跨模态检索数据集Flickr30k上与现有方法进行实验对比,实验结果表明了所提方法的有效性. 展开更多
关键词 行人检索 跨模态 属性学习 预训练
在线阅读 下载PDF
基于自监督学习的文本行人检索 被引量:2
5
作者 冀中 胡峻华 +1 位作者 丁学文 李晟嘉 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2023年第2期169-176,共8页
基于文本的行人检索任务旨在以文本为查询在大规模数据库中检索出目标行人的图像,在处理社会公共安全问题中具有较高的实用价值.不同于常规的跨模态检索任务,该任务中所有的类别都是行人,不同行人之间的外观差异较小,难以辨别;此外由于... 基于文本的行人检索任务旨在以文本为查询在大规模数据库中检索出目标行人的图像,在处理社会公共安全问题中具有较高的实用价值.不同于常规的跨模态检索任务,该任务中所有的类别都是行人,不同行人之间的外观差异较小,难以辨别;此外由于拍摄条件的限制图像质量通常较差,因此如何有效地提取更鲁棒、更具有判别性的视觉特征是该任务的一项重要挑战.为了应对这一挑战,设计了一种基于自监督学习的文本行人检索算法,以多任务学习的形式将自监督学习与基于文本的行人检索任务相结合,对两种任务同时进行训练,共享模型参数.其中,自监督任务作为辅助任务,旨在为行人检索任务学习到更鲁棒、更具有判别性的视觉特征.具体来说,首先提取视觉和文本特征,并以图像修复作为自监督任务,旨在学习更丰富的语义信息,且对遮挡数据具有更好的鲁棒性;基于行人图像的特殊性,进一步设计了一种镜像翻转预测任务,通过训练网络预测图像是否经过了镜像翻转学习具有判别性的细节信息,以帮助行人检索任务更好地区分难分样本.在公开数据集上进行的大量实验证明了该算法的先进性和有效性,将行人检索的Top-1准确率提升了2.77%,并且实验结果显示两种自监督任务存在一定的互补性,同时使用可以实现更好的检索性能. 展开更多
关键词 行人检索 跨模态分析 自监督学习 多任务学习
在线阅读 下载PDF
面向复杂噪声数据的鲁棒文本-图像行人检索方法
6
作者 胡冰玉 徐艺心 +2 位作者 余珊 赵巨峰 杨宇翔 《计算机研究与发展》 2025年第9期2183-2193,共11页
文本-图像行人检索(text-based person retrieval)作为多模态智能监控系统的核心任务,旨在通过自由形式的文本描述从大规模数据库中识别目标行人图像,在公共安全与视频取证领域具有关键应用价值,如刑事侦查中的嫌疑人追踪及跨摄像头取... 文本-图像行人检索(text-based person retrieval)作为多模态智能监控系统的核心任务,旨在通过自由形式的文本描述从大规模数据库中识别目标行人图像,在公共安全与视频取证领域具有关键应用价值,如刑事侦查中的嫌疑人追踪及跨摄像头取证分析.传统方法通常基于图像-文本对完美对齐的理想化假设,忽视了实际场景中普遍存在的复杂噪声数据问题,即视觉实例与其文本标注间因人工标注偏差、网络爬取噪声,或局部视觉属性与全局文本语境间的语义粒度失配而产生的错误或歧义性关联.为弥补这一缺陷,提出了一种语义感知噪声关联学习框架,通过双重创新机制系统性地实现噪声辨识与鲁棒学习.首先,语义感知噪声辨识准则融合模态内语义一致性与跨模态交互信号,基于自适应阈值判定精准区分噪声关联;其次,噪声鲁棒互补学习范式实施差异化优化策略:对于可靠子集采用对比损失进行正向学习以增强特征判别性,而对噪声子集则通过反向学习以抑制过拟合.在3个公开基准数据集上的大量实验表明,该方法在合成噪声数据与真实噪声数据场景中均展现出优越性能. 展开更多
关键词 文本-图像行人检索 噪声数据 多模态学习 特征表示 模型鲁棒性
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部