检索结果-维普期刊中文期刊服务平台

模态间关系促进的行人检索方法: 1; 作者李博张飞飞徐常胜《软件学报》 EI CSCD 北大核心 2024年第10期4766-4780,共15页; 基于文本描述的行人检索是一个新兴的跨模态检索子任务,由传统行人重识别任务衍生而来,对公共安全以及人员追踪具有重要意义.相比于单模态图像检索的行人重识别任务,基于文本描述的行人检索解决了实际应用中缺少查询图像的问题,其主要... 展开更多; 关键词行人检索跨模态任务文本语义学习关系对齐注意力机制; 在线阅读下载PDF 职称材料

基于多尺度特征增强与对齐的跨模态行人检索: 2; 作者徐领缪翌张卫锋《现代电子技术》北大核心 2024年第22期44-50,共7页; 为了解决跨模态行人检索从图像和文本中抽取有效的细节特征,以及实现图像与自然语言文本跨模态对齐的问题,提出一种基于多尺度特征增强与对齐的跨模态行人检索模型。该模型引入多模态预训练模型,并构建文本引导的图像掩码建模辅助任务,... 展开更多; 关键词跨模态行人检索多尺度特征增强多模态对齐 CLIP 图像掩码跨模态交互交叉注意力; 在线阅读下载PDF 职称材料

GCTR:粒度统一的跨模态文本行人检索网络模型: 3; 作者覃晓张金勇 +4 位作者龚远旭吴琨生黄豪杰淳鑫元昌安《广西科学》北大核心 2024年第5期988-1001,共14页; 现有的文本行人检索网络模型在检索任务中缺乏对图文语义联系的关注,且容易忽略文本与图像特征之间的粒度差异,针对这两大问题,本研究提出一种粒度统一的跨模态文本行人检索网络模型(Granularity-unified Cross-modal Text-person Retri... 展开更多; 关键词跨模态检索图文检索行人检索视觉语言预训练粒度特征增强; 在线阅读下载PDF 职称材料

基于虚拟属性学习的文本-图像行人检索方法被引量：1: 4; 作者王成济苏家威 +3 位作者罗志明曹冬林林耀进李绍滋《软件学报》 EI CSCD 北大核心 2023年第5期2035-2050,共16页; 文本-图像行人检索旨在从行人数据库中查找符合特定文本描述的行人图像.近年来受到学术界和工业界的广泛关注.该任务同时面临两个挑战:细粒度检索以及图像与文本之间的异构鸿沟.部分方法提出使用有监督属性学习提取属性相关特征,在细粒... 展开更多; 关键词行人检索跨模态属性学习预训练; 在线阅读下载PDF 职称材料

基于自监督学习的文本行人检索被引量：2: 5; 作者冀中胡峻华 +1 位作者丁学文李晟嘉《天津大学学报（自然科学与工程技术版）》 EI CAS CSCD 北大核心 2023年第2期169-176,共8页; 基于文本的行人检索任务旨在以文本为查询在大规模数据库中检索出目标行人的图像,在处理社会公共安全问题中具有较高的实用价值.不同于常规的跨模态检索任务,该任务中所有的类别都是行人,不同行人之间的外观差异较小,难以辨别;此外由于... 展开更多; 关键词行人检索跨模态分析自监督学习多任务学习; 在线阅读下载PDF 职称材料

面向复杂噪声数据的鲁棒文本-图像行人检索方法: 6; 作者胡冰玉徐艺心 +2 位作者余珊赵巨峰杨宇翔《计算机研究与发展》 2025年第9期2183-2193,共11页; 文本-图像行人检索(text-based person retrieval)作为多模态智能监控系统的核心任务,旨在通过自由形式的文本描述从大规模数据库中识别目标行人图像,在公共安全与视频取证领域具有关键应用价值,如刑事侦查中的嫌疑人追踪及跨摄像头取... 展开更多; 关键词文本-图像行人检索噪声数据多模态学习特征表示模型鲁棒性; 在线阅读下载PDF 职称材料

题名模态间关系促进的行人检索方法: 1; 作者李博张飞飞徐常胜; 机构天津理工大学计算机科学与工程学院多模态人工智能系统全国重点实验室(中国科学院自动化研究所); 出处《软件学报》 EI CSCD 北大核心 2024年第10期4766-4780,共15页; 基金国家重点研发计划(2018AAA0102200) 国家自然科学基金(62036012,62002355,61720106006,62102415,62106262,62072455,62202331,62206200) +1 种基金北京市自然科学基金(L201001,4222039)。; 文摘基于文本描述的行人检索是一个新兴的跨模态检索子任务,由传统行人重识别任务衍生而来,对公共安全以及人员追踪具有重要意义.相比于单模态图像检索的行人重识别任务,基于文本描述的行人检索解决了实际应用中缺少查询图像的问题,其主要挑战在于该任务结合了视觉内容和文本描述两种不同模态的数据,要求模型同时具有图像理解能力和文本语义学习能力.为了缩小行人图像和文本描述的模态间语义鸿沟,传统的基于文本描述的行人检索方法多是对提取的图像和文本特征进行机械地分割,只关注于跨模态信息的语义对齐,忽略了图像和文本模态内部的潜在联系,导致模态间细粒度匹配的不准确.为了解决上述问题,提出模态间关系促进的行人检索方法,首先利用注意力机制分别构建模态内自注意力矩阵和跨模态注意力矩阵,并将注意力矩阵看作不同特征序列间的响应值分布.然后,分别使用两种不同的矩阵构建方法重构模态内自注意力矩阵和跨模态注意力矩阵.其中自注意力矩阵的重构利用模态内逐元素重构的方式可以很好地挖掘模态内部的潜在联系,而跨模态注意力矩阵的重构用模态间整体重构矩阵的方法,以跨模态信息为桥梁,可充分挖掘模态间的潜在信息,缩小语义鸿沟.最后,用基于任务的跨模态投影匹配损失和KL散度损失联合约束模型优化,达到模态间信息相互促进的效果.在基于文本描述的行人检索公开数据库CUHK-PEDES上进行了定量以及检索结果的可视化,均表明所提方法可取得目前最优的效果.; 关键词行人检索跨模态任务文本语义学习关系对齐注意力机制; Keywords person retrieval cross-modal task textual semantic learning relation alignment attention mechanism; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于多尺度特征增强与对齐的跨模态行人检索: 2; 作者徐领缪翌张卫锋; 机构浙江理工大学计算机科学与技术学院嘉兴大学信息科学与工程学院; 出处《现代电子技术》北大核心 2024年第22期44-50,共7页; 文摘为了解决跨模态行人检索从图像和文本中抽取有效的细节特征,以及实现图像与自然语言文本跨模态对齐的问题,提出一种基于多尺度特征增强与对齐的跨模态行人检索模型。该模型引入多模态预训练模型,并构建文本引导的图像掩码建模辅助任务,充分实现跨模态交互,从而无需显式地标注信息即可增强模型学习图像局部细节特征的能力。另外,针对行人图像身份易混淆问题,设计全局图像特征匹配辅助任务,引导模型学习身份关注的视觉特征。在CUHK-PEDES、ICFG-PEDES和RSTPReid等多个公开数据集上的实验结果表明,所提模型超越了目前已有的主流模型,其第一命中率分别达到了72.47%、62.71%和59.25%,实现了高准确率的跨模态行人检索。; 关键词跨模态行人检索多尺度特征增强多模态对齐 CLIP 图像掩码跨模态交互交叉注意力; Keywords cross modal pedestrian retrieval multi-scale feature enhancement multimodal alignment CLIP image mask cross-modal interaction cross attention; 分类号 TN911-34 [电子电信—通信与信息系统] TP391.41 [自动化与计算机技术—计算机应用技术] TP183 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名GCTR:粒度统一的跨模态文本行人检索网络模型: 3; 作者覃晓张金勇龚远旭吴琨生黄豪杰淳鑫元昌安; 机构南宁师范大学广西科学院广西区域多源数据集成与智能处理协同创新中心; 出处《广西科学》北大核心 2024年第5期988-1001,共14页; 基金科技部科技创新2030—“脑科学与类脑研究”重大项目(2021ZD0201904) 广西科技重大专项(桂科AA22068057)资助。; 文摘现有的文本行人检索网络模型在检索任务中缺乏对图文语义联系的关注,且容易忽略文本与图像特征之间的粒度差异,针对这两大问题,本研究提出一种粒度统一的跨模态文本行人检索网络模型(Granularity-unified Cross-modal Text-person Retrieval model, GCTR)。首先,GCTR利用具备跨模态迁移知识能力的视觉语言预训练模型来获取具有基础关联性的文本和图像特征;其次,本研究提出一个跨模态粒度特征增强模块(Cross-Model Feature Enhancement module, CMFE),它利用跨模态特征增强码表(Enhanced Cross-modal Feature Codebook, ECFC)获取具有统一粒度的图像文本特征,解决了图文特征粒度差异的问题;最后,结合局部和全局的匹配损失策略完成模型的训练。GCTR在CUHK-PEDES、ICFG-PEDES和RSTPReid 3个公开数据集上的表现均优于现有的主流模型,证明了GCTR在跨模态文本行人检索任务上的优越性。; 关键词跨模态检索图文检索行人检索视觉语言预训练粒度特征增强; Keywords cross-modal retrieval text-image retrieval person retrieval visual language pre-training granularity feature enhancement; 分类号 TP391.41 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于虚拟属性学习的文本-图像行人检索方法被引量：1: 4; 作者王成济苏家威罗志明曹冬林林耀进李绍滋; 机构厦门大学信息学院闽南师范大学计算机学院数据科学与智能应用重点实验室(闽南师范大学); 出处《软件学报》 EI CSCD 北大核心 2023年第5期2035-2050,共16页; 基金国家自然科学基金(61876159,62076210,62076116)。; 文摘文本-图像行人检索旨在从行人数据库中查找符合特定文本描述的行人图像.近年来受到学术界和工业界的广泛关注.该任务同时面临两个挑战:细粒度检索以及图像与文本之间的异构鸿沟.部分方法提出使用有监督属性学习提取属性相关特征,在细粒度上关联图像和文本.然而属性标签难以获取,导致这类方法在实践中表现不佳.如何在没有属性标注的情况下提取属性相关特征,建立细粒度的跨模态语义关联成为亟待解决的关键问题.为解决这个问题,融合预训练技术提出基于虚拟属性学习的文本-图像行人检索方法,通过无监督属性学习建立细粒度的跨模态语义关联.第一,基于行人属性的不变性和跨模态语义一致性提出语义引导的属性解耦方法,所提方法利用行人的身份标签作为监督信号引导模型解耦属性相关特征.第二,基于属性之间的关联构建语义图提出基于语义推理的特征学习模块,所提模块通过图模型在属性之间交换信息增强特征的跨模态识别能力.在公开的文本-图像行人检索数据集CUHK-PEDES和跨模态检索数据集Flickr30k上与现有方法进行实验对比,实验结果表明了所提方法的有效性.; 关键词行人检索跨模态属性学习预训练; Keywords person search cross-modality attribute learning pre-training; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于自监督学习的文本行人检索被引量：2: 5; 作者冀中胡峻华丁学文李晟嘉; 机构天津大学电气自动化与信息工程学院天津职业技术师范大学电子工程学院中国运载火箭技术研究院研究发展部; 出处《天津大学学报（自然科学与工程技术版）》 EI CAS CSCD 北大核心 2023年第2期169-176,共8页; 基金天津市自然科学基金资助项目(19JCYBJC16000) 国家自然科学基金资助项目(62176178) +1 种基金中国航天科技集团公司钱学森青年创新基金资助项目。; 文摘基于文本的行人检索任务旨在以文本为查询在大规模数据库中检索出目标行人的图像,在处理社会公共安全问题中具有较高的实用价值.不同于常规的跨模态检索任务,该任务中所有的类别都是行人,不同行人之间的外观差异较小,难以辨别;此外由于拍摄条件的限制图像质量通常较差,因此如何有效地提取更鲁棒、更具有判别性的视觉特征是该任务的一项重要挑战.为了应对这一挑战,设计了一种基于自监督学习的文本行人检索算法,以多任务学习的形式将自监督学习与基于文本的行人检索任务相结合,对两种任务同时进行训练,共享模型参数.其中,自监督任务作为辅助任务,旨在为行人检索任务学习到更鲁棒、更具有判别性的视觉特征.具体来说,首先提取视觉和文本特征,并以图像修复作为自监督任务,旨在学习更丰富的语义信息,且对遮挡数据具有更好的鲁棒性;基于行人图像的特殊性,进一步设计了一种镜像翻转预测任务,通过训练网络预测图像是否经过了镜像翻转学习具有判别性的细节信息,以帮助行人检索任务更好地区分难分样本.在公开数据集上进行的大量实验证明了该算法的先进性和有效性,将行人检索的Top-1准确率提升了2.77%,并且实验结果显示两种自监督任务存在一定的互补性,同时使用可以实现更好的检索性能.; 关键词行人检索跨模态分析自监督学习多任务学习; Keywords person search crossmodal analysis self-supervised learning multitask learning; 分类号 TP37 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名面向复杂噪声数据的鲁棒文本-图像行人检索方法: 6; 作者胡冰玉徐艺心余珊赵巨峰杨宇翔; 机构杭州电子科技大学电子信息学院; 出处《计算机研究与发展》 2025年第9期2183-2193,共11页; 基金国家自然科学基金项目(62376080)。; 文摘文本-图像行人检索(text-based person retrieval)作为多模态智能监控系统的核心任务,旨在通过自由形式的文本描述从大规模数据库中识别目标行人图像,在公共安全与视频取证领域具有关键应用价值,如刑事侦查中的嫌疑人追踪及跨摄像头取证分析.传统方法通常基于图像-文本对完美对齐的理想化假设,忽视了实际场景中普遍存在的复杂噪声数据问题,即视觉实例与其文本标注间因人工标注偏差、网络爬取噪声,或局部视觉属性与全局文本语境间的语义粒度失配而产生的错误或歧义性关联.为弥补这一缺陷,提出了一种语义感知噪声关联学习框架,通过双重创新机制系统性地实现噪声辨识与鲁棒学习.首先,语义感知噪声辨识准则融合模态内语义一致性与跨模态交互信号,基于自适应阈值判定精准区分噪声关联;其次,噪声鲁棒互补学习范式实施差异化优化策略:对于可靠子集采用对比损失进行正向学习以增强特征判别性,而对噪声子集则通过反向学习以抑制过拟合.在3个公开基准数据集上的大量实验表明,该方法在合成噪声数据与真实噪声数据场景中均展现出优越性能.; 关键词文本-图像行人检索噪声数据多模态学习特征表示模型鲁棒性; Keywords text-based person retrieval noisy data multimodal learning feature representation model robustness; 分类号 TP391 [自动化与计算机技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	模态间关系促进的行人检索方法	李博张飞飞徐常胜	《软件学报》 EI CSCD 北大核心	2024	0	在线阅读下载PDF 职称材料
2	基于多尺度特征增强与对齐的跨模态行人检索	徐领缪翌张卫锋	《现代电子技术》北大核心	2024	0	在线阅读下载PDF 职称材料
3	GCTR:粒度统一的跨模态文本行人检索网络模型	覃晓张金勇龚远旭吴琨生黄豪杰淳鑫元昌安	《广西科学》北大核心	2024	0	在线阅读下载PDF 职称材料
4	基于虚拟属性学习的文本-图像行人检索方法	王成济苏家威罗志明曹冬林林耀进李绍滋	《软件学报》 EI CSCD 北大核心	2023	1	在线阅读下载PDF 职称材料
5	基于自监督学习的文本行人检索	冀中胡峻华丁学文李晟嘉	《天津大学学报（自然科学与工程技术版）》 EI CAS CSCD 北大核心	2023	2	在线阅读下载PDF 职称材料
6	面向复杂噪声数据的鲁棒文本-图像行人检索方法	胡冰玉徐艺心余珊赵巨峰杨宇翔	《计算机研究与发展》	2025		在线阅读下载PDF 职称材料