随着社交网络的普及和多媒体数据的急剧增长,有效的跨模态检索引起了人们越来越多的关注.由于哈希有效的检索效率和低存储成本,其被广泛用于跨模态检索任务中.然而,这些基于深度学习的跨模态哈希检索方法大多数是利用图像网络和文本网...随着社交网络的普及和多媒体数据的急剧增长,有效的跨模态检索引起了人们越来越多的关注.由于哈希有效的检索效率和低存储成本,其被广泛用于跨模态检索任务中.然而,这些基于深度学习的跨模态哈希检索方法大多数是利用图像网络和文本网络各自生成对应模态的哈希码,难以获得更加有效的哈希码,无法进一步减小不同模态数据之间的模态鸿沟.为了更好地提高跨模态哈希检索的性能,本文提出了一种基于迁移知识的跨模态双重哈希(Cross-modal Dual Hashing based on Transfer Knowledge,CDHTK).CDHTK通过结合图像网络、知识迁移网络以及文本网络进行跨模态哈希检索任务.对于图像模态,CDHTK融合图像网络和知识迁移网络各自生成的哈希码,进而生成具有判别性的图像哈希码;对于文本模态,CDHTK融合文本网络和知识迁移网络各自生成的哈希码,从而生成有效的文本哈希码.CDHTK通过采用预测标签的交叉熵损失、生成哈希码的联合三元组量化损失以及迁移知识的差分损失来共同优化哈希码的生成过程,从而提高模型的检索效果,在2个常用的数据集(IAPR TC-12,MIR-Flickr 25K)上进行的实验验证了CDHTK的有效性,比当前最先进的跨模态哈希方法(Adaptive Label correlation based asymm Etric Cross-modal Hashing,ALECH)分别高出6.82%和5.13%.展开更多
基于检索增强生成(RAG)的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题,提出一种多策略检索增强生成...基于检索增强生成(RAG)的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题,提出一种多策略检索增强生成(MSRAG)方法。首先,根据用户输入的查询特点自适应地匹配检索模型来召回相关文本;其次,利用文本过滤器提取出能够回答问题的关键文本片段;再次,使用文本过滤器进行内容有效性判断以启动基于同义词拓展的查询改写,并将初始查询与改写后的信息合并输入检索控制器以进行更有针对性的再次检索;最后,合并能够回答问题的关键文本片段和问题,并使用提示工程输入生成答案模型来生成响应返回给用户。实验结果表明,MSRAG方法在军事领域数据集(Military)和Medical数据集的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation Longest common subsequence)指标上相较于凸线性组合RAG方法分别提高了14.35和5.83个百分点。可见,MSRAG方法具备较强的通用性和可移植性,能够缓解非必要查询改写导致的语义漂移现象,有效帮助大模型生成更准确的答案。展开更多
现有的视频-文本检索(VTR)方法通常假设文本描述与视频之间存在强语义关联,却忽略了数据集中广泛存在的弱相关视频文本对,导致模型虽然擅长识别常见的通用概念,但无法充分挖掘弱语义描述的潜在信息,进而影响模型的检索性能。针对上述问...现有的视频-文本检索(VTR)方法通常假设文本描述与视频之间存在强语义关联,却忽略了数据集中广泛存在的弱相关视频文本对,导致模型虽然擅长识别常见的通用概念,但无法充分挖掘弱语义描述的潜在信息,进而影响模型的检索性能。针对上述问题,提出一种跨模态信息融合的VTR模型,该模型以跨模态的方式利用相关的外部知识改进模型的检索性能。首先,构建2个外部知识检索模块,分别用于实现视频与外部知识的检索以及文本与外部知识的检索,以便后续借助外部知识强化原始视频和文本的特征表示;其次,设计自适应交叉注意力的跨模态信息融合模块,以去除视频和文本中的冗余信息,并利用不同模态间的互补信息融合特征,学习更具判别性的特征表示;最后,引入模态间和模态内的相似性损失函数,以确保数据在融合特征空间、视频特征空间和文本特征空间下信息表征的完整性,从而实现跨模态数据间的精准检索。实验结果表明,与MuLTI模型相比,所提模型在公共数据集MSRVTT(Microsoft Research Video to Text)和DiDeMo(Distinct Describable Moments)上的召回率R@1分别提升了2.0和1.9个百分点;与CLIP-ViP模型相比,所提模型在公共数据集LSMDC(Large Scale Movie Description Challenge)上的R@1提高了2.9个百分点。可见,所提模型能有效解决VTR任务中的弱相关数据的问题,从而提升模型的检索准确率。展开更多
文本-图像行人检索(text-based person retrieval)作为多模态智能监控系统的核心任务,旨在通过自由形式的文本描述从大规模数据库中识别目标行人图像,在公共安全与视频取证领域具有关键应用价值,如刑事侦查中的嫌疑人追踪及跨摄像头取...文本-图像行人检索(text-based person retrieval)作为多模态智能监控系统的核心任务,旨在通过自由形式的文本描述从大规模数据库中识别目标行人图像,在公共安全与视频取证领域具有关键应用价值,如刑事侦查中的嫌疑人追踪及跨摄像头取证分析.传统方法通常基于图像-文本对完美对齐的理想化假设,忽视了实际场景中普遍存在的复杂噪声数据问题,即视觉实例与其文本标注间因人工标注偏差、网络爬取噪声,或局部视觉属性与全局文本语境间的语义粒度失配而产生的错误或歧义性关联.为弥补这一缺陷,提出了一种语义感知噪声关联学习框架,通过双重创新机制系统性地实现噪声辨识与鲁棒学习.首先,语义感知噪声辨识准则融合模态内语义一致性与跨模态交互信号,基于自适应阈值判定精准区分噪声关联;其次,噪声鲁棒互补学习范式实施差异化优化策略:对于可靠子集采用对比损失进行正向学习以增强特征判别性,而对噪声子集则通过反向学习以抑制过拟合.在3个公开基准数据集上的大量实验表明,该方法在合成噪声数据与真实噪声数据场景中均展现出优越性能.展开更多
信息检索(IR)是一种通过特定的技术和方法组织、处理信息,以满足用户的信息需求的过程。近年来,基于预训练模型的稠密检索方法取得了巨大的成功;然而,这些方法只利用了文本和词语的向量表征计算查询与文档相关度,忽略了它们短语层面间...信息检索(IR)是一种通过特定的技术和方法组织、处理信息,以满足用户的信息需求的过程。近年来,基于预训练模型的稠密检索方法取得了巨大的成功;然而,这些方法只利用了文本和词语的向量表征计算查询与文档相关度,忽略了它们短语层面间的语义信息。针对该问题,提出一种名为MSIR(Multi-Scale IR)的IR方法。所提方法通过融合查询与文档中多种不同粒度的语义信息提高IR性能。首先,构建查询和文档中词语、短语和文本这3个粒度的语义单元;其次,利用预训练模型对这3个语义单元分别进行编码获得它们的语义表征;最后,利用语义表征计算查询和文档相关度。在Corvid-19、TREC2019和Robust04这3个不同大小的经典数据集上进行了对比实验。与ColBERT(ranking model based on Contextualized late interaction over BERT(Bidirectional Encoder Representation from Transformers))相比,MSIR在Robust04数据集的P@10、P@20、NDCG@10和NDCG@20指标上均实现了约8%的提升,同时在Corvid-19和TREC2019数据集上也取得了一定的改进。实验结果表明,MSIR能够成功融合多种语义粒度,提升检索精度。展开更多
文摘随着社交网络的普及和多媒体数据的急剧增长,有效的跨模态检索引起了人们越来越多的关注.由于哈希有效的检索效率和低存储成本,其被广泛用于跨模态检索任务中.然而,这些基于深度学习的跨模态哈希检索方法大多数是利用图像网络和文本网络各自生成对应模态的哈希码,难以获得更加有效的哈希码,无法进一步减小不同模态数据之间的模态鸿沟.为了更好地提高跨模态哈希检索的性能,本文提出了一种基于迁移知识的跨模态双重哈希(Cross-modal Dual Hashing based on Transfer Knowledge,CDHTK).CDHTK通过结合图像网络、知识迁移网络以及文本网络进行跨模态哈希检索任务.对于图像模态,CDHTK融合图像网络和知识迁移网络各自生成的哈希码,进而生成具有判别性的图像哈希码;对于文本模态,CDHTK融合文本网络和知识迁移网络各自生成的哈希码,从而生成有效的文本哈希码.CDHTK通过采用预测标签的交叉熵损失、生成哈希码的联合三元组量化损失以及迁移知识的差分损失来共同优化哈希码的生成过程,从而提高模型的检索效果,在2个常用的数据集(IAPR TC-12,MIR-Flickr 25K)上进行的实验验证了CDHTK的有效性,比当前最先进的跨模态哈希方法(Adaptive Label correlation based asymm Etric Cross-modal Hashing,ALECH)分别高出6.82%和5.13%.
文摘基于检索增强生成(RAG)的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题,提出一种多策略检索增强生成(MSRAG)方法。首先,根据用户输入的查询特点自适应地匹配检索模型来召回相关文本;其次,利用文本过滤器提取出能够回答问题的关键文本片段;再次,使用文本过滤器进行内容有效性判断以启动基于同义词拓展的查询改写,并将初始查询与改写后的信息合并输入检索控制器以进行更有针对性的再次检索;最后,合并能够回答问题的关键文本片段和问题,并使用提示工程输入生成答案模型来生成响应返回给用户。实验结果表明,MSRAG方法在军事领域数据集(Military)和Medical数据集的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation Longest common subsequence)指标上相较于凸线性组合RAG方法分别提高了14.35和5.83个百分点。可见,MSRAG方法具备较强的通用性和可移植性,能够缓解非必要查询改写导致的语义漂移现象,有效帮助大模型生成更准确的答案。
文摘现有的视频-文本检索(VTR)方法通常假设文本描述与视频之间存在强语义关联,却忽略了数据集中广泛存在的弱相关视频文本对,导致模型虽然擅长识别常见的通用概念,但无法充分挖掘弱语义描述的潜在信息,进而影响模型的检索性能。针对上述问题,提出一种跨模态信息融合的VTR模型,该模型以跨模态的方式利用相关的外部知识改进模型的检索性能。首先,构建2个外部知识检索模块,分别用于实现视频与外部知识的检索以及文本与外部知识的检索,以便后续借助外部知识强化原始视频和文本的特征表示;其次,设计自适应交叉注意力的跨模态信息融合模块,以去除视频和文本中的冗余信息,并利用不同模态间的互补信息融合特征,学习更具判别性的特征表示;最后,引入模态间和模态内的相似性损失函数,以确保数据在融合特征空间、视频特征空间和文本特征空间下信息表征的完整性,从而实现跨模态数据间的精准检索。实验结果表明,与MuLTI模型相比,所提模型在公共数据集MSRVTT(Microsoft Research Video to Text)和DiDeMo(Distinct Describable Moments)上的召回率R@1分别提升了2.0和1.9个百分点;与CLIP-ViP模型相比,所提模型在公共数据集LSMDC(Large Scale Movie Description Challenge)上的R@1提高了2.9个百分点。可见,所提模型能有效解决VTR任务中的弱相关数据的问题,从而提升模型的检索准确率。
文摘文本-图像行人检索(text-based person retrieval)作为多模态智能监控系统的核心任务,旨在通过自由形式的文本描述从大规模数据库中识别目标行人图像,在公共安全与视频取证领域具有关键应用价值,如刑事侦查中的嫌疑人追踪及跨摄像头取证分析.传统方法通常基于图像-文本对完美对齐的理想化假设,忽视了实际场景中普遍存在的复杂噪声数据问题,即视觉实例与其文本标注间因人工标注偏差、网络爬取噪声,或局部视觉属性与全局文本语境间的语义粒度失配而产生的错误或歧义性关联.为弥补这一缺陷,提出了一种语义感知噪声关联学习框架,通过双重创新机制系统性地实现噪声辨识与鲁棒学习.首先,语义感知噪声辨识准则融合模态内语义一致性与跨模态交互信号,基于自适应阈值判定精准区分噪声关联;其次,噪声鲁棒互补学习范式实施差异化优化策略:对于可靠子集采用对比损失进行正向学习以增强特征判别性,而对噪声子集则通过反向学习以抑制过拟合.在3个公开基准数据集上的大量实验表明,该方法在合成噪声数据与真实噪声数据场景中均展现出优越性能.
文摘信息检索(IR)是一种通过特定的技术和方法组织、处理信息,以满足用户的信息需求的过程。近年来,基于预训练模型的稠密检索方法取得了巨大的成功;然而,这些方法只利用了文本和词语的向量表征计算查询与文档相关度,忽略了它们短语层面间的语义信息。针对该问题,提出一种名为MSIR(Multi-Scale IR)的IR方法。所提方法通过融合查询与文档中多种不同粒度的语义信息提高IR性能。首先,构建查询和文档中词语、短语和文本这3个粒度的语义单元;其次,利用预训练模型对这3个语义单元分别进行编码获得它们的语义表征;最后,利用语义表征计算查询和文档相关度。在Corvid-19、TREC2019和Robust04这3个不同大小的经典数据集上进行了对比实验。与ColBERT(ranking model based on Contextualized late interaction over BERT(Bidirectional Encoder Representation from Transformers))相比,MSIR在Robust04数据集的P@10、P@20、NDCG@10和NDCG@20指标上均实现了约8%的提升,同时在Corvid-19和TREC2019数据集上也取得了一定的改进。实验结果表明,MSIR能够成功融合多种语义粒度,提升检索精度。