现有的视频-文本检索(VTR)方法通常假设文本描述与视频之间存在强语义关联,却忽略了数据集中广泛存在的弱相关视频文本对,导致模型虽然擅长识别常见的通用概念,但无法充分挖掘弱语义描述的潜在信息,进而影响模型的检索性能。针对上述问...现有的视频-文本检索(VTR)方法通常假设文本描述与视频之间存在强语义关联,却忽略了数据集中广泛存在的弱相关视频文本对,导致模型虽然擅长识别常见的通用概念,但无法充分挖掘弱语义描述的潜在信息,进而影响模型的检索性能。针对上述问题,提出一种跨模态信息融合的VTR模型,该模型以跨模态的方式利用相关的外部知识改进模型的检索性能。首先,构建2个外部知识检索模块,分别用于实现视频与外部知识的检索以及文本与外部知识的检索,以便后续借助外部知识强化原始视频和文本的特征表示;其次,设计自适应交叉注意力的跨模态信息融合模块,以去除视频和文本中的冗余信息,并利用不同模态间的互补信息融合特征,学习更具判别性的特征表示;最后,引入模态间和模态内的相似性损失函数,以确保数据在融合特征空间、视频特征空间和文本特征空间下信息表征的完整性,从而实现跨模态数据间的精准检索。实验结果表明,与MuLTI模型相比,所提模型在公共数据集MSRVTT(Microsoft Research Video to Text)和DiDeMo(Distinct Describable Moments)上的召回率R@1分别提升了2.0和1.9个百分点;与CLIP-ViP模型相比,所提模型在公共数据集LSMDC(Large Scale Movie Description Challenge)上的R@1提高了2.9个百分点。可见,所提模型能有效解决VTR任务中的弱相关数据的问题,从而提升模型的检索准确率。展开更多
文摘现有的视频-文本检索(VTR)方法通常假设文本描述与视频之间存在强语义关联,却忽略了数据集中广泛存在的弱相关视频文本对,导致模型虽然擅长识别常见的通用概念,但无法充分挖掘弱语义描述的潜在信息,进而影响模型的检索性能。针对上述问题,提出一种跨模态信息融合的VTR模型,该模型以跨模态的方式利用相关的外部知识改进模型的检索性能。首先,构建2个外部知识检索模块,分别用于实现视频与外部知识的检索以及文本与外部知识的检索,以便后续借助外部知识强化原始视频和文本的特征表示;其次,设计自适应交叉注意力的跨模态信息融合模块,以去除视频和文本中的冗余信息,并利用不同模态间的互补信息融合特征,学习更具判别性的特征表示;最后,引入模态间和模态内的相似性损失函数,以确保数据在融合特征空间、视频特征空间和文本特征空间下信息表征的完整性,从而实现跨模态数据间的精准检索。实验结果表明,与MuLTI模型相比,所提模型在公共数据集MSRVTT(Microsoft Research Video to Text)和DiDeMo(Distinct Describable Moments)上的召回率R@1分别提升了2.0和1.9个百分点;与CLIP-ViP模型相比,所提模型在公共数据集LSMDC(Large Scale Movie Description Challenge)上的R@1提高了2.9个百分点。可见,所提模型能有效解决VTR任务中的弱相关数据的问题,从而提升模型的检索准确率。