现有的视频-文本检索(VTR)方法通常假设文本描述与视频之间存在强语义关联,却忽略了数据集中广泛存在的弱相关视频文本对,导致模型虽然擅长识别常见的通用概念,但无法充分挖掘弱语义描述的潜在信息,进而影响模型的检索性能。针对上述问...现有的视频-文本检索(VTR)方法通常假设文本描述与视频之间存在强语义关联,却忽略了数据集中广泛存在的弱相关视频文本对,导致模型虽然擅长识别常见的通用概念,但无法充分挖掘弱语义描述的潜在信息,进而影响模型的检索性能。针对上述问题,提出一种跨模态信息融合的VTR模型,该模型以跨模态的方式利用相关的外部知识改进模型的检索性能。首先,构建2个外部知识检索模块,分别用于实现视频与外部知识的检索以及文本与外部知识的检索,以便后续借助外部知识强化原始视频和文本的特征表示;其次,设计自适应交叉注意力的跨模态信息融合模块,以去除视频和文本中的冗余信息,并利用不同模态间的互补信息融合特征,学习更具判别性的特征表示;最后,引入模态间和模态内的相似性损失函数,以确保数据在融合特征空间、视频特征空间和文本特征空间下信息表征的完整性,从而实现跨模态数据间的精准检索。实验结果表明,与MuLTI模型相比,所提模型在公共数据集MSRVTT(Microsoft Research Video to Text)和DiDeMo(Distinct Describable Moments)上的召回率R@1分别提升了2.0和1.9个百分点;与CLIP-ViP模型相比,所提模型在公共数据集LSMDC(Large Scale Movie Description Challenge)上的R@1提高了2.9个百分点。可见,所提模型能有效解决VTR任务中的弱相关数据的问题,从而提升模型的检索准确率。展开更多
针对知识推理模型在捕获实体之间的复杂语义特征方面难以捕捉多层次语义信息,同时未考虑单一路径的可解释性对正确答案的影响权重不同等问题,提出一种融合路径与子图特征的知识图谱(KG)多跳推理模型PSHAM(Hierarchical Attention Model ...针对知识推理模型在捕获实体之间的复杂语义特征方面难以捕捉多层次语义信息,同时未考虑单一路径的可解释性对正确答案的影响权重不同等问题,提出一种融合路径与子图特征的知识图谱(KG)多跳推理模型PSHAM(Hierarchical Attention Model fusing Path-Subgraph features)。PS-HAM将实体邻域信息与连接路径信息进行融合,并针对不同路径探索多粒度的特征。首先,使用路径级特征提取模块提取每个实体对之间的连接路径,并采用分层注意力机制捕获不同粒度的信息,且将这些信息作为路径级的表示;其次,使用子图特征提取模块通过关系图卷积网络(RGCN)聚合实体的邻域信息;最后,使用路径-子图特征融合模块对路径级与子图级特征向量进行融合,以实现融合推理。在两个公开数据集上进行实验的结果表明,PS-HAM在指标平均倒数秩(MRR)和Hit@k(k=1,3,10)上的性能均存在有效提升。对于指标MRR,与MemoryPath模型相比,PS-HAM在FB15k-237和WN18RR数据集上分别提升了1.5和1.2个百分点。同时,对子图跳数进行的参数验证的结果表明,PS-HAM在两个数据集上都在子图跳数在3时推理效果达到最佳。展开更多
文摘现有的视频-文本检索(VTR)方法通常假设文本描述与视频之间存在强语义关联,却忽略了数据集中广泛存在的弱相关视频文本对,导致模型虽然擅长识别常见的通用概念,但无法充分挖掘弱语义描述的潜在信息,进而影响模型的检索性能。针对上述问题,提出一种跨模态信息融合的VTR模型,该模型以跨模态的方式利用相关的外部知识改进模型的检索性能。首先,构建2个外部知识检索模块,分别用于实现视频与外部知识的检索以及文本与外部知识的检索,以便后续借助外部知识强化原始视频和文本的特征表示;其次,设计自适应交叉注意力的跨模态信息融合模块,以去除视频和文本中的冗余信息,并利用不同模态间的互补信息融合特征,学习更具判别性的特征表示;最后,引入模态间和模态内的相似性损失函数,以确保数据在融合特征空间、视频特征空间和文本特征空间下信息表征的完整性,从而实现跨模态数据间的精准检索。实验结果表明,与MuLTI模型相比,所提模型在公共数据集MSRVTT(Microsoft Research Video to Text)和DiDeMo(Distinct Describable Moments)上的召回率R@1分别提升了2.0和1.9个百分点;与CLIP-ViP模型相比,所提模型在公共数据集LSMDC(Large Scale Movie Description Challenge)上的R@1提高了2.9个百分点。可见,所提模型能有效解决VTR任务中的弱相关数据的问题,从而提升模型的检索准确率。