-
题名用于图文检索的跨模态信息交互推理网络
被引量:2
- 1
-
-
作者
魏钰琦
李宁
-
机构
东北大学理学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2023年第16期115-124,共10页
-
文摘
针对跨模态检索任务中图像与文本模态的语义特征复杂度不一致问题,提出了一种局部细粒度对齐与全局特征推理相结合的图文匹配方法。首先将图像和文本特征输入自适应交叉注意网络,该网络在交叉注意机制内设置门控单元,利用文本(图像)模态中的相关语义特征,自适应地引导图像(文本)模态的交叉注意。突出关键的局部对齐特征的同时及时高效地过滤掉冗余的交互信息,从而实现更精准的细粒度对齐。然后利用自适应交叉注意网络输出的包含文本(图像)引导信息的特征,在全局推理网络中逐步合成图像(文本)全局对齐特征。不仅利用这些特征之间的长短期记忆关系灵活地将细粒度对齐特征融合为全局特征,并且在迭代更新当前全局特征时,能够根据跨模态交互信息加深对整体潜在语义信息的理解。最后采用交叉熵损失函数训练整个模型。提出的模型在公开数据集MS COCO和Flickr 30k上进行一系列实验,利用Recall@K指标对比实验结果,证明该模型优于目前的先进模型。
-
关键词
跨模态图文检索
交叉注意力
关系推理
多模态交互
-
Keywords
cross-modal image retrieval
cross-attention
relational reasoning
multimodal interaction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名图文跨模态检索研究进展
被引量:3
- 2
-
-
作者
张飞飞
马泽伟
周玲
孟铃涛
-
机构
天津理工大学计算机科学与工程学院
中南大学交通运输工程学院
-
出处
《数据采集与处理》
CSCD
北大核心
2023年第3期479-505,共27页
-
基金
国家重点研发计划(2018AAA0102200)
国家自然科学基金(62036012,62002355,62072455,62102415,62106262)
天津市自然科学基金(22JCYBJC00030)。
-
文摘
随着互联网技术的迅速发展,文本和图像等各种类型的数据在网络上呈现爆发式增长,如何从这些多源异构且语义关联的多模态数据中获取有价值的信息则尤为重要。跨模态检索能够突破模态的限制,跨越不同模态的数据进行信息检索,满足用户获取有关事件信息的需求。近年来,跨模态检索已经成为了学术界和工业界研究的热点问题。本文聚焦于图文跨模态检索任务,首先介绍图文跨模态检索的定义,并分析说明了当前该任务面临的挑战。其次,对现有的研究方法进行归纳总结,将其分为3大类:(1)传统方法;(2)基于深度学习的方法;(3)基于哈希表示的方法。然后,详细介绍了图文跨模态检索的常用数据集,并对常用数据集上已有算法进行详细分析与比较。最后,对图文跨模态检索任务的未来发展方向进行展望。
-
关键词
多模态学习
图文跨模态检索
深度学习
自监督学习
哈希学习
-
Keywords
multimodal learning
image-text retrieval
deep learning
self-supervised learning
Hash learning
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于文本生成与迭代匹配的图像-文本检索
- 3
-
-
作者
潘莹莹
马青
白琮
-
机构
浙江工业大学计算机科学与技术学院
浙江工业大学理学院
-
出处
《计算机辅助设计与图形学学报》
北大核心
2025年第5期856-864,共9页
-
基金
国家自然科学基金(62102365,61976192)
浙江省杰出青年科学基金(LR21F020002)。
-
文摘
跨模态图文检索由于图像和文本的特征表示方式不同面临着模态异构问题,传统的公共空间方法难以度量图像和文本的相似性.为此,提出了基于文本生成与迭代匹配的跨模态图像文本检索框架,它包含了特征融合模块和文本生成模块.特征融合模块通过迭代融合的方式,多次对齐图像和文本,在不同的迭代步骤中聚合细粒度信息,捕获图像和文本之间的局部关联信息,优化了局部公共嵌入空间;文本生成模块采用特征转换的思路,由图像模态中的特征映射到文本模态中的句子特征,通过图文信息交互增强了图像和文本的整体语义相关性,优化了全局公共嵌入空间,挖掘出图像与文本更深层的语义信息,以提高跨模态图像文本检索模型的性能.在Flickr30K和COCO数据集上进行了实验,并与现有的模型进行比较,结果表明,该框架在Flickr30K和COCO上的整体性能分别提升了0.7%和1.2%.在文本检索任务的召回指标中,最高可以提升3.4%;在图像检索任务的召回指标中,最高可以提升4.6%.消融实验也证明了其中特征融合模块以及文本生成模块的有效性.
-
关键词
跨模态图文检索
文本生成
公共空间
特征融合
迭代匹配
-
Keywords
cross-modal image-text retrieval
text generation
public spaces
feature fusion
iterative matching
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-