-
题名典型概念驱动的模态缺失深度跨模态检索
- 1
-
-
作者
夏鑫雨
朱磊
聂秀山
董国华
张化祥
-
机构
山东师范大学信息科学与工程学院
山东建筑大学计算机科学与技术学院
军事认知与脑科学研究所
-
出处
《计算机辅助设计与图形学学报》
北大核心
2025年第3期519-532,共14页
-
基金
国家自然科学基金(62172263)
山东省自然科学基金(ZR2020YQ47,ZR2019QF002)
山东省高等学校青年创新团队基金(2019KJN040).
-
文摘
跨模态检索使用一种模态的数据作为查询条件,在另一种模态中检索语义相关的数据.绝大多数的跨模态检索方法仅适用于模态完备条件下的跨模态检索场景,它们对缺失模态数据的处理能力仍有待提升,为此,提出一种典型概念驱动的模态缺失深度跨模态检索模型.首先提出一个融合多模态预训练网络的多模态Transformer模型,能在模态缺失的情况下充分地进行多模态细粒度语义交互,提取多模态融合语义并构造跨模态子空间,同时引导学习生成多模态典型概念;然后使用典型概念作为跨注意力的键和值来驱动模态映射网络的训练,使模态映射网络可以自适应地感知查询模态数据中隐含的多模态语义概念,生成跨模态检索特征,充分地保留训练提取的多模态融合语义.在Wikipedia,Pascal-Sentence,NUS-WIDE和XmediaNet这4个基准跨模态检索数据集上的实验结果表明,所提模型比文中对比模型的平均准确率均值分别提高了1.7%,5.1%,1.6%和5.4%.该模型的源代码可在https://gitee.com/MrSummer123/CPCMR网站获得.
-
关键词
深度跨模态检索
缺失模态
多模态Transformer
典型概念
模态映射网络
-
Keywords
deep cross-modal retrieval
incomplete modality
multi-modal Transformer
typical concepts
modality mapping network
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-