-
题名多模态视觉语言表征学习研究综述
被引量:36
- 1
-
-
作者
杜鹏飞
李小勇
高雅丽
-
机构
可信分布式计算与服务教育部重点实验室(北京邮电大学)
北京邮电大学网络空间安全学院
-
出处
《软件学报》
EI
CSCD
北大核心
2021年第2期327-348,共22页
-
基金
国家自然科学基金(U1836215)。
-
文摘
我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.主要介绍了目前应用较广的视觉语言表征的相应研究工作,包括传统的基于相似性模型的研究方法和目前主流的基于语言模型的预训练的方法.目前比较好的思路和解决方案是将视觉特征语义化,然后与文本特征通过一个强大的特征抽取器产生出表征,其中,Transformer作为主要的特征抽取器被应用表征学习的各类任务中.分别从研究背景、不同研究方法的划分、测评方法、未来发展趋势等几个不同角度进行阐述.
-
关键词
多模态表征学习
表征学习
多模态机器学习
深度学习
-
Keywords
multimodal representation learning
representation learning
multimodal machine learning
deep learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于模态特异及模态共享特征信息的多模态细粒度检索
被引量:4
- 2
-
-
作者
李佩
陈乔松
陈鹏昌
邓欣
王进
朴昌浩
-
机构
重庆邮电大学计算机科学与技术学院
数据工程与认知计算重庆市重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第11期62-68,76,共8页
-
基金
国家自然科学基金(61806033)
国家社会科学基金西部项目(18XGL013)。
-
文摘
跨模态检索的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本,多模态细粒度检索在跨模态检索基础上强调模态的数量至少大于两个,且待检索样本的分类标准为细粒度子类,存在多模态数据间的异构鸿沟及细粒度样本特征差异小等难题。引入模态特异特征及模态共享特征的概念,提出一种多模态细粒度检索框架MS2Net。使用分支网络及主干网络分别提取不同模态数据的模态特异特征及模态共享特征,将两种特征通过多模态特征融合模块进行充分融合,同时利用各个模态自身的特有信息及不同模态数据间的共性及联系,增加高维空间向量中包含的语义信息。针对多模态细粒度检索场景,在center loss函数的基础上提出multi-center loss函数,并引入类内中心来聚集同类别且同模态的样本,根据聚集类内中心来间接聚集同类别但模态不同的样本,同时消减样本间的异构鸿沟及语义鸿沟,增强模型对高维空间向量的聚类能力。在公开数据集FG-Xmedia上进行一对一与一对多的模态检索实验,结果表明,与FGCrossNet方法相比,MS2Net方法 mAP指标分别提升65%和48%。
-
关键词
信息检索
多模态检索
细粒度检索
多模态表征学习
深度学习
-
Keywords
information retrieval
multi-modal retrieval
fine-grained retrieval
multi-modal representation learning
deep learning
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-