期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于多元实体对齐的视觉-语言多模态预训练
1
作者
李登
武阿明
韩亚洪
《软件学报》
北大核心
2025年第11期5118-5133,共16页
视觉-语言预训练(visual-language pre-training,VLP)旨在通过在大规模图像-文本多模态数据集上进行学习得到强大的多模态表示.多模态特征融合、对齐是多模态模型训练的关键挑战.现有的大多数视觉-语言预训练模型对于多模态特征融合、...
视觉-语言预训练(visual-language pre-training,VLP)旨在通过在大规模图像-文本多模态数据集上进行学习得到强大的多模态表示.多模态特征融合、对齐是多模态模型训练的关键挑战.现有的大多数视觉-语言预训练模型对于多模态特征融合、对齐问题主要方式是将提取的视觉特征和文本特征直接输入至Transformer模型中.通过Transformer模型中的attention模块进行融合,由于attention机制计算的是两两之间的相似度,因而该方法难以实现多元实体间的对齐.鉴于超图神经网络的超边具有连接多个实体、编码高阶实体相关性的特性,进而实现多元实体间关系的建立.提出基于超图神经网络的多元实体对齐的视觉-语言多模态模型预训练方法.该方法在Transformer多模态融合编码器中引入超图神经网络学习模块学习多模态间多元实体的对齐关系以增强预训练模型中多模态融合编码器实体对齐能力.在大规模图像-文本数据集上对所提视觉-语言预训练模型进行预训练并在视觉问答、图文检索、视觉定位以及自然语言视觉推理多个视觉-语言下游任务上进行微调实验,实验结果表明所提方法相比于baseline方法在多个下游任务中性能均有提升,其中在NLVR2任务上相比baseline方法准确率提升1.8%.
展开更多
关键词
视觉-语言预训练
超图神经网络
多元实体对齐
注意力机制
多模态理解
在线阅读
下载PDF
职称材料
题名
基于多元实体对齐的视觉-语言多模态预训练
1
作者
李登
武阿明
韩亚洪
机构
天津大学智能与计算学部
西安电子科技大学电子工程学院
出处
《软件学报》
北大核心
2025年第11期5118-5133,共16页
基金
国家自然科学基金(62376186,61932009)。
文摘
视觉-语言预训练(visual-language pre-training,VLP)旨在通过在大规模图像-文本多模态数据集上进行学习得到强大的多模态表示.多模态特征融合、对齐是多模态模型训练的关键挑战.现有的大多数视觉-语言预训练模型对于多模态特征融合、对齐问题主要方式是将提取的视觉特征和文本特征直接输入至Transformer模型中.通过Transformer模型中的attention模块进行融合,由于attention机制计算的是两两之间的相似度,因而该方法难以实现多元实体间的对齐.鉴于超图神经网络的超边具有连接多个实体、编码高阶实体相关性的特性,进而实现多元实体间关系的建立.提出基于超图神经网络的多元实体对齐的视觉-语言多模态模型预训练方法.该方法在Transformer多模态融合编码器中引入超图神经网络学习模块学习多模态间多元实体的对齐关系以增强预训练模型中多模态融合编码器实体对齐能力.在大规模图像-文本数据集上对所提视觉-语言预训练模型进行预训练并在视觉问答、图文检索、视觉定位以及自然语言视觉推理多个视觉-语言下游任务上进行微调实验,实验结果表明所提方法相比于baseline方法在多个下游任务中性能均有提升,其中在NLVR2任务上相比baseline方法准确率提升1.8%.
关键词
视觉-语言预训练
超图神经网络
多元实体对齐
注意力机制
多模态理解
Keywords
visual-language pre-training(VLP)
hypergraph neural network
multi-entity alignment
attention mechanism
multi-modal understanding
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于多元实体对齐的视觉-语言多模态预训练
李登
武阿明
韩亚洪
《软件学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部