期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于多元实体对齐的视觉-语言多模态预训练
1
作者 李登 武阿明 韩亚洪 《软件学报》 北大核心 2025年第11期5118-5133,共16页
视觉-语言预训练(visual-language pre-training,VLP)旨在通过在大规模图像-文本多模态数据集上进行学习得到强大的多模态表示.多模态特征融合、对齐是多模态模型训练的关键挑战.现有的大多数视觉-语言预训练模型对于多模态特征融合、... 视觉-语言预训练(visual-language pre-training,VLP)旨在通过在大规模图像-文本多模态数据集上进行学习得到强大的多模态表示.多模态特征融合、对齐是多模态模型训练的关键挑战.现有的大多数视觉-语言预训练模型对于多模态特征融合、对齐问题主要方式是将提取的视觉特征和文本特征直接输入至Transformer模型中.通过Transformer模型中的attention模块进行融合,由于attention机制计算的是两两之间的相似度,因而该方法难以实现多元实体间的对齐.鉴于超图神经网络的超边具有连接多个实体、编码高阶实体相关性的特性,进而实现多元实体间关系的建立.提出基于超图神经网络的多元实体对齐的视觉-语言多模态模型预训练方法.该方法在Transformer多模态融合编码器中引入超图神经网络学习模块学习多模态间多元实体的对齐关系以增强预训练模型中多模态融合编码器实体对齐能力.在大规模图像-文本数据集上对所提视觉-语言预训练模型进行预训练并在视觉问答、图文检索、视觉定位以及自然语言视觉推理多个视觉-语言下游任务上进行微调实验,实验结果表明所提方法相比于baseline方法在多个下游任务中性能均有提升,其中在NLVR2任务上相比baseline方法准确率提升1.8%. 展开更多
关键词 视觉-语言预训练 超图神经网络 多元实体对齐 注意力机制 多模态理解
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部