期刊文献+

基于跨模态引导和对齐的多模态预训练方法

Multimodal Pretraining with Cross-Modal Guidance and Alignment
在线阅读 下载PDF
导出
摘要 现有的视觉语言多模态预训练方法仅在图像和文本的全局语义上进行特征对齐,对模态间细粒度特征交互的探索不足.针对这一问题,本文提出了一种基于跨模态引导和对齐的多模态预训练方法.该方法在模态特征提取阶段,采用基于视觉序列压缩的双流特征提取网络,在视觉编码器中联合图像和文本信息逐层引导视觉序列压缩,缓解与文本无关的冗余视觉信息对模态间细粒度交互的干扰;在模态特征对齐阶段,对图像和文本特征进行细粒度关系推理,实现视觉标记与文本标记的局部特征对齐,增强对模态间细粒度对齐关系的理解.实验结果表明,本文方法能够更好地对齐视觉文本的细粒度特征,在图文检索任务中,微调后的图像检索和文本检索的平均召回率分别达到了86.4%和94.88%,且零样本图文检索的整体指标相较于经典图文检索算法CLIP(Contrastive Language-Image Pre-training)提升了5.36%,在视觉问答等分类任务中,准确率也优于目前主流多模态预训练方法. Current multimodal pre-training techniques for visual languages predominantly focus on aligning global semantic features between images and text,yet they inadequately explore the granular feature interactions between modalities.Addressing this gap,this paper proposes a novel multimodal pre-training strategy informed by cross-modal guidance and alignment.Our method employs a dual-stream feature extraction network designed for visual sequence compression,to facilitate modality feature extraction.During this phase,a synergistic image-text guidance is integrated within the visual encoder,orchestrating the compression of visual sequences layer by layer.This approach mitigates the obfuscation of modality-specific fine-grained interactions by irrelevant visual information.Subsequently,in the modality feature alignment phase,we implement fine-grained relational reasoning on the image and textual features to achieve localized feature alignment among visual tokens and textual tokens.This advancement bolsters the model's comprehension of fine-grained alignment relationships.After fine-tuning,in the image-text retrieval tasks,our approach achieves an average recall rate of 86.4%for images and 94.88%for texts,which represents a significant 5.36%improvement in zero-shot image-text retrieval over the canonical CLIP(Contrastive Language-Image Pre-training)algorithm.Moreover,our method also surpasses existing mainstream multimodal pre-training methods in accuracy for classification tasks like visual question answering.
作者 才华 易亚希 付强 冉越 孙俊喜 CAI Hua;YI Ya-xi;FU Qiang;RAN Yue;SUN Jun-xi(School of Electronic Information and Engineering,Changchun,Jilin 130022,China;Changchun China Optics Science and Technology Museum,Changchun,Jilin 130117,China;School of Opto-Electronic Engineer,Changchun University of Science and Technology,Changchun,Jilin 130022,China;School of Information Science and Technology,Northeast Normal University,Changchun,Jilin 130117,China)
出处 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3368-3381,共14页 Acta Electronica Sinica
基金 国家自然科学基金(No.61890963,No.U2341226) 吉林省人才专项(No.20240602015RC) 西安市飞行器光学成像与测量技术重点实验室开放基金(No.2023-13)。
关键词 多模态预训练 跨模态引导 视觉序列压缩 双流特征提取 细粒度关系推理 局部特征对齐 multimodal pre-training cross-modal guidance visual sequence compression dual-stream feature extraction fine-grained relational reasoning localized feature alignment
作者简介 才华,男,1977年2月出生于吉林省辉南县.现为长春理工大学副教授、博士生导师.获吉林省科技进步奖1项.在国内外发表学术论文100余篇.研究方向为计算机视觉与自然语言处理,目前主持国家级省部级项目多项.E-mail:caihua@cust.edu.cn;易亚希,男,2001年2月出生于湖南省湘潭市.现为长春理工大学电子信息工程学院硕士研究生.主要研究方向为计算机视觉和视觉语言多模态.E-mail:2022100885@mails.cust.edu.cn;付强,男,1984年8月出生于吉林省长春市.现为长春理工大学空间光电技术研究所副所长.主要研究方向为光学传输特性测试与多维度成像探测.E-mail:fuqiang@cust.edu.cn;冉越,男,2000年4月出生于河南省南阳市.现为长春理工大学电子信息工程学院硕士研究生.主要研究方向为计算机视觉和视觉语言多模态.E-mail:ry13523068581@163.com;孙俊喜,男,1971年6月出生于河北省唐山市.现为东北师范大学信息科学与技术学院教授、博士生导师.主要研究方向为Al视觉与智能感知技术.E-mail:sunjx100@nenu.edu.cn。
  • 相关文献

参考文献4

二级参考文献4

共引文献17

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部