基于跨模态引导和对齐的多模态预训练方法

Multimodal Pretraining with Cross-Modal Guidance and Alignment

在线阅读下载PDF

导出

摘要现有的视觉语言多模态预训练方法仅在图像和文本的全局语义上进行特征对齐,对模态间细粒度特征交互的探索不足.针对这一问题,本文提出了一种基于跨模态引导和对齐的多模态预训练方法.该方法在模态特征提取阶段,采用基于视觉序列压缩的双流特征提取网络,在视觉编码器中联合图像和文本信息逐层引导视觉序列压缩,缓解与文本无关的冗余视觉信息对模态间细粒度交互的干扰;在模态特征对齐阶段,对图像和文本特征进行细粒度关系推理,实现视觉标记与文本标记的局部特征对齐,增强对模态间细粒度对齐关系的理解.实验结果表明,本文方法能够更好地对齐视觉文本的细粒度特征,在图文检索任务中,微调后的图像检索和文本检索的平均召回率分别达到了86.4%和94.88%,且零样本图文检索的整体指标相较于经典图文检索算法CLIP(Contrastive Language-Image Pre-training)提升了5.36%,在视觉问答等分类任务中,准确率也优于目前主流多模态预训练方法. Current multimodal pre-training techniques for visual languages predominantly focus on aligning global semantic features between images and text,yet they inadequately explore the granular feature interactions between modalities.Addressing this gap,this paper proposes a novel multimodal pre-training strategy informed by cross-modal guidance and alignment.Our method employs a dual-stream feature extraction network designed for visual sequence compression,to facilitate modality feature extraction.During this phase,a synergistic image-text guidance is integrated within the visual encoder,orchestrating the compression of visual sequences layer by layer.This approach mitigates the obfuscation of modality-specific fine-grained interactions by irrelevant visual information.Subsequently,in the modality feature alignment phase,we implement fine-grained relational reasoning on the image and textual features to achieve localized feature alignment among visual tokens and textual tokens.This advancement bolsters the model's comprehension of fine-grained alignment relationships.After fine-tuning,in the image-text retrieval tasks,our approach achieves an average recall rate of 86.4%for images and 94.88%for texts,which represents a significant 5.36%improvement in zero-shot image-text retrieval over the canonical CLIP(Contrastive Language-Image Pre-training)algorithm.Moreover,our method also surpasses existing mainstream multimodal pre-training methods in accuracy for classification tasks like visual question answering.

作者才华易亚希付强冉越孙俊喜 CAI Hua;YI Ya-xi;FU Qiang;RAN Yue;SUN Jun-xi(School of Electronic Information and Engineering,Changchun,Jilin 130022,China;Changchun China Optics Science and Technology Museum,Changchun,Jilin 130117,China;School of Opto-Electronic Engineer,Changchun University of Science and Technology,Changchun,Jilin 130022,China;School of Information Science and Technology,Northeast Normal University,Changchun,Jilin 130117,China)

机构地区长春理工大学电子信息工程学院长春中国光学科学技术馆长春理工大学空间光电技术研究所东北师范大学信息科学与技术学院

出处《电子学报》 EI CAS CSCD 北大核心 2024年第10期3368-3381,共14页 Acta Electronica Sinica

基金国家自然科学基金(No.61890963,No.U2341226) 吉林省人才专项(No.20240602015RC) 西安市飞行器光学成像与测量技术重点实验室开放基金(No.2023-13)。

关键词多模态预训练跨模态引导视觉序列压缩双流特征提取细粒度关系推理局部特征对齐 multimodal pre-training cross-modal guidance visual sequence compression dual-stream feature extraction fine-grained relational reasoning localized feature alignment

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介才华,男,1977年2月出生于吉林省辉南县.现为长春理工大学副教授、博士生导师.获吉林省科技进步奖1项.在国内外发表学术论文100余篇.研究方向为计算机视觉与自然语言处理,目前主持国家级省部级项目多项.E-mail:caihua@cust.edu.cn;易亚希,男,2001年2月出生于湖南省湘潭市.现为长春理工大学电子信息工程学院硕士研究生.主要研究方向为计算机视觉和视觉语言多模态.E-mail:2022100885@mails.cust.edu.cn;付强,男,1984年8月出生于吉林省长春市.现为长春理工大学空间光电技术研究所副所长.主要研究方向为光学传输特性测试与多维度成像探测.E-mail:fuqiang@cust.edu.cn;冉越,男,2000年4月出生于河南省南阳市.现为长春理工大学电子信息工程学院硕士研究生.主要研究方向为计算机视觉和视觉语言多模态.E-mail:ry13523068581@163.com;孙俊喜,男,1971年6月出生于河北省唐山市.现为东北师范大学信息科学与技术学院教授、博士生导师.主要研究方向为Al视觉与智能感知技术.E-mail:sunjx100@nenu.edu.cn。

引文网络
相关文献

参考文献4

1樊琳,龚勋,郑岑洋.基于文本引导下的多模态医学图像分析算法[J].电子学报,2024,52(7):2341-2355. 被引量：1
2李志欣,凌锋,张灿龙,马慧芳.融合两级相似度的跨媒体图像文本检索[J].电子学报,2021,49(2):268-274. 被引量：14
3汤嘉,郭燕,叶名玮,吴桂兴.面向多视角对比学习和语义增强的多模态预训练方法[J].计算机科学,2024,51(1):168-174. 被引量：2
4刘天义,吴祖煊,陈静静,姜育刚.面向视觉语言理解与生成的多模态预训练方法[J].软件学报,2023,34(5):2024-2034. 被引量：4

二级参考文献4

1金震东,刘枫.浅谈超声内镜的诊断标准及操作规范[J].临床消化病杂志,2006,18(3):132-134. 被引量：1
2张淑军,彭中,李辉.SAU-Net:基于U-Net和自注意力机制的医学图像分割方法[J].电子学报,2022,50(10):2433-2442. 被引量：21
3刘少鹏,赵慧民,洪佳明,吴晓航,许发宝,欧阳佳,梁鹏,熊建斌.面向医学图像生成的鲁棒条件生成对抗网络[J].电子学报,2023,51(2):427-437. 被引量：6
4中华医学会消化内镜分会NOTES、外科学组,中国医师协会内镜医师分会消化内镜专业委员会,中华医学会外科学分会胃肠外科学组,周平红,钟芸诗,李全林.中国消化道黏膜下肿瘤内镜诊治专家共识(2023版)[J].中国实用外科杂志,2023,43(3):241-251. 被引量：15

共引文献17

1韩会珍,刘立波.基于注意力和视觉语义推理的枸杞虫害检索[J].计算机科学,2022,49(S02):431-436. 被引量：1
2高蕴梅.面向数字文旅的图像文本跨模态检索方法[J].情报资料工作,2022,43(1):71-80. 被引量：2
3庾骏,黄伟,张晓波,尹贺峰.基于松弛Hadamard矩阵的多模态融合哈希方法[J].电子学报,2022,50(4):909-920. 被引量：2
4杜锦丰,王海荣,梁焕,王栋.基于表示学习的跨模态检索方法研究进展[J].广西师范大学学报（自然科学版）,2022,40(3):1-12. 被引量：4
5李志欣,侯传文,谢秀敏.利用多重相似度矩阵增强跨模态哈希检索[J].计算机辅助设计与图形学学报,2022,34(6):933-945. 被引量：6
6徐建博,魏昕,周亮.面向跨模态通信的信息恢复技术[J].电子学报,2022,50(7):1631-1642. 被引量：2
7曹中森.基于卷积神经网络图像融合算法的电力巡检系统研究[J].安阳师范学院学报,2022(5):29-32. 被引量：1
8魏钰琦,李宁.用于图文检索的跨模态信息交互推理网络[J].计算机工程与应用,2023,59(16):115-124. 被引量：2
9李志欣,侯传文,谢秀敏.融合多重实例关系的无监督跨模态哈希检索[J].软件学报,2023,34(11):4973-4988.
10袁琨鹏,米金鹏,陈智谦.基于模态预融合的三维指称表达理解[J].计算机应用研究,2023,40(12):3666-3671.

1蔡佳威,胡川,王华进,沈志宏.基于参考的基因序列压缩算法综述[J].数据与计算发展前沿（中英文）,2024,6(4):59-76.
2陆庆阳,袁广林,朱虹,秦晓燕,薛模根.一种基于对比学习大模型的视觉定位方法[J].电子学报,2024,52(10):3448-3458.
3习怡萌,秦飞舟,李宏斌,刘立波.结合全局和局部特征的深度哈希细粒度图像检索[J].西北工程技术学报,2024,23(3):281-288. 被引量：1
4马万民,王杉文,陈建林,牛浩青,欧鸥.基于HoFiBiAFM的点击率预测模型[J].计算机应用与软件,2024,41(10):170-176.
5王荣.考虑错层影响的某大型综合体地下室顶板受力分析[J].建筑科技,2024,8(8):63-68.
6张宏,帅冰.基于自然语言处理的FIDIC银皮书责任追溯混合模型[J].系统工程,2024,42(5):142-150.
7满芳滕,朱艳辉,张志轩,应旭剑,陈豪.基于视觉与文本语义增强的多模态命名实体识别方法[J].湖南工业大学学报,2025,39(1):64-71.
8万光荣,张青.汉语自然会话中的惊讶表达:基于韵律和身势的实证分析[J].湖南师范大学社会科学学报,2024,53(5):131-139.
9于雪,石珂,周腾飞,左志伟,沈清清,郭跃华,亓秀梅.母婴分离状态下新生儿母乳喂养护理质量评价指标体系的构建[J].中国实用护理杂志,2024,40(29):2262-2270.
10吕小宁.基于动态多尺度变换的资源信息快速检索技术[J].信息技术,2024,48(10):136-140.

电子学报

2024年第10期

浏览历史

内容加载中请稍等...

基于跨模态引导和对齐的多模态预训练方法

参考文献4

二级参考文献4

共引文献17

相关作者

相关机构

相关主题

浏览历史