-
题名面向多模态预训练的子图匹配式对比学习方法研究
- 1
-
-
作者
陈公冠
刘慧
李恒泰
郭强
张彩明
-
机构
山东财经大学计算机与人工智能学院
山东省数字经济轻量智算与可视化重点实验室
山东大学软件学院
-
出处
《计算机学报》
北大核心
2025年第4期893-909,共17页
-
基金
国家自然科学基金(62072274,U22A2033)
中央引导地方科技发展项目(YDZX2022009)
+1 种基金
山东省泰山学者特聘专家计划(tstp20221137)
济南市人才发展专项资金(202333037)资助。
-
文摘
通过图像文本对的联合学习,多模态预训练大模型在各种视觉任务中展现出巨大的潜力,比如在高质量数据集匮乏的医学领域。然而,现有的模态匹配式预训练方法通常使用全局匹配的方式,易受到低质量信息的干扰。尽管少量研究开始关注局部匹配,但这些方法仅仅通过简单的池化操作来缩小匹配范围,忽略了跨模态重要对象之间的内在关系以及跨样本对之间同语义表征的获取。鉴于此,本文在多模态大模型的预训练过程中,提出了一种基于图神经网络的消息传递机制,对多模态数据特征进行节点化和子图化,从而将跨模态的匹配方式由全局匹配转变为子图匹配,减少低质量信息的干扰。同时,利用交叉注意力在单一模态内进行子图级别的差异化处理,使其在跨模态学习中建立更细致的关联和语义理解。此外,提出高维空间的样本对聚类方法,以减少多模态大模型对相同语义的无关联错误表达。在涵盖图像分类、病灶区域目标检测和语义分割任务的七个医学图像数据集上进行了大量实验,验证了本文所提出模型的可行性和优越性能。同时在表情识别任务中进行实验,验证了本文模型的泛化性能。
-
关键词
多模态预训练大模型
局部匹配
子图匹配
无关联错误
聚类
-
Keywords
multi-modal pretrained large-scale models
local matching
subgraph matching
unrelated errors
clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-