-
题名基于选择状态空间的三模态适配器
- 1
-
-
作者
刘弘业
陈锡爱
曾涛
-
机构
中国计量大学机电工程学院
-
出处
《计算机应用》
北大核心
2025年第2期411-420,共10页
-
基金
国家自然科学基金资助项目(52005472)。
-
文摘
预训练再微调范式广泛应用于各种单模态和多模态的任务中。然而,随着模型规模的指数级别增长,微调预训练模型的所有参数变得非常困难。为了解决这个问题,设计一种基于选择状态空间的三模态适配器,它可以冻结预训练模型,只针对少量额外的参数微调,并完成三模态间的密集交互。具体地,提出一个基于选择状态空间的长期语义选择模块和一个基于视觉或音频中心的短期语义交互模块,这两个模块被按顺序插入各顺序编码器之间,以完成三模态信息的密集交互。长期语义选择模块旨在抑制三模态中的冗余信息,短期语义交互模块则对短时间内的局部模态特征进行交互建模。与之前需要在大规模三模态数据集上进行预训练的方法相比,所提方法更灵活,它可以继承任意强大的单模态或双模态模型。在Music-AVQA三模态评测数据集上,所提方法取得了80.19%的平均准确率,较LAVISH提升了4.09个百分点。
-
关键词
预训练再微调
选择状态空间
三模态
长期语义
短期语义
-
Keywords
pre-training-then-fine-tuning
selective state space
tri-modal
long-term semantics
short-term semantics
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-