-
题名面向函数图像数据的多模态大模型训练策略
- 1
-
-
作者
明一博
陈彦敏
赵嘉璐
-
机构
新疆师范大学计算机与科学技术学院
-
出处
《计算机应用研究》
北大核心
2025年第11期3421-3429,共9页
-
基金
新疆维吾尔自治区自然科学基金资助项目(2022D01A227)
新疆维吾尔自治区重点研发专项(2022B01007-1)。
-
文摘
近年来,多模态大语言模型经历了快速发展,并在各种多模态下游任务中展现了卓越的性能。然而,当前主流的多模态大语言模型在函数图像推理任务中的表现仍不尽如人意,这要求模型不仅具备强大的视觉感知能力,还需进行链式思维推理,以准确理解和解答涉及数学函数的问题。为了解决这些问题,首先构建了一个专门针对函数图像推理任务的指令微调数据集FunctionQA。每条数据除标准问答对外,还包含详细的链式推理过程,确保模型在训练过程中能够学习到复杂的推理步骤。其次,针对函数图像推理任务,设计了一种四阶段微调策略,逐步优化视觉编码器、多模态适配器和大语言模型,并结合LoRA技术以降低训练成本。实验结果表明,基于LLaVA框架构建的mFunction-4B模型,经FunctionQA数据集与四阶段微调策略的优化后,以4B参数量在MathVista testmini FunctionQA子集上达到43.55%的准确率,较基线模型LLaVA-1.5-7B提升14.52%,验证了其方法的可行性和有效性。
-
关键词
多模态大语言模型
链式思维推理
指令微调
LoRA
-
Keywords
multimodal large language model(MLLM)
chain thinking reasoning
instruction fine-tuning
low-rank adaptation(LoRA)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-