期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向函数图像数据的多模态大模型训练策略
1
作者 明一博 陈彦敏 赵嘉璐 《计算机应用研究》 北大核心 2025年第11期3421-3429,共9页
近年来,多模态大语言模型经历了快速发展,并在各种多模态下游任务中展现了卓越的性能。然而,当前主流的多模态大语言模型在函数图像推理任务中的表现仍不尽如人意,这要求模型不仅具备强大的视觉感知能力,还需进行链式思维推理,以准确理... 近年来,多模态大语言模型经历了快速发展,并在各种多模态下游任务中展现了卓越的性能。然而,当前主流的多模态大语言模型在函数图像推理任务中的表现仍不尽如人意,这要求模型不仅具备强大的视觉感知能力,还需进行链式思维推理,以准确理解和解答涉及数学函数的问题。为了解决这些问题,首先构建了一个专门针对函数图像推理任务的指令微调数据集FunctionQA。每条数据除标准问答对外,还包含详细的链式推理过程,确保模型在训练过程中能够学习到复杂的推理步骤。其次,针对函数图像推理任务,设计了一种四阶段微调策略,逐步优化视觉编码器、多模态适配器和大语言模型,并结合LoRA技术以降低训练成本。实验结果表明,基于LLaVA框架构建的mFunction-4B模型,经FunctionQA数据集与四阶段微调策略的优化后,以4B参数量在MathVista testmini FunctionQA子集上达到43.55%的准确率,较基线模型LLaVA-1.5-7B提升14.52%,验证了其方法的可行性和有效性。 展开更多
关键词 多模态大语言模型 链式思维推理 指令微调 LoRA
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部