期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
MeterReader++:基于视觉语言大模型的指针表计识读框架及应用
1
作者 王昌鹏 闫云凤 +2 位作者 齐冬莲 沈潇军 储海东 《高电压技术》 北大核心 2025年第4期1773-1784,共12页
指针式表计识读是工业数智化的关键任务,当前主要依赖目标检测、关键点定位等传统识别算法,存在低泛化性、强数据依赖等瓶颈。该文通过视觉语言大模型模拟人类认知识读过程,提出一种通用的指针表计识读框架:1)为突破数据依赖瓶颈,构建... 指针式表计识读是工业数智化的关键任务,当前主要依赖目标检测、关键点定位等传统识别算法,存在低泛化性、强数据依赖等瓶颈。该文通过视觉语言大模型模拟人类认知识读过程,提出一种通用的指针表计识读框架:1)为突破数据依赖瓶颈,构建工业场景下的识读多模态数据合成管道,可自动生成20000条以上问答对;2)为克服大模型“幻觉”瓶颈,使用DeepSeek-R1模拟人类认知识读,解耦表计语义理解和识读推理过程,平均参考误差比基础模型Qwen2.5-VL降低10%;3)为提升泛化性,设计基于广义策略优化的容差自适应强化学习优化方法,将绝对精度约束转化为可学习容忍区间以增强分布外数据(out-of-distribution data,OOD)泛化,在OOD测试中,该文方法识读误差降到2%。实验表明,该文所提框架在模拟工业表计测试集的平均参考误差为1.2%,在公开真实表计测试集达到3.16%,超越QWen2.5-VL-72B和GPT4o等先进大模型。该文研究为视觉语言大模型在精细化视觉理解和推理计算任务的落地应用,提供了思路参考。 展开更多
关键词 指针式表计识读 视觉语言模型 深度学习 强化学习 课程学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部