-
题名基于大型视觉语言模型的施工现场安全监控研究
- 1
-
-
作者
冷烁
王玮
欧家勇
薛志刚
宋英龙
莫斯钧
-
机构
广州地铁建设管理有限公司
-
出处
《图学学报》
2025年第5期960-968,共9页
-
文摘
针对施工安全监控过程中,传统视觉模型构建成本高、应用范围窄等问题,提出一种基于大型视觉语言模型(LVLM)的全新解决方案。基于开源预训练LVLM,提出包括文本提示、图像附加信息、图像样本提示等多类适用于施工安全监控任务的提示词策略,实现LVLM对施工监控图像的理解与推理,并设计了基于LVLM的智能监控工作流程与系统架构。研究成果被应用于管理人员离岗识别、危险区域侵入识别、以及违规施工行为识别等多项典型施工安全监控场景。实际数据验证表明,通过合适的提示词策略,LVLM无需数据标注与模型训练,便可实现接近主流深度学习模型的识别准确率,同时具有构建成本低、落地速度快、任务适应灵活等优势,在图像识别与智能监控领域具有应用潜力。
-
关键词
大型视觉语言模型
计算机视觉
施工安全
智能监控
提示词工程
-
Keywords
large vision language model
computer vision
construction safety
intelligent monitoring
prompt engineering
-
分类号
TU714
[建筑科学]
TP391.41
[建筑科学—建筑技术科学]
-