摘要
现有企业生产安全氛围的主要描述载体是文本,但文本无法定量描述的特点是企业生产安全氛围分析面临的重要挑战。基于机器学习和自然语言处理技术处理企业生产安全氛围文本信息,着重从安全氛围主题辨识和安全氛围等级预测两方面,综合实现对企业生产安全氛围的智能感知。首先借鉴合成少数类过采样技术(SMOTE)算法思想,提出一种“类SMOTE”算法,用于解决非均衡文本数据问题;然后基于隐含狄利克雷分布(LDA主题模型)实现安全氛围主题辨识,得到文本主题词及相关权重;最后基于机器学习算法实现安全氛围等级预测。经过实例验证,提出的“类SMOTE+LDA+Bayes”组合模型,对于企业生产安全氛围智能感知效果较好。
The main description carrier of the existing enterprise production safety climate is text,but the characteristics of the text that cannot be described quantitatively are an important challenge to enterprise production safety climate analysis.Based on machine learning and natural language processing technology,this paper processes enterprise production safety text information,and comprehensively realizes the intelli-gent perception of enterprise production safety climate from two aspects:production climate subject identi-fication and production climate level prediction.Firstly,based on the Synthetic Minority Oversampling Technique(SMOTE)algorithm,we propose a“SMOTE-like”algorithm to solve the problem of unba-lanced data;then based on the implicit Dirichlet distributed(LDA topic model)we achieve safety climate topic identification,and get the text topic words and related weights;finally,based on machine learning al-gorithms,we achieve climate level prediction.Verified by examples,the“SMOTE+LDA+Bayes-like”combination model proposed in the paper has a good effect on the intelligent perception of enterprise pro-duction safety climate.
作者
谢汉青
邱少辉
王寓霖
张灿
李帆
段在鹏
XIE Hanqing;QIU Shaohui;WANG Yulin;ZHANG Can;LI Fan;DUAN Zaipeng(Chinalco Southeast Materials Institute(Fujian)Technology Co.,Ltd.,Fuzhou350015,China;Chinalco Ruimin Co.,Ltd.,Fuzhou350015,China;College of Environment&Safety Engineering,Fuzhou University,Fuzhou350108,China)
出处
《安全与环境工程》
CAS
CSCD
北大核心
2022年第3期47-54,共8页
Safety and Environmental Engineering
基金
国家社会科学基金项目(17CGL049)。
作者简介
谢汉青(1971-),男,硕士,高级工程师,注册安全工程师,主要从事安全工程与安全管理方面的研究。E-mail:xiehq@ruimin.com;通讯作者:王寓霖(1993-),男,硕士,工程师,主要从事安全科学与工程、安全预警方面的研究。E-mail:1197146612@qq.com。