-
题名基于大语言模型和数据增强的中文毒性言论检测
被引量:1
- 1
-
-
作者
陈慧
朱奕竹
刘明宇
陈镜宇
吴越
-
机构
西华大学计算机与软件工程学院
电子科技大学计算机科学与工程学院
-
出处
《情报杂志》
北大核心
2025年第4期99-107,116,共10页
-
基金
国家自然科学基金项目“微博热点隐话题发现及其时序特性研究”(编号:61602389)
教育部产学合作协同育人项目“西部高校舆情研究建设基地”(编号:230822532407256)研究成果。
-
文摘
[研究目的]研究中文毒性言论检测模型,不仅有助于提高网络舆情监测的准确性,还有利于推动网络空间环境的现代化治理。[研究方法]在明确无毒、隐毒和显毒标注规则的基础上,构建了三类标签均匀分布的中文毒性言论数据集ImToxCN,搭建了基于大语言模型和数据增强方法的毒性言论检测组合模型。[研究结果/结论]实验结果表明,在ImToxCN数据集上,大语言模型RoBERTa与数据增强方法GeniusAug的组合较其他基线模型的毒性言论检测准确率更高,准确率达到84.34%。此外,该组合模型还能准确地检测隐毒和显毒言论,在其他3个公开数据集上也表现出了最优的毒性检测效果。
-
关键词
毒性言论检测
毒性文本
大语言模型
数据增强
检测模型
-
Keywords
toxic speech detection
toxic text
large language model
data augmentation
detection model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-