-
题名基于主题模型的水利信息分类方案设计
- 1
-
-
作者
诸葛庆子
张审问
蔡朝晖
徐华
周琦
-
机构
武汉大学计算机学院
甘肃省水利厅信息中心
-
出处
《水利信息化》
2018年第6期27-34,共8页
-
文摘
水利信息分类是水利科学数据共享标准化最为重要的一项工作,因此对水利领域大量数据信息的分类十分有必要。针对水利文本数据非结构化的特点,设计一个基于主题模型的水利文本信息分类方案,通过结合LDA主题模型和GloVe词向量模型的优点,提出一种新的主题模型。利用AdaBoost算法改进KNN分类器,在迭代中对分类器的错误进行适应性调整,最终得到分类器的集合。实验结果表明,使用AdaBoost提升KNN对于水利文本分类效果良好,分类效果远好于常见的朴素贝叶斯和决策树,和原来的KNN分类器相比,微观准确率提高1.1个百分点,宏观准确率提高了4.1个百分点,说明在水利文本分类中使用AdaBoost算法可提升KNN分类器的有效性。
-
关键词
主题模型
水利文本信息
文本分类
方案
LDA
GLOVE
-
Keywords
topic model
hydraulic text information
text classification
design
LDA
GloVe
-
分类号
TV211
[水利工程—水文学及水资源]
-