期刊文献+

一种基于SVM-修正KNN 算法的哈萨克语文本分类 被引量:2

An approach to the text categorization of the Kazakh language based on SVM-modified KNN algorithm
在线阅读 下载PDF
导出
摘要 为了实现哈萨克语文本分类,根据哈萨克语语法规则,给出了哈萨克语文本词干的提取方法;结合DFR特征选择方法和VSM文本表示模型实现哈萨克语文本的预处理,提出了一种SVM和修正KNN协同的文本分类算法,分别在自行构建的语料集和整理的《新疆日报》哈萨克语数据集上进行大量文本分类仿真实验.结果表明,该方法在哈萨克语文本分类上具有良好的分类性能,并比SVM,KNN的测试性能优越. In order to get the Kazakh language text classification , according to the Kazakh language features , this paper presents the Kazakh stem extract principle , and implementes the Kazakh text preprocessing combined with DFR feature selection and VSM model . This paper proposes a SVM-modified KNN algorithm ,a large number of text categorization experiments are simulated on the own building data sets and the Xinjiang Daily Kazakh data sets respectively . The numerical experiment results show that the method in the Kazakh language text classification has a good classification performance , and its test performance is better than the SVM and KNN .
出处 《西北师范大学学报(自然科学版)》 CAS 北大核心 2014年第3期48-53,共6页 Journal of Northwest Normal University(Natural Science)
基金 国家自然科学基金资助项目(61363066) 教育部博士点基金资助项目(20110043110011) 吉林省科技发展计划项目(20120302) 伊犁师范学院院级项目(2012YB017)
关键词 词干提取 DFR VSM SVM—KNN stemming DFR VSM SVM-KNN
作者简介 古丽娜孜(1972-),女,新疆伊宁人,讲师,博士研究生.主要研究方向为模式识别与文本分类.E—mail:alay328@163.com
  • 相关文献

参考文献15

二级参考文献94

共引文献132

同被引文献9

引证文献2

二级引证文献13

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部