摘要
为了实现哈萨克语文本分类,根据哈萨克语语法规则,给出了哈萨克语文本词干的提取方法;结合DFR特征选择方法和VSM文本表示模型实现哈萨克语文本的预处理,提出了一种SVM和修正KNN协同的文本分类算法,分别在自行构建的语料集和整理的《新疆日报》哈萨克语数据集上进行大量文本分类仿真实验.结果表明,该方法在哈萨克语文本分类上具有良好的分类性能,并比SVM,KNN的测试性能优越.
In order to get the Kazakh language text classification , according to the Kazakh language features , this paper presents the Kazakh stem extract principle , and implementes the Kazakh text preprocessing combined with DFR feature selection and VSM model . This paper proposes a SVM-modified KNN algorithm ,a large number of text categorization experiments are simulated on the own building data sets and the Xinjiang Daily Kazakh data sets respectively . The numerical experiment results show that the method in the Kazakh language text classification has a good classification performance , and its test performance is better than the SVM and KNN .
出处
《西北师范大学学报(自然科学版)》
CAS
北大核心
2014年第3期48-53,共6页
Journal of Northwest Normal University(Natural Science)
基金
国家自然科学基金资助项目(61363066)
教育部博士点基金资助项目(20110043110011)
吉林省科技发展计划项目(20120302)
伊犁师范学院院级项目(2012YB017)
作者简介
古丽娜孜(1972-),女,新疆伊宁人,讲师,博士研究生.主要研究方向为模式识别与文本分类.E—mail:alay328@163.com