摘要
根据中文短信文本分类的特点,提出同义概念归并、上下位概念的聚焦以及短信文本重点词汇的确定方法,利用主题句选取算法获取短信文本的主题,采用KNN算法将短信文本的主题进行分类。仿真实验结果表明,该算法能够有效提高短信文本的分类速度。
According to characteristics of Chinese short message text categorization, some contents are proposed, such as the synonymy concept merging, the superior concept and sub-concept semantic focusing and using of topic sentences. The algorithm getting theme of short text is used to obtain the text theme. KNN algorithm is also used to classify the short text subject. Simulation experimental results show this algorithm can improve the classification speed of the short text.
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第4期30-32,共3页
Computer Engineering
基金
国家自然科学基金资助项目(60632050)
江苏省高校自然科学基金资助项目(06KJD520024)
淮安市科技基金资助项目(HAG09061)
关键词
短信文本
KNN算法
主题句
short message text
KNN algorithm
theme sentence
作者简介
刘金岭(1958-),男,教授,主研方向:数据仓库,文本数据挖掘. E-mail:liujinlingg@126.com