中文文本分类研究被引量：6

Study of Chinese Text Categorization

在线阅读下载PDF

导出

摘要使用k近邻、支持向量机和最大熵模型进行中文文本分类的研究，对目前应用较多的k近邻、支持向量机和最大熵模型，分别进行了基于特征词布尔值和基于特征词词频的中文文本分类实验。实验结果显示，在相同的条件下最大熵方法的分类性能最好，支持向量机次之，k近邻稍差。同时发现，在分类过程中引入了词语频率信息时，分类器的性能略有变化，对于最大熵分类准确率下降1％～2％，对于k近邻有所上升，对于支持向量机则相当。除去文本的特殊性影响，这表明不同程度的词语的信息对不同的机器学习算法有不同的影响。 In this paper, we compare the three models of k-nearest neighbor, support vector machines and maximum entropy in text categorization. By using two training data set that has been classified by term selection and remove irrelevant data seperately, we carry out some experiments using the three models. The result of the experiments shows that the maximum entropy is better than the other two classifiers on either Boolean value condition or adding the frequency of words. The maximum entropy performance is the best in the three models. We also find that when we add the information of frequency of words the classifiers＇ performance has some changes. Despite the influence of the particularity of documents, this result suggests that the different kind of term sets may cause different results to different classifier＇s performance.

作者郝晓燕常晓明

机构地区太原理工大学计算机与软件学院

出处《太原理工大学学报》 CAS 北大核心 2006年第6期710-713,共4页 Journal of Taiyuan University of Technology

关键词文本分类 K近邻支持向量机最大熵 text categorization k-nearest neighbor support vector machines maximum entropy

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

作者简介郝晓燕（1970-），女，在读博士生，山西宁武人，主要从事自然语言处理研究，（Tel）0351-6534397，（Email）nameguozw@sina．com.cn 通讯联系人：常晓明（1954-），男，教授，博士生导师。

引文网络
相关文献

参考文献9

1Y Yang,X Lin.A re-examination of text categorization methods[M].In:The 22nd Annual International ACM SIGIR Conference on Research and Development in the Information Retrieval.New York:ACM Press,1999.
2Thorsten Joachims.Text Categorization with Support Vector:Machines Learning with Many Relevant Features[C].In European Conference on Machine Learning(ECML),Berlin,1998:137-142.
3D D Lewis.Naive (Bayes) at forty:the independence assumption in information retrieval[C].In the 10th European Conference on Machine Learning,New York,1998:4-15.
4R Adwait.Maximum entropy models for natural language ambiguity resolution[D].USA:University of Pennsylvania,1998.
5谷波,刘开瑛.决策树模型和最大熵模型在文本分类中的比较研究工作[C].全国第八届计算语言学联合学术会议,南京,2005:382-387.
6Adam L Berger,Stephen A Della Pietra,Vincent J.Della Pietra.A maximum entropy approach to natural language processing[J].Computational Linguistics,1996,22(1):38-73.
7苑春法,李庆中,王昀,等.统计自然语言处理基础[M].北京:电子工业出版社,338-374.
8V Vapnic.The Nature of Statistical Learning Theory[M].New York:Springer,1995.
9Darroch J N,D Ratcliff.Generalized iterative scaling for log-linear models[J].The Annals of Mathematical Statistics,1972,43:1470-1480.

同被引文献55

1钟敏娟,林亚平,陈治平.基于分类和关键词组抽取的信息检索算法[J].系统仿真学报,2004,16(5):1009-1012. 被引量：11
2张彩虹,王春才,颜雁.医保决策支持系统中的聚类算法[J].长春理工大学学报（自然科学版）,2004,27(4):41-43. 被引量：2
3费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
4陈瑞芬.一种结合反馈方法的中文文本分类算法[J].计算机应用,2005,25(12):2862-2864. 被引量：9
5樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：391
7何峰.一种基于粗糙集理论的文本分类方法[J].自动化与信息工程,2006,27(3):1-3. 被引量：4
8刘洋.中文文本分类中特征选择方法的比较研究[J].科技信息,2007(3):54-54. 被引量：3
9胡燕,吴虎子,钟珞.中文文本分类中基于词性的特征提取方法研究[J].武汉理工大学学报,2007,29(4):132-135. 被引量：26
10寇苏玲,蔡庆生.中文文本分类中的特征选择研究[J].计算机仿真,2007,24(3):289-291. 被引量：30

引证文献6

1孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
2姚兴山.基于词频的中文文本分类研究[J].现代情报,2009,29(2):179-181. 被引量：4
3马春华,朱颢东.一种有效的特征词获取方法[J].计算机工程与应用,2009,45(17):129-132.
4殷宏威,赵伟,杨志伟.蚁群算法在KNN文本分类中的应用[J].长春理工大学学报（自然科学版）,2010,33(1):159-163. 被引量：2
5曾立梅.基于文本数据挖掘的硕士论文分类技术[J].重庆邮电大学学报（自然科学版）,2010,22(5):669-672. 被引量：10
6郭崇慧,吕征达.一种基于集成学习的试题多知识点标注方法[J].运筹与管理,2020,29(2):129-136. 被引量：5

二级引证文献24

1孙源,胡志军.基于高频词和AUC优化的随机森林文本分类模型[J].数学的实践与认识,2020,0(1):10-15. 被引量：3
2刘锋,白凡.一种改进的K近邻算法在网页分类中的应用[J].电子技术（上海）,2010(7):30-31. 被引量：1
3李忠,涂方辉,李鑫,袁静,邢丽莉,申涛.基于文本文件的可拓数据挖掘方法研究[J].防灾科技学院学报,2011,13(2):24-27. 被引量：1
4任剑锋,梁雪,李淑红.基于非线性流形学习和支持向量机的文本分类算法[J].计算机科学,2012,39(1):261-263. 被引量：10
5张纪元.基于大数据挖掘的精细化流量经营运营平台建设探索[J].互联网天地,2013(7):11-15. 被引量：6
6李红波,孟欣赏,吴渝,李娜芬.Web访问挖掘中的匿名用户识别算法研究[J].西南师范大学学报（自然科学版）,2015,40(9):78-84. 被引量：5
7刘浏,王东波.基于论文自动分类的社科类学科跨学科性研究[J].数据分析与知识发现,2018,2(3):30-38. 被引量：16
8杨秀璋,于小民,李娜,夏换.基于随机森林和LDA的论文自动分类及主题挖掘研究[J].计算机时代,2018(11):14-18. 被引量：3
9邱宁佳,沈卓睿,胡小娟,王鹏,高奇.在线学习情感分类模型研究[J].长春理工大学学报（自然科学版）,2019,42(5):102-108. 被引量：1
10黄春雨,胡迪,邱宁佳,孙爽滋.基于Huffman-LDA和Weight-Word2vec的文本表示模型研究[J].长春理工大学学报（自然科学版）,2020,43(1):89-96. 被引量：4

1郝晓燕,常晓明.特征选择及其在文本自动分类中的应用[J].电脑开发与应用,2006,19(12):17-18. 被引量：1
2范策.基于布尔函数的图像编码[J].计算机工程,2006,32(16):205-206.
3陈丽,刘洪伟,朱慧,陆涛,梁飞.考虑社交网络中用户属性的社区挖掘[J].武汉大学学报（工学版）,2014,47(3):426-432.
4居斌,沈常胜.介绍一个非常优秀的站点计数器[J].信息化建设,1999,0(4):40-42.
5刘亚秀.字母识别的神经网络方法[J].科技资讯,2006,4(32):54-55.
6刘华.从零学习Flashmx课件制作编程——数组对象[J].中小学电教（综合）,2006(11):68-70.
7张志勇,裴庆祺,杨林,马建峰.支持验证代理方的远程证明模型及其安全协议[J].西安电子科技大学学报,2009,36(1):58-63. 被引量：6
8Jie FANG,Zhong Ju SUN.A Subclass of Ockham Algebras[J].Acta Mathematica Sinica,English Series,2012,28(10):2115-2128. 被引量：1
9陈静,程明家,徐国成,黄必辉,李佳.陶瓷辊道窑的温度特性与智能逻辑控制研究[J].武汉理工大学学报,2009,31(2):100-103. 被引量：6
10刘耀华,周文,刘宗田.一种区间数分解与定标算法及其扩展形式背景的概念格生成方法[J].计算机科学,2009,36(10):213-216. 被引量：1

太原理工大学学报

2006年第6期

浏览历史

内容加载中请稍等...

中文文本分类研究被引量：6

参考文献9

同被引文献55

引证文献6

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

中文文本分类研究 被引量：6

参考文献9

同被引文献55

引证文献6

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

中文文本分类研究被引量：6