一种基于文本分类的特征选择方法被引量：2

A Feature Selection Method Based On Text Classify

在线阅读下载PDF

导出

摘要文本分类中通常采用向量空间模型(VSM)来表示文本特征,如何选择最能够表达文本主题的特征词,从而减少特征空间维数,降低时空复杂度,是一个十分重要的问题。针对此问题本文提出了采用截集模糊C-均值(S2FCM)聚类进行类间特征降维,该方法以最大隶属度原则为指导,在保持模糊聚类的同时,提高收敛速度,并且能够提高特征选择的正确性。同时在算法中使用改进的隶属度、聚类中心计算方法并使用非随机方法确定初始聚类中心。最后实验表明采用该方法选择的文本特征项进行文本分类能够收到比较好的分类结果。 Vector Space Model is often used to denote text feature in text classify. It is an important problem how to choice the feature words which can express the topic exactly, and consequently reduce space dimension and time complexity. For this, we put forward a method using Sectional Set Fuzzy C -means（S2FCM） clustering meth- od to reduce feature dimension. This method guides with the most subjection. On one hand it keeps fuzzy clustering effect, and on the other hand it can enhance the constringency pace and improve the correctness of feature selection. Here we also apply the ameliorated subjection degree and clustering center calculation and the no random method search to determine the initial cluster centers. At the end, the experiment testify by this method can receive good classifying result.

作者白似雪陆萍

机构地区南昌大学计算机科学与技术系

出处《南昌大学学报（工科版）》 CAS 2008年第1期87-90,共4页 Journal of Nanchang University(Engineering & Technology)

基金江西省教育厅计划资助项目(2006[36])

关键词截集特征词 VSM 模糊聚类 sectional set feature words VSM fuzzy clustering

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

作者简介白似雪（1957-），男，教授。

引文网络
相关文献

参考文献8

1代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：229
2任江涛,孙婧昊,黄焕宇,印鉴.一种基于信息增益及遗传算法的特征选择算法[J].计算机科学,2006,33(10):193-195. 被引量：18
3郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107. 被引量：16
4张文良,黄亚楼,倪维健.一种基于聚类的文本特征选择方法[J].计算机应用,2007,27(1):205-206. 被引量：10
5裴继红,范九伦,谢维信.一种新的高效软聚类方法:[J].电子学报,1998,26(2):83-86. 被引量：33
6付辉.模糊C-均值(FCM)聚类算法的改进[J].科学技术与工程,2007,7(13):3121-3123. 被引量：11
7Wu K L, Yang M S. A alternative fuzzy c2means clustering algorithm [ J ]. Pattern Recognition, 2002,35 ( 1 ) : 2267 -2278.
8鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120

二级参考文献25

1刘小芳,曾黄麟,吕炳朝.点密度函数加权模糊C-均值算法的聚类分析[J].计算机工程与应用,2004,40(24):64-65. 被引量：28
2胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
3黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
4[1]Wu K L,Yang M S.A alternative fuzzy c-means clustering algorithm,Pattern Recognition,2002 ;35:2267-2278
5[2]Zhang D Q,Chen S C.A comment on ‘ Alternative c-means clustering algorithms'.Pattern Recognition,2004 ;37:173-174
6Yang Yiming，ProceedingsoftheSeventeenthInternationalACMSIGIRConferenceonResearchandDevelopme，1994年，12页
7John G H,Kohavi R,Pfleger K.Irrelevant Features and the Subset Selection Problem.In:Proc.of the Eleventh Intl.Conf.on Machine Learning,1994.121～129
8Kohavi R,John G H.Wrappers for feature subset selection.Artificial Intelligence,1997,97 (1-2):273～324
9Liu Huan,Yu Lei.Toward Integrating Feature Selection Algorithms for Classification and Clustering.IEEE Transactions on Knowledge and Data Engineering,2005,17(5):491～502
10Yang J,Honavar V.Feature subset selection using a genetic algorithm.IEEE Intelligent Systems,1998,13(2):44～49

共引文献417

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
5张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
6李葵芳,于佐军.一种新型基于样本空间密度的改进聚类算法[J].控制工程,2008,15(S2):99-101. 被引量：1
7邬啸,魏延,吴瑕.改进的双隶属度模糊支持向量机[J].重庆师范大学学报（自然科学版）,2011,28(5):49-52. 被引量：5
8贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
9尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
10侯风巍,郭东军,李世磊,徐钊峰.基于信息反馈的文本主题分类过滤方法[J].通信学报,2009,30(S1):139-144.

同被引文献12

1董国华.一种改进的聚类算法及其在说话人识别上的应用[J].微计算机信息,2004,20(9):134-135. 被引量：10
2孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
3Sergios Theodoridis, Konstantinos Koutroumbas. Pattern Recognition[M]. New York~New York Academic Press, 1999.
4杨厚群,何中市,雷景生.基于划分的XML文档聚类研究[J].计算机科学,2008,35(3):183-185. 被引量：4
5郭建永,蔡勇,甄艳霞.基于文本聚类技术的主题发现[J].计算机工程与设计,2008,29(6):1426-1428. 被引量：15
6曲守宁,王钦,邹燕,朱强.基于关联规则的文本聚类算法的研究[J].计算机应用研究,2008,25(4):986-988. 被引量：5
7宋驰,刘青焱,张颜,蒋博,徐振愚,夏永静,刘湘军.一种文本数据挖掘与可视化的新方法[J].北京生物医学工程,2008,27(2):156-160. 被引量：2
8吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21
9胡健,董跃华,杨炳儒.大型复杂网络中的社区结构发现算法[J].计算机工程,2008,34(19):92-93. 被引量：14
10裴继红,范九伦,谢维信.一种新的高效软聚类方法:[J].电子学报,1998,26(2):83-86. 被引量：33

引证文献2

1李众,梁志剑.一种改进的文本聚类算法[J].陕西科技大学学报（自然科学版）,2008,26(6):163-166.
2马瑞新,邓贵仕,孟繁成.基于角色划分的文献软聚类算法[J].计算机应用研究,2012,29(3):856-858.

1张新波,陈月映.Vague集的截集及其分解定理[J].数学的实践与认识,2007,37(24):132-135. 被引量：5
2CPU工作温度和功率的问题[J].家用电脑世界,2002(10):86-86.
3孙玉芬,卢炎生.流数据挖掘综述[J].计算机科学,2007,34(1):1-5. 被引量：36
4段青竹.一种基于模糊聚类的改进的图像分割算法[J].山西电子技术,2016(1):7-8.
5姚宏伟,梅晓榕,庄显义.基于模糊聚类的模糊神经网络的系统辨识[J].黑龙江自动化技术与应用,1999,18(4):1-3.
6孙吉堂.隧道施工方法选择专家系统[J].建筑技术开发,1999,26(2):14-16. 被引量：3
7高玮军,马栋林,张其文.一种基于本体的文本主题提取方法研究[J].计算机应用与软件,2012,29(2):54-56. 被引量：3
8章萃.并行推理策略的渐近时空复杂度分析及其应用[J].计算机学报,1989,12(5):394-396.
9马丽丽,蒙丽,刘绪祚.企业管理信息系统开发策略研究[J].广西质量监督导报,2008(10):66-67.
10张文良,黄亚楼,倪维健.一种基于聚类的文本特征选择方法[J].计算机应用,2007,27(1):205-206. 被引量：10

南昌大学学报（工科版）

2008年第1期

浏览历史

内容加载中请稍等...

一种基于文本分类的特征选择方法被引量：2

参考文献8

二级参考文献25

共引文献417

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于文本分类的特征选择方法 被引量：2

参考文献8

二级参考文献25

共引文献417

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于文本分类的特征选择方法被引量：2