特征联合熵的一种改进K近邻分类算法被引量：8

Improved K-nearest neighbor algorithm for feature union entropy

在线阅读下载PDF

导出

摘要特征参数分类泛化性差及分类计算量大影响着K近邻(KNN)的分类性能。提出了一种降维条件下基于联合熵的改进KNN算法,其具体思路是,通过计算任意两个条件属性下对应的特征参数的联合熵衡量数据特征针对分类影响程度的大小,建立特征分类特性与具体分类过程的内在联系,并给出根据特征联合熵集约简条件属性的方法。理论分析与仿真实验表明,与经典KNN等算法相比,提出的算法具有更高的分类性能。 Poor generalization of feature parameters classification and large category computation reduce the classification performace of K-Nearest Neighbor（KNN）.An improved KNN based on union entropy under the attribute reduction condition was proposed.Firstly,the size of classification impact of data feature was measured by calculating the union entropy of two feature parameters relative to any two condition attributes,and the intrinsic relation was established between classified features and the specific classification process.Then,the method which reduced condition attributes according feature union entropy set was given.The theoretical analysis and the simulation experiment show that compared with the classical KNN,the improved algorithm has better classification performance.

作者周靖刘晋胜

机构地区广东石油化工学院计算机与电子信息学院

出处《计算机应用》 CSCD 北大核心 2011年第7期1785-1788,1792,共5页 journal of Computer Applications

关键词 K近邻特征联合熵条件属性分类 K-Nearest Neighbor（KNN） feature union entropy condition attribute classification

分类号 TP301 [自动化与计算机技术—计算机系统结构] TP311 [自动化与计算机技术—计算机软件与理论]

作者简介作者简介：周靖（1980-），女，广东茂名人，实验师，硕士，主要研究方向：人工智能、数据挖掘；（zhou_jing1980@126．com）刘晋胜（1979-），男，广东梅州人，实验师，硕士，主要研究方向：人工智能、嵌入式系统、信号系统处理。

引文网络
相关文献

参考文献10

1王煜,王正欧,白石.用于文本分类的改进KNN算法[J].中文信息学报,2007,21(3):76-82. 被引量：15
2刘海峰,张学仁,姚泽清,刘守生.基于类别选择的改进KNN文本分类[J].计算机科学,2009,36(11):213-216. 被引量：9
3PAWLAK Z. Rough sets[J].International Journal of Computer Information Science, 1982, 11(5):341-356.
4MARTINEZ A M, KAK A C. PCA versus LDA[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001,23(2):228-233.
5李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
6张孝飞,黄河燕.一种采用聚类技术改进的KNN文本分类方法[J].模式识别与人工智能,2009,22(6):936-940. 被引量：34
7胡燕,吴虎子,钟珞.基于改进的kNN算法的中文网页自动分类方法研究[J].武汉大学学报（工学版）,2007,40(4):141-144. 被引量：20
8DEBOLE F, SEBASTIANI F. An analysis of the relative hardness of reuters-21578 subsets[J].Journal of the American Society for Information Science and Technology,2004,56(6):584-596.
9BARBARA D, LI Y, COUTO J. COOLCAT: An entropy-based algorithm for categorical clustering[C] // Proceedings of the 11th International Conference on Information and Knowledge Management. New York: ACM, 2002: 582.
10VRIES A D, MAMOULIS N, NES N, et al. Efficient KNN search on vertically decomposed data[C] // Proceedings of the 2002 ACMSIGMOD International Conference on Management of Data. New York: ACM,2002:322-333.

二级参考文献57

1王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
2王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：391
4王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
5胡燕,吴虎子,钟珞.中文文本分类中基于词性的特征提取方法研究[J].武汉理工大学学报,2007,29(4):132-135. 被引量：26
6王煜,王正欧,白石.用于文本分类的改进KNN算法[J].中文信息学报,2007,21(3):76-82. 被引量：15
7印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
8Ghosh A K,Chaudhuri P, Murthy C A. Multiscale classification using nearest neighbor density estimates[J]. IEEE Transactions on Systems, man, and Cybernetics-part b: cybernetics, 2006, 36 (5):1139-1148.
9Debole F, Sebastiani F. An analysis of the relative hardness of reuters-21578 subsets[J]. Journal of the American Society for Information Science and Technology, 2004,56 (6) : 584-596.
10Jacobs D W, Weinshall D. Classification with nonmetric dis - tance:image retrieval and class representation[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2000, 22 (6) : 583-600.

共引文献150

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：16
3乔冠禹,胡然,李咏晋.基于随机森林与特征提取算法的试验文本分类算法研究[J].军民两用技术与产品,2018,0(18):198-200.
4李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
5华北,曹先彬.基于代表样本动态生成的中文网页分类[J].计算机应用,2006,26(10):2502-2504. 被引量：2
6李订芳,胡文超,何炎祥.基于共享最近邻聚类和模糊集理论的分类器[J].控制与决策,2006,21(10):1103-1108. 被引量：5
7王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
8屈军,林旭.文本分类中特征提取方法的比较与分析[J].现代计算机,2007,13(4):10-13. 被引量：8
9印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
10华北,曹先彬.基于代表样本动态生成的快速文本分类[J].计算机仿真,2007,24(6):322-325.

同被引文献64

1陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：52
2王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
3钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19
4杨立,左春,王裕国.基于语义距离的K-最近邻分类方法[J].软件学报,2005,16(12):2054-2062. 被引量：31
5豆增发,王英强,王保保.一种基于信息增益的K-NN改进算法[J].电子科技,2006,19(12):52-56. 被引量：5
6贺云辉,赵力,邹采荣.基于核的最近邻特征重心分类器及人脸识别应用[J].电路与系统学报,2007,12(2):5-10. 被引量：2
7王煜,王正欧,白石.用于文本分类的改进KNN算法[J].中文信息学报,2007,21(3):76-82. 被引量：15
8胡燕,吴虎子,钟珞.基于改进的kNN算法的中文网页自动分类方法研究[J].武汉大学学报（工学版）,2007,40(4):141-144. 被引量：20
9李斌,李义兵,何红波.基于LZ复杂性相似度的垃圾邮件识别[J].计算机工程与应用,2007,43(29):176-178. 被引量：3
10Wu Xin-dong,Kumar V, Quinlan J R, et al. Top 10 Algorithms in Data Mining[J]. Knowledge and Information Systems, 2008, 14(1) : 1-37.

引证文献8

1周靖.平均互信息和类别区分性修剪规则的KNN算法[J].计算机应用,2013,33(2):558-562.
2肖辉辉,段艳明.基于属性值相关距离的KNN算法的改进研究[J].计算机科学,2013,40(11A):157-159. 被引量：28
3樊存佳,汪友生,边航.一种改进的KNN文本分类算法[J].国外电子测量技术,2015,34(12):39-43. 被引量：25
4曹赛男,张乾荣,刘斌,周仲礼.KNN改进算法在圈定地球化学元素异常区域上的应用[J].中国科技论文,2016,11(15):1782-1785. 被引量：1
5苏佩娟,刘赪.基于K-近邻法的不等样分类[J].绵阳师范学院学报,2016,35(11):13-16. 被引量：2
6许燕青.基于属性值贡献度的K最近邻分类算法[J].宁德师范学院学报（自然科学版）,2017,29(2):131-133.
7苏佩娟,刘赪,牟建波,王丽梅.一种改进的K-近邻分类法[J].西华大学学报（自然科学版）,2017,36(4):93-97. 被引量：2
8肖绍武,王子牛,高建瓴.基于中心抽样的KNN算法在文本分类中的应用[J].贵州大学学报（自然科学版）,2018,35(1):78-81. 被引量：3

二级引证文献60

1熊漩,严佩敏.融合多头自注意力机制的中文分类方法[J].电子测量技术,2020(10):125-130. 被引量：7
2孙政,潘丰.基于密度的稀疏最小二乘支持向量机[J].江南大学学报（自然科学版）,2014,13(5):531-535.
3党宏社,白梅,张娜.基于ReliefF特征加权和KNN的自然图像分类方法[J].电视技术,2015,39(19):10-13. 被引量：2
4曾俊杰,王晓明,杨晓欢.基于局部保持的KNN算法[J].西华大学学报（自然科学版）,2015,34(6):58-63.
5黄成祥,杨毅恒.地质类比法计算未占用矿山可供价格[J].北京信息科技大学学报（自然科学版）,2016,31(1):58-62.
6钟晴,叶芝慧,郭小青.基于RFID室内可视化定位系统设计与实现[J].电子测量技术,2016,39(8):186-190. 被引量：3
7曹赛男,张乾荣,刘斌,周仲礼.KNN改进算法在圈定地球化学元素异常区域上的应用[J].中国科技论文,2016,11(15):1782-1785. 被引量：1
8苏佩娟,刘赪.基于K-近邻法的不等样分类[J].绵阳师范学院学报,2016,35(11):13-16. 被引量：2
9邓松,岳东,朱力鹏,胡斌,周爱华.电力大数据智能化高效分析挖掘技术框架[J].电子测量与仪器学报,2016,30(11):1679-1686. 被引量：47
10邱宁佳,郭畅,杨华民,王鹏,温暖.基于MapReduce编程模型的改进KNN分类算法研究[J].长春理工大学学报（自然科学版）,2017,40(1):110-114. 被引量：3

1刘慧,杨宏光.应用于中文文本分类的改进KNN算法[J].今日科苑,2010(8):54-55. 被引量：2
2林啟锋,蒙祖强,陈秋莲,陈智敏.结合语义和文本特征位串的高效KNN算法[J].计算机工程与设计,2013,34(7):2417-2421. 被引量：1
3张俊丽,张帆.改进KNN算法在垃圾邮件过滤中的应用[J].现代图书情报技术,2007(4):75-78. 被引量：14
4党宏社,白梅,张娜.基于ReliefF特征加权和KNN的自然图像分类方法[J].电视技术,2015,39(19):10-13. 被引量：2
5甘守飞.基于改进kNN算法的人脸识别研究[J].佛山科学技术学院学报（自然科学版）,2015,33(3):52-55. 被引量：4
6邹庆胜,汪仁煌,明俊峰.基于机器视觉的瓷砖多参数分类系统的设计[J].广东工业大学学报,2010,27(4):46-49. 被引量：3
7史佳,董昱,魏宏杰,景晓春,史蕾.基于近邻决策域内局部分布密度的改进KNN算法[J].科学技术与工程,2014,22(30):57-61. 被引量：3
8郝卫杰,王艳飞,胡敬伟,张公敬.基于超球区域划分的改进KNN算法[J].青岛大学学报（自然科学版）,2017,30(1):85-90. 被引量：5
9古丽娜孜,孙铁利,胡西旦,伊力亚尔,库瓦特拜克.一种基于改进KNN的哈萨克语文本分类[J].东北师大学报（自然科学版）,2014,46(2):63-68. 被引量：4
10许杞刚,刘明军,李海.基于改进KNN算法的农产品价格预测模型[J].济南大学学报（自然科学版）,2014,28(2):114-117. 被引量：6

计算机应用

2011年第7期

浏览历史

内容加载中请稍等...

特征联合熵的一种改进K近邻分类算法被引量：8

参考文献10

二级参考文献57

共引文献150

同被引文献64

引证文献8

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

特征联合熵的一种改进K近邻分类算法 被引量：8

参考文献10

二级参考文献57

共引文献150

同被引文献64

引证文献8

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

特征联合熵的一种改进K近邻分类算法被引量：8