多代表点的加权近邻分类算法

Weighted Nearest Neighbor Classification Algorithm of Multi-Representative

在线阅读下载PDF

导出

摘要传统的KNN算法存在分类效率低等缺点.针对这些缺点,本文提出一种高效的结合多代表点思想的加权KNN算法,利用变精度粗糙集上下近似区域的概念,结合聚类算法生成代表点集合构造分类模型,再运用结构风险最小化理论优化分类模型并对影响分类模型的因素进行分析.分类过程中根据测试样本与各代表点的相似度,得到测试样本的相对位置.其中属于样本点下近似区域的测试样本可直接判断其类别.若测试样本在其他区域,则根据测试样本与各代表点的相对位置对各代表点覆盖范围内的样本进行加权后判断测试样本的类别.在文本分类领域的数据集上进行实验,结果表明该算法能有效的提高分类模型的性能. The traditional KNN algorithm has shortcomings such as low classification efficiency.This study proposes an efficient weighted KNN algorithm that combines the idea of multiple representative points.It uses the concept of the upper and lower approximate regions of the variable precision rough set and integrates the clustering algorithm to generate a representative point set and construct a classification model.Then it adopts the structural risk minimization theory to optimize the classification model and analyze the factors that affect the classification model.During the classification process,the relative position of the test sample is obtained according to the similarity between the test sample and each representative point.Moreover,the category of the test sample in the lower approximate region can be directly determined.If the test sample is in other areas,the sample within the coverage of each representative point is weighted according to the relative position of the test sample and each representative point to determine the type of the test sample.Experiments on the data set in the field of text classification show that the algorithm can improve the performance of the classification model.

作者林高思源 LIN Gao-Si-Yuan(College of Computer and Cyber Security,Fujian Normal University,Fuzhou 350117,China)

机构地区福建师范大学计算机与网络空间安全学院

出处《计算机系统应用》 2021年第12期273-278,共6页 Computer Systems & Applications

关键词近邻分类文本分类变精度粗糙集代表点分类模型样本加权 nearest neighbor classification text classification variable precision rough set representative classification model sample weighting

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

作者简介通讯作者:林高思源,E-mail:sylingao@gmail.com。

引文网络
相关文献

参考文献8

1毋雪雁,王水花,张煜东.K最近邻算法理论与应用综述[J].计算机工程与应用,2017,53(21):1-7. 被引量：82
2戚玉娇,李凤日.基于KNN方法的大兴安岭地区森林地上碳储量遥感估算[J].林业科学,2015,51(5):46-55. 被引量：39
3宋飞扬,铁治欣,黄泽华,丁成富.基于KNN-LSTM的PM2.5浓度预测模型[J].计算机系统应用,2020,29(7):193-198. 被引量：17
4薛卫,王雄飞,赵南,杨荣丽,洪晓宇.集成改进KNN算法预测蛋白质亚细胞定位[J].生物工程学报,2017,33(4):683-691. 被引量：3
5陈黎飞,郭躬德.最近邻分类的多代表点学习算法[J].模式识别与人工智能,2011,24(6):882-888. 被引量：18
6刘继宇,王强,罗朝晖,宋浩,张绿云.基于粗糙集的加权KNN数据分类算法[J].计算机科学,2015,42(10):281-286. 被引量：7
7王邦军,李凡长,张莉,于剑,何书萍.基于改进协方差特征的李-KNN分类算法[J].模式识别与人工智能,2014,27(2):173-178. 被引量：8
8刘发升,董清龙,李文静.变精度粗糙集的加权KNN文本分类算法[J].计算机工程与设计,2019,40(5):1339-1342. 被引量：10

二级参考文献72

1Heather Reese,Mats Nilsson,Tina Granqvist Pahlén,Olle Hagner,Steve Joyce,Ulf Tingelf,Mikael Egberth,Hkan Olsson,王胜.运用卫星数据和来自国家森林清查的野外数据进行全国森林变量估计[J].AMBIO－人类环境杂志,2003,32(8):539-545. 被引量：4
2安利平,陈增强,袁著祉.基于粗集理论的多属性决策分析[J].控制与决策,2005,20(3):294-298. 被引量：16
3马峻,吉晓民.利用粗糙集理论实现工艺决策的冲突消解[J].计算机辅助设计与图形学学报,2005,17(3):600-604. 被引量：5
4任靖,李春平.最小距离分类器的改进算法——加权最小距离分类器[J].计算机应用,2005,25(5):992-994. 被引量：31
5杨丽华,戴齐,郭艳军.KNN文本分类算法研究[J].微计算机信息,2006,22(07X):269-270. 被引量：25
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：393
7王清,马华,孙静,韩忠东.改进的KNN算法及其在医学图像处理中的应用[J].泰山医学院学报,2006,27(6):564-566. 被引量：5
8Leopold E, Kindermann J. Text Categorization with Supporl Vector Machines: How to Represent Texts in Input Space? Machine Learn- ing, 2002, 46( 1/2/3): 423-444.
9Kotsiantis S B, Pintelas P E. Recent Advances in Clustering: A Brief Survey. WSEAS Trans on Information Science and Applica- tions, 2004, 11(1) : 73 -81.
10Chen Lifei, Ye Yanfang, Jiang Qingshan. A New Centroid-Based Classifier for Text Categorization// Proc of tt~e 22nd International Conference on Advanced Information Networking and Applications Workshops. Okinawa, Japan, 2008 : 1217 - 1222.

共引文献176

1唐易,陈奕希,喻洪流,石萍.一种面向下肢假肢的运动意图识别方法及验证[J].信息与控制,2023,52(5):598-606. 被引量：3
2唐静(译),王艳洁,郭一达,韩易霖,张传扬.环渤海动力煤价格预测及用煤企业经营策略研究——基于LSTM和概率区间评估的分析[J].价格理论与实践,2024(2):42-46. 被引量：5
3李南,郭躬德,陈黎飞.基于少量类标签的概念漂移检测算法[J].计算机应用,2012,32(8):2176-2181. 被引量：7
4张启忠,席旭刚,罗志增.多重分形分析在肌电信号模式识别中的应用[J].传感技术学报,2013,26(2):282-288. 被引量：10
5张启忠,席旭刚,马玉良,罗志增,佘青山.基于表面肌电信号的手腕动作模式识别[J].中国生物医学工程学报,2013,32(3):257-265. 被引量：19
6李英英,纪昌杰.基于信息熵加权去噪的半监督SVM分类器[J].电脑知识与技术,2013,9(9):5705-5707. 被引量：1
7张启忠,席旭刚,马玉良,罗志增.基于肌电信号的遥操作机器人控制技术[J].应用基础与工程科学学报,2013,21(6):1199-1209. 被引量：6
8卢伟胜,郭躬德,严宣辉,陈黎飞.SMwKnn:基于类别子空间距离加权的互k近邻算法[J].计算机科学,2014,41(2):166-169. 被引量：7
9陈雪云,卢伟胜.GSwMKnn:基于类别基尼系数子空间的加权互K近邻算法[J].计算机系统应用,2014,23(2):137-141. 被引量：1
10郭躬德,李南,陈黎飞.一种基于混合模型的数据流概念漂移检测算法[J].计算机研究与发展,2014,51(4):731-742. 被引量：13

1陈思媛,韩述.宅基地“三权分置”改革:政策演进、风险分析及防范对策[J].中国西部,2021(6):102-108. 被引量：2
2蔡瑞光,张德生,肖燕婷.参数独立的加权局部均值伪近邻分类算法[J].计算机应用,2021,41(6):1694-1700. 被引量：2
3吕伟杰,方一帆,程泽.基于模糊C均值聚类和样本加权卷积神经网络的日前光伏出力预测研究[J].电网技术,2022,46(1):231-238. 被引量：51
4王力光,贠勇博,朱保宇,司风琪.基于迁移学习的湿法烟气脱硫系统出口SO_(2)浓度预测研究[J].发电设备,2021,35(6):420-425. 被引量：1
5张艺腾,韩虹,滕彦麟,吕晓森.基于Hough圆检测的51式手枪弹发射枪种自动识别技术[J].中国高新科技,2021(20):80-83.
6路云龙,李文钰,徐加阳,马铭.基于粗糙集理论的信息熵组合权重评价方法[J].北华大学学报（自然科学版）,2021,22(6):834-840. 被引量：6
7商务印书馆新书介绍《明代南京官话军屯移民语言接触演变研究》[J].古汉语研究,2021(4).
8岳攀,林威伟,吴斌平,王佳俊.基于ACGWO-SVR的高寒地区心墙堆石坝压实质量评价模型[J].水利水电技术（中英文）,2021,52(11):98-107. 被引量：5
9陈嘉宁,王匀,张慕华,陈燕平.基于PK/PD理论临床药师参与ICU抗菌药物应用监护的成效研究[J].首都食品与医药,2021,28(23):94-96. 被引量：2
10姜雷.箱式挡土墙技术优化研究[J].高速铁路技术,2021,12(6):7-11. 被引量：1

计算机系统应用

2021年第12期

浏览历史

内容加载中请稍等...

多代表点的加权近邻分类算法

参考文献8

二级参考文献72

共引文献176

相关作者

相关机构

相关主题

浏览历史