基于SVM-Kd-tree的树型粗分类方法

Tree-based Rough Classification Method Based on SVM-Kd-tree

在线阅读下载PDF

导出

摘要为提高大数据集粗分类识别率,提出一种基于聚类分析的SVM-Kd-tree树型粗分类方法。首先根据数据集特征分布进行k-means两簇聚类,对聚类后的数据集进行类别分析,同时将属于两簇的同一类别样本划分出来;然后使用两簇中剩余样本训练SVM二分类器并作为树型结构根节点,将两簇数据分别合并,将划分出来的样本作为左右子孩子迭代构建子节点,直到满足终止条件后,叶子节点开始训练Kd-tree。实验结果表明,迭代构建树型粗分类方法使训练单一SVM平均时间减少了61.977 4%,比Kd-tree同近邻数量的准确率提高了0.03%。在进行大规模数据集粗分类时,使用聚类分析迭代构建组合分类器时间更短、准确率更高。 In order to improve the rough classification accuracy of large data sets,a SVM-Kd-tree tree classification method based on cluster analysis is proposed.Firstly,cluster the training data set by K-means according to the feature distribution into two clusters,and the samples of the same category belonging to the two clusters are leaved out.Then remaining samples in the two clusters are used to train SVM as the root node of the tree structure.The two clusters of data combined with the leaved out samples separately construct the left and right child nodes.This process is iteratively constructed until meet the termination condition,and using the samples of leaf node to train Kd-tree.The experimental results show that the iterative construction of the tree-based rough classification method reduces the average time for training a single SVM by 61.9774%,which is 0.03%higher than the accuracy of the same neighbors of Kd-tree.In the large-scale data set for rough classification,using the cluster analysis iteratively construct ensemble classifiers has shorter time and higher accuracy.

作者胡素黎黄丰喜刘晓英 HU Su-li;HUANG Feng-xi;LIU Xiao-ying(Beijing Xitui Technology Co.,Ltd.,Beijing 100026,China)

机构地区北京细推科技有限公司

出处《软件导刊》 2020年第4期111-114,共4页 Software Guide

基金青海省科技厅科技成果转化专项项目(2017-SF-160)。

关键词 SVM分类 KD-TREE 树型组合分类器 K-MEANS 聚类 SVM Kd-tree tree ensemble classifer K-means cluster

分类号 TP301 [自动化与计算机技术—计算机系统结构]

作者简介通讯作者:胡素黎(1988-),女,硕士,北京细推科技有限公司工程师,研究方向为模式识别;黄丰喜(1984-),男,硕士,北京细推科技有限公司工程师,研究方向为计算数学与机器学;刘晓英(1967-),男,博士,北京细推科技有限公司工程师,研究方向为生物识别。

引文网络
相关文献

参考文献1

1赵建民,黄珊,王梅,刘澎.改进的C4.5算法的研究与应用[J].计算机与数字工程,2019,47(2):261-265. 被引量：16

二级参考文献16

1段磊,唐常杰,左劼,陈宇,钟义啸,元昌安.基于基因表达式编程的抗噪声数据的函数挖掘方法[J].计算机研究与发展,2004,41(10):1684-1689. 被引量：39
2郑永红.犯罪信息工作中的数据挖掘技术[J].广东公安科技,2005,13(1):39-41. 被引量：8
3王石,李玉忱,刘乃丽,王素青.在属性级别上处理噪声数据的数据清洗算法[J].计算机工程,2005,31(9):86-87. 被引量：13
4吴新玲,毋国庆.基于数据变换的维数消减方法[J].武汉大学学报（理学版）,2006,52(1):73-76. 被引量：4
5郝文江.基于数据挖掘技术对公安犯罪分析的改进[J].吉林公安高等专科学校学报,2007,22(3):112-117. 被引量：6
6刘鹏,张万昌.考虑数据变换的泾河流域月降雨空间插值[J].水土保持研究,2008,15(4):1-4. 被引量：5
7徐鹏,林森.基于C4.5决策树的流量分类方法[J].软件学报,2009,20(10):2692-2704. 被引量：171
8崔立志,刘思峰.基于数据变换技术的灰色预测模型[J].系统工程,2010,28(5):104-107. 被引量：30
9刘志刚,王秀文,陈希镇.数据变换对主成分提取的影响[J].科学技术与工程,2012,20(6):1348-1351. 被引量：2
10刘耀南.C4.5算法的分析及应用[J].东莞理工学院学报,2012,19(5):47-52. 被引量：15

共引文献15

1李焰云.清江流域综合开发与环境保护对策[J].水电站设计,2000,16(1):8-14. 被引量：4
2张小奇.基于决策树算法的教学管理数据分析[J].青岛大学学报（自然科学版）,2019,32(2):86-94. 被引量：3
3王善勤,吴昌雨,陈业斌.C4.5算法在高职学生对口就业因素分析中的应用[J].东莞理工学院学报,2019,26(3):39-45. 被引量：3
4焦亚男,马杰.一种改进的MEP决策树剪枝算法[J].河北工业大学学报,2019,48(6):24-29. 被引量：11
5王维嘉,孙亚运,孙洪亮,范强.基于多目标优化技术的多源异构数据分类研究[J].计算机与数字工程,2020,48(1):130-136. 被引量：11
6赵晓萌,卫星君,王娜,雷向杰.降雨型滑坡灾害的特征聚合决策树预测模型[J].灾害学,2020,35(1):27-31. 被引量：13
7韩国淼.基于决策树算法的毕业生就业预测研究[J].电脑编程技巧与维护,2020(4):64-67. 被引量：3
8王晓鹏.考虑泥沙预报的水库汛限水位动态控制研究[J].水利技术监督,2020,0(3):137-141. 被引量：5
9李亚东.决策树ID3算法在高职毕业生就业预测中的应用研究[J].信息与电脑,2020,32(17):54-56. 被引量：3
10张燕红,王卫玲,王凤芹,杜晶.一种基于均值的多维样本空间分类器的设计与实现[J].计算机与数字工程,2021,49(2):417-420.

1罗琪.基于三支决策与SVM分类的图像识别算法[J].信息与电脑,2020,32(7):48-49. 被引量：3
2崔志祥,蓝朝桢,熊新,张永显,侯慧太,刘宸博.一种无人机热红外与可见光影像匹配方法[J].测绘科学技术学报,2019,36(6):609-613. 被引量：5
3孙倩,陈昊,李超.基于改进人工蜂群算法与MapReduce的大数据聚类算法[J].计算机应用研究,2020,37(6):1707-1710. 被引量：14
4张桐,郑恩让,沈钧戈,高安同.基于深度多分支特征融合网络的光学遥感场景分类[J].光子学报,2020,49(5):160-171. 被引量：11
5李绕波,袁希平,甘淑,朱赞,杨敏.面向滑坡体三维点云数据的一种压缩方法[J].城市勘测,2020(2):70-74. 被引量：2
6张旭光,徐小明,孟令福.中、英、美标准中土的力学性质试验对比研究[J].港工技术,2020,57(S01):152-156.
7彭中联,万巍,荆涛,魏金侠.基于改进CGANs的入侵检测方法研究[J].信息网络安全,2020(5):47-56. 被引量：4
8王晶晶.夜视红外激光社区视频异动监控预警系统设计[J].激光杂志,2020,41(5):144-148. 被引量：4
9闫茹玉,刘学亮.结合自底向上注意力机制和记忆网络的视觉问答模型[J].中国图象图形学报,2020,25(5):993-1006. 被引量：14

软件导刊

2020年第4期

浏览历史

内容加载中请稍等...

基于SVM-Kd-tree的树型粗分类方法

参考文献1

二级参考文献16

共引文献15

相关作者

相关机构

相关主题

浏览历史