基于层次密度聚类的去噪自适应混合采样被引量：1

Denoising and Adaptive Hybrid Sampling Based on Hierarchical Density Clustering

在线阅读下载PDF

导出

摘要针对非平衡数据存在的类内不平衡、噪声、生成样本覆盖面小等问题,提出了基于层次密度聚类的去噪自适应混合采样算法(adaptive denoising hybrid sampling algorithm based on hierarchical density clustering,ADHSBHD).首先引入HDBSCAN聚类算法,将少数类和多数类分别聚类,将全局离群点和局部离群点的交集视为噪声集,在剔除噪声样本之后对原数据集进行处理,其次,根据少数类样本中每簇的平均距离,采用覆盖面更广的采样方法自适应合成新样本,最后删除一部分多数类样本集中的对分类贡献小的点,使数据集均衡.ADHSBHD算法在7个真实数据集上进行评估,结果证明了其有效性. As imbalanced data are exposed to problems such as intra-class imbalance,noise,and small coverage of generated samples,an adaptive denoising hybrid sampling algorithm based on hierarchical density clustering(ADHSBHD)is proposed.Firstly,the clustering algorithm HDBSCAN is introduced to perform clustering on minority classes and majority classes separately;the intersection of global and local outliers is regarded as the noise set,and the original data set is processed after noise samples are eliminated.Secondly,according to the average distance between clusters of samples in minority classes,the adaptive sampling method with broader coverage is used to synthesize new samples.Finally,some points that contribute little to the classification of majority classes are deleted to balance the dataset.The ADHSBHD algorithm is evaluated on six real data sets,and the results can prove its effectiveness.

作者姜新盈王舒梵严涛 JIANG Xin-Ying;WANG Shu-Fan;YAN Tao(School of Mathematics,Physics and Statistics,Shanghai University of Engineering Science,Shanghai 201620,China)

机构地区上海工程技术大学数理与统计学院

出处《计算机系统应用》 2022年第10期206-210,共5页 Computer Systems & Applications

关键词不平衡数据分类聚类混合采样 imbalanced data classification cluster hybrid sampling

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

作者简介通信作者:姜新盈,E-mail:jxynovelty@163.com

引文网络
相关文献

参考文献5

1李诒靖,郭海湘,李亚楠,刘晓.一种基于Boosting的集成学习算法在不均衡数据中的分类[J].系统工程理论与实践,2016,36(1):189-199. 被引量：60
2赵楠,张小芳,张利军.不平衡数据分类研究综述[J].计算机科学,2018,45(B06):22-27. 被引量：51
3石洪波,陈雨文,陈鑫.SMOTE过采样及其改进算法研究综述[J].智能系统学报,2019,14(6):1073-1083. 被引量：74
4戴翔,毛宇光.基于集成混合采样的软件缺陷预测研究[J].计算机工程与科学,2015,37(5):930-936. 被引量：10
5董宏成,赵学华,赵成,刘颖,解如风.基于HDBACAN聚类的自适应过采样技术[J].计算机工程与设计,2020,41(5):1295-1300. 被引量：10

二级参考文献61

1蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
2郑恩辉,李平,宋执环.代价敏感支持向量机[J].控制与决策,2006,21(4):473-476. 被引量：33
3毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
4Menzies T,Greenwald J,Frank A.Data mining static code attributes to learn defect predictors[J].IEEE Transactions on Software Engineering,2007,33(1):2-13.
5Turhan B,Bener A.Analysis of Naive Bayes assumptions on software fault data:An empirical study[J].Data&Knowledge Engineering,2009,68(2):278-290.
6Boetticher G D.Improving credibility of machine learner models in software engineering[M]∥Advanced Machine Learner Applications in Software Engineering(Series on Software Engineering and Knowledge Engineering),USA:Langston University,2006:52-72.
7Catal C,Diri B.Investigating the effect of dataset size,metrics sets and feature selection techniques on software fault prediction problem[J].Information Sciences,2009,179(8):1040-1058.
8Riquelme J C,Ruiz R,Rodriguez D,et al.Finding defective modules from highly unbalanced datasets[J].Actas de los Talleres de las Jornadas de Ingeniería del Software y Bases de Datos,2008,2(1):67-74.
9Menzies T,Turhan B,Bener A,et al.Implications of ceiling effects in defect predictors[C]∥Proc of the 4th International Workshop on Predictor Models in Software Engineering,2008:47-54.
10Seiffert C,Khoshgoftaar T M,Van Hulse J.Improving software-quality predictions with data sampling and boosting[J].IEEE Transactions on Systems,Man and Cybernetics,Part A:Systems and Humans,2009,39(6):1283-1294.

共引文献193

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323. 被引量：8
2崔文泉,余厚莹,侯晓天.不均衡数据情形的基于聚焦损失的CGAN的集成分类方法[J].中国科学技术大学学报,2020,50(7):968-976.
3柴晨,冯蕊.基于半监督学习的驾驶路怒情绪低侵入度分级辨识方法[J].中国公路学报,2024,37(8):231-247. 被引量：1
4梁东,石英,谢长君,刘红丽,孙宇峰.引入权重分布RBO的CVT不平衡样本过采样算法[J].武汉理工大学学报,2021,43(5):92-98. 被引量：1
5徐畅,丁俊琦,赵聃桐,乔岩,张领先.基于LightGBM和处方数据的番茄病害诊断方法[J].农业机械学报,2022,53(9):286-294. 被引量：10
6程艳,朱海,项国雄,唐天伟,钟林辉,王国玮.融合CNN和EWC算法的不平衡文本情绪分类方法[J].中文信息学报,2020(4):92-100. 被引量：7
7刘允峰,佟季萱,叶应图.动态数据流集成分类算法综述[J].渤海大学学报（自然科学版）,2023,44(1):79-91. 被引量：2
8张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63. 被引量：2
9薛俊利,许锡恩.TS-1催化丙烯环氧化反应本征动力学[J].化工学报,2000,51(2):204-209. 被引量：13
10靳燕,姚悦.Boosting方法在网络攻击分类中的性能分析[J].网络空间安全,2016,7(6):25-28. 被引量：4

同被引文献13

1高子寒,宋燕.基于边界增强和去噪的自适应双权重过采样方法研究[J].智能计算机与应用,2022,12(1):58-64. 被引量：1
2韩明鸣,郭虎升,王文剑.面向非平衡多分类问题的二次合成QSMOTE方法[J].南京大学学报（自然科学版）,2019,55(1):1-13. 被引量：3
3赵楠,张小芳,张利军.不平衡数据分类研究综述[J].计算机科学,2018,45(B06):22-27. 被引量：51
4吴煜,杨爱萍,章宦记,王建,刘立.基于黎曼与巴氏距离的脑磁图信号分类方法[J].计算机科学与探索,2017,11(5):776-784. 被引量：9
5刘定祥,乔少杰,张永清,韩楠,魏军林,张榕珂,黄萍.不平衡分类的数据采样方法综述[J].重庆理工大学学报（自然科学）,2019,33(7):102-112. 被引量：32
6董明刚,姜振龙,敬超.基于海林格距离和SMOTE的多类不平衡学习算法[J].计算机科学,2020,47(1):102-109. 被引量：12
7马兰,井伟,扈月松,李照照,路焜鹏.两点抛物线插值提高雷达测距精度的研究[J].火控雷达技术,2020,49(4):14-18. 被引量：2
8刘文英,林亚林,李克文,雷永秀.一种软件缺陷不平衡数据分类新方法[J].山东科技大学学报（自然科学版）,2021,40(2):84-94. 被引量：7
9李敏波,董伟伟.面向不平衡数据集的汽车零部件质量预测[J].中国机械工程,2022,33(1):88-96. 被引量：16
10贺永森,陈江.抛物线插值法用于液压机工艺曲线的研究[J].锻压装备与制造技术,2022,57(4):68-71. 被引量：1

引证文献1

1朱宸敏,余粟.受同轴对称抛物线约束的少数类样本合成方法[J].计算机工程,2025,51(5):196-205.

1王诚,赵晓培.基于混合采样的改进随机森林算法研究[J].计算机技术与发展,2021,31(12):50-54. 被引量：5
2陈子麟,战荫伟,杨卓.改进DBA算法的眼动模式分析[J].计算机工程与应用,2022,58(22):254-261.
3阳洋,王者伟,凌园,鲜冰,罗康辉,王松.基于统计矩理论和贝叶斯方法的框架结构损伤识别方法研究[J].建筑结构学报,2023,44(2):217-226. 被引量：11
4方佳锴.一种基于高斯混合模型的不均衡分类方法[J].电脑知识与技术,2022,18(2):28-30. 被引量：3
5Weiwu Ren,Xiaoqiang Di,Zhanwei Du,Jianping Zhao.An Adaptive Anomaly Detection Algorithm Based on CFSFDP[J].Computers, Materials & Continua,2021(8):2057-2073.
6王春波,赵惟诚,张向顺,李瑞,邢冬冬.基于局部离群点检测的机房区域入侵报警系统[J].信息技术,2023,47(3):122-127. 被引量：1
7蔡鹏,岳晓奎.基于HS-RRV算法的空间机械臂在轨装配运动规划[J].机器人,2023,45(2):166-178. 被引量：3
8王静,王艳丽,孙士保,贾少勇.基于非平衡数据的LDA-BPNN信用评分模型[J].计算机仿真,2023,40(2):303-308. 被引量：2
9Xingsheng Deng,Guo Tang,Qingyang Wang.A novel fast classification filtering algorithm for LiDAR point clouds based on small grid density clustering[J].Geodesy and Geodynamics,2022,13(1):38-49. 被引量：5
10杨龙顺,郭鹏程,王晶晶,冯超.一种SAR图像舰船目标旁瓣去除方法[J].火控雷达技术,2023,52(1):69-75. 被引量：1

计算机系统应用

2022年第10期

浏览历史

内容加载中请稍等...

基于层次密度聚类的去噪自适应混合采样被引量：1

参考文献5

二级参考文献61

共引文献193

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于层次密度聚类的去噪自适应混合采样 被引量：1

参考文献5

二级参考文献61

共引文献193

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于层次密度聚类的去噪自适应混合采样被引量：1