基于CEA+Boruta模式的特征选择算法被引量：3

Feature Selection Based on CEA+Boruta Mode

在线阅读下载PDF

导出

摘要近年来,特征选择在机器学习领域中应用十分广泛.为提高文本计算效率,改善数据分类性能,提出两步法解决特征选择问题.结合过滤式中CEA算法和封装式中Boruta算法,引入参数p控制Boruta算法中阴影部分比例,提高封装阶段效率,降低整体算法时间复杂度,筛选出较优的候选特征集.在三个数据集上利用随机森林分类器进行实验,结果表明,该算法在平均分类错误率,召回率,准确率和F1值上均优于传统的Boruta和CEA算法,能够有效地减少最终选择的特征子集中的特征数量,提高文本分类效率和预测性能. In recent years,feature selection has been widely used in machine learning.In order to improve the efficiency of text computation and the performance of data classification,we propose a two-step method to solve the problem of feature selection.Combining CEA algorithm in the filtering formula and Boruta algorithm in the packaging formula,the parameter p is introduced to control the proportion of shadow part in Boruta algorithm,improve the efficiency of the packaging phase,reduce the time complexity of the overall algorithm,and screen out the better candidate feature set.The results show that the algorithm is superior to the traditional Boruta and CEA algorithms in terms of average classification error rate,recall rate,accuracy rate and F1 value,and can effectively reduce the number of features in the final selected feature subset and improve text classification efficiency and prediction performance.

作者朱颢东常志芳 ZHU Haodong;CHANG Zhifang(School of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou,450000,China)

机构地区郑州轻工业大学计算机与通信工程学院

出处《湖北民族大学学报（自然科学版）》 CAS 2020年第3期349-354,共6页 Journal of Hubei Minzu University:Natural Science Edition

基金河南省高等学校重点科研项目(19A520009).

关键词特征选择降维 Boruta CEA 机器学习 feature selection dimension reduction boruta comprehensive evaluation algorithm machine learning

分类号 TP301 [自动化与计算机技术—计算机系统结构]

作者简介第一作者:朱颢东(1980-),男,博士,教授,主要从事智能信息处理、智能计算的研究.

引文网络
相关文献

参考文献15

1陈逸杰,唐加山.改进Boruta算法在特征选择中的应用[J].软件导刊,2019,18(4):69-73. 被引量：7
2仇利克,刘竞,孙中卫,赵扬帆.一种快速的特征选择框架和方法[J].北京邮电大学学报,2019,42(3):127-132. 被引量：3
3孙桂煌.基于机器学习的人体动作深度信息识别方法研究[J].长春大学学报,2020,30(4):16-20. 被引量：3
4许行,张凯,王文剑.一种小样本数据的特征选择方法[J].计算机研究与发展,2018,55(10):2321-2330. 被引量：26
5金秀玲,柯荣泰.基于Boruta-SVM的软件缺陷预测[J].山西大同大学学报（自然科学版）,2019,35(4):34-37. 被引量：4
6唐琳.基于机器学习的文本倾向性分析特征选择研究[J].赤峰学院学报（自然科学版）,2020,36(1):36-38. 被引量：2
7周传华,柳智才,丁敬安,周家亿.基于filter+wrapper模式的特征选择算法[J].计算机应用研究,2019,36(7):1975-1979. 被引量：21
8刘艺,曹建军,刁兴春,周星.特征选择稳定性研究综述[J].软件学报,2018,29(9):2559-2579. 被引量：40
9李扬,顾雪平.基于改进最大相关最小冗余判据的暂态稳定评估特征选择[J].中国电机工程学报,2013,33(34):179-186. 被引量：59
10郭海山,高波涌,陆慧娟.基于Boruta-PSO-SVM的股票收益率研究[J].传感器与微系统,2018,37(3):51-53. 被引量：13

二级参考文献109

1丘通强,林少宝,吴焕贞.鲜牛乳中体细胞数检测方法探讨[J].现代食品科技,2005,21(2):158-160. 被引量：16
2刘艳,顾雪平,李军.用于暂态稳定评估的人工神经网络输入特征离散化方法[J].中国电机工程学报,2005,25(15):56-61. 被引量：24
3周颖颖,周振宇,孙宁,鲍旭东.基于改进LBP特征的白细胞识别[J].生物医学工程研究,2005,24(4):242-246. 被引量：13
4郑浩,高飞,徐晔,姚火春.应用上海乳房炎检测法检测奶牛隐性乳房炎[J].畜牧与兽医,2006,38(1):47-48. 被引量：14
5王皓,孙宏斌,张伯明,郭庆来.基于混合互信息的特征选择方法及其在静态电压稳定评估中的应用[J].中国电机工程学报,2006,26(7):77-81. 被引量：29
6彭丽芳,孟志青,姜华,田密.基于时间序列的支持向量机在股票预测中的应用[J].计算技术与自动化,2006,25(3):88-91. 被引量：33
7VapnikVN.统计学习理论的本质[M].北京：清华大学出版社,2000..
8Anderson P M, Fouad A A. Power system control and stability[M]. 2nd Edition. Piscataway, NJ: IEEE, 2003: 4-12.
9Amjady N, Banihashemi S A. Transient stability prediction of power systems by a new synchronism status index and hybrid classifier[J]. IET Generation, Transmission&Distribution, 2010, 4(4): 509-518.
10Gomez F R, Rajapakse A D, Annakkage U D, et al. Support vector machine-based algorithm for post-fault transient stability status prediction Using synchronized measurements[J]. IEEE Transactions on Power Systems, 2011, 26(3): 1474-1483.

共引文献342

1李富盛,陈伟松,钱斌,郭斌,肖勇,周密,罗奕.面向低压配电网智能电表误差监测的LightGBM-EM-EC多变量缺失数据高效重建[J].中国电机工程学报,2022,42(S01):95-105. 被引量：14
2刘书瑞,田继东,陈普春,赖立,宋国杰.基于文本数据的过滤式与嵌入式样本选择算法[J].数据分析与知识发现,2020,4(2):223-230.
3赵珂雨,陈婉莹.一种基于stacking集成学习的DGA域名检测方法[J].数据通信,2020(6):19-24.
4田之魁,王东军,李生启,关媛媛,孙璇,朱青青,王泓午.一种糖尿病足Wagner分级的舌图像识别方法[J].世界科学技术-中医药现代化,2023,25(4):1442-1446. 被引量：3
5方昕,陈玲玲,曹海燕.基于改进的随机森林算法股票收益率预测研究[J].杭州电子科技大学学报（自然科学版）,2020,40(1):35-40. 被引量：5
6郑孝玉,曹炳兰.滑坡时间预报的实验研究[J].长春科技大学学报,2000,30(2):170-172. 被引量：3
7袁晓忠,张炽伟.“浮环”演示实验的定量分析[J].工科物理,2000,10(4):33-34.
8谢彦祥,刘天琪,苏学能.Hadoop架构下基于分布式粒子群算法的暂态稳定评估特征量选择[J].电网技术,2018,42(12):4107-4115. 被引量：8
9李文娟,赵放,郦敏杰,陈列,彭霞云.基于数值预报和随机森林算法的强对流天气分类预报技术[J].气象,2018,44(12):1555-1564. 被引量：45
10姜涛,王长江,陈厚合,李国庆,葛维春.基于正则化投影孪生支持向量机的电力系统暂态稳定评估[J].电力系统自动化,2019,43(1):141-148. 被引量：34

同被引文献13

1林炜星,王宇嘉,陈万芬.对称不确定性和粒子群的高维特征选择算法[J].智能计算机与应用,2021,11(11):49-53. 被引量：1
2沙泓州,刘庆云,柳厅文,周舟,郭莉,方滨兴.恶意网页识别研究综述[J].计算机学报,2016,39(3):529-542. 被引量：40
3刘杰,苏慧哲,李艳翠.非平衡数据集中的特征选择方法和三支分类算法研究[J].河南科技学院学报（自然科学版）,2018,46(5):66-72. 被引量：2
4许行,张凯,王文剑.一种小样本数据的特征选择方法[J].计算机研究与发展,2018,55(10):2321-2330. 被引量：26
5王誉舟,李正飞,魏文天,陈焕新,程亚豪,刘倩,张鉴心.基于递归特征消除-加权k近邻算法的多联机系统制冷剂充注量故障诊断策略[J].制冷技术,2020,40(1):16-22. 被引量：9
6雍菊亚,周忠眉.基于互信息的多级特征选择算法[J].计算机应用,2020,40(12):3478-3484. 被引量：14
7马晓菲,徐平峰.改进的Boruta算法在音乐情感研究中的应用[J].长春工业大学学报,2023,44(1):78-84. 被引量：2
8孟圣洁,于万钧,陈颖.最大相关和最大差异的高维数据特征选择算法[J].计算机应用,2024,44(3):767-771. 被引量：4
9史春雨,毛煜,刘浩阳,林耀进.基于样本相关性的层次特征选择算法[J].山东大学学报（理学版）,2024,59(3):61-70. 被引量：5
10刘紫恒,周建华.一种用于运动想象脑电信号的混合特征选择算法[J].兰州大学学报（自然科学版）,2024,60(2):167-172. 被引量：1

引证文献3

1陈星铭,赵胜祥.二次曲面截交线投影成圆的条件及应用[J].上海工程技术大学学报,2000,14(1):50-55. 被引量：1
2冯凯媛,罗庆斌,郑明辉,李超.基于多特征融合的恶意网页检测方法研究[J].湖北民族大学学报（自然科学版）,2021,39(1):80-85. 被引量：5
3饶文康,黄介武,陈星悦,王淋杰.高维数据下基于Boruta-RFE算法的特征选择研究[J].智能计算机与应用,2025,15(8):52-58.

二级引证文献6

1张昕,丰阳露,周志龙,路晓明,智绪龙.面向家庭网络的多模态预训练恶意网站识别算法[J].网络空间安全,2023,14(2):52-56. 被引量：2
2李曼.基于数据挖掘的互联网用户行为特征分析[J].顺德职业技术学院学报,2021,19(4):10-14. 被引量：1
3安佰玲,张德燕.二次曲面抛物截面存在性定理[J].吉首大学学报（自然科学版）,2021,42(3):13-20.
4钱珺,金君仰,季新国.基于多维数据融合的“校园贷”风险控制研究[J].现代信息科技,2023,7(4):174-176. 被引量：1
5杨立圣,罗文华.Tri-BERT-SENet:融合多特征的恶意网页识别[J].小型微型计算机系统,2023,44(4):875-880. 被引量：6
6王睿琪,蒋可怡,余不为,王锋.基于多维特征与深度学习的风险网站识别[J].计算机时代,2025(6):21-27.

1蒋惠丽.无巧不成锥——一道课本习题的再探讨[J].中学数学研究（华南师范大学）（下半月）,2020(7):35-36.
2古洪能.党的意志:新中国国家治理体系构建模式的特征[J].党政研究,2020(5):85-91. 被引量：2
3车一鸣,王冬梅,谢胜利,李永玲.基于粒子滤波与负向选择算法的GIS设备故障检测[J].机械与电子,2020,38(9):54-59. 被引量：1
4吴瑞凤.初中英语教学中的重要性及其应用[J].当代家庭教育,2020(19):166-167.
5刘素慧,尉辉,徐金强,蒲琼,刘文宝.共享课+翻转课堂混合教学模式研究——以设施农业环境工程学课程为例[J].安徽农业科学,2020,48(18):267-268. 被引量：7
6张振亚,倪红军.基于深度学习的发票图像分类方法[J].南通职业大学学报,2020,34(2):79-83. 被引量：4
7郝亚勋,郭腾翔.概率积分法优化及其在地质灾害评价中的应用[J].安阳工学院学报,2020,19(4):85-88.
8黄伟建,王月兴,黄远.局部熵差图像帧间动态位移信息并行滤波[J].计算机仿真,2020,37(7):296-300. 被引量：2
9时统业,曾志红.一类Ostrowski型双边不等式[J].惠州学院学报,2020,40(3):14-22. 被引量：7
10林乐拉,王莹,杨雪.战时伤病员分类包的研制[J].军事医学,2020,44(2):158-160.

湖北民族大学学报（自然科学版）

2020年第3期

浏览历史

内容加载中请稍等...

基于CEA+Boruta模式的特征选择算法被引量：3

参考文献15

二级参考文献109

共引文献342

同被引文献13

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于CEA+Boruta模式的特征选择算法 被引量：3

参考文献15

二级参考文献109

共引文献342

同被引文献13

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于CEA+Boruta模式的特征选择算法被引量：3