基于贝叶斯最优化的Xgboost算法的改进及应用被引量：21

The Improvement and Application of Xgboost Method Based on the Bayesian Optimization

在线阅读下载PDF

导出

摘要在使用Xgboost框架时,经常涉及各种参数的调整,并且参数组合的选取对模型的分类性能影响较大.传统的参数寻优方法,通常先导出一个惩罚函数,然后运用经验或者穷举法调整参数值来最大化或最小化这个惩罚函数,但是经常会遇到某个模型没有一个显式的表达式情况.这类模型的参数寻优就非常麻烦,同时又会给算法带来一定的不确定性和随机性.本文基于高斯法(GP)的贝叶斯最优化算法对Xgboost框架进行参数寻优,提出了一种新的算法GP_Xgboost,并通过多组数值进行实验.结果表明本文改进的算法分类效果要优于人工调优和穷举法,从而证明了该算法的可行性和有效性. When the Xgboost framework is in use, it is often involved in the adjustment of various parameters, and the selection of parameters has a great influence on the classification performance of the model. The traditional parameter optimization method usually first derives a penalty function, and then the empirical or exhaustive method is used to adjust the parameter value to maximize or minimize the penalty function, but often encounters a model without an explicit expression. The optimization of the parameters of this model is very troublesome, also bringing some uncertainty and randomness to the algorithm. The Bayesian optimization algorithm based on Gaussian method(GP) is used to optimize the parameters of the Xgboost framework. A new algorithm, GP_Xgboost, is proposed and experimented by multiple sets of numerical values. The results show that the proposed algorithm is superior to the manual tuning and exhaustive method, which proves the feasibility and effectiveness of the proposed algorithm.

作者李叶紫王振友周怡璐韩晓卓

机构地区广东工业大学应用数学学院

出处《广东工业大学学报》 CAS 2018年第1期23-28,共6页 Journal of Guangdong University of Technology

基金国家自然科学基金资助项目(11401115) 广州市科技计划项目(201707010435)

关键词 Xgboost算法模型参数贝叶斯最优化参数寻优 Xgboost algorithm model parameters Bayesian optimization parameter optimization

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

作者简介李叶紫（1993-）,女,硕士研究生,主要研究方向为算法设计与分析、图像处理.;通信作者：韩晓卓（1978-）,女,副教授,主要研究方向为生物数学,算法设计与分析.E-mail：hanxzh03@163.com

引文网络
相关文献

参考文献7

1张昊,纪宏超,张红宇.XGBoost算法在电子商务商品推荐中的应用[J].物联网技术,2017,7(2):102-104. 被引量：43
2方匡南,吴见彬,朱建平,谢邦昌.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38. 被引量：725
3孙克雷,邓仙荣.一种改进的基于梯度提升回归算法的O2O电子商务推荐模型[J].安徽建筑大学学报,2016,24(2):87-91. 被引量：7
4何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：338
5王中锋,王志海.基于条件对数似然函数导数的贝叶斯网络分类器优化算法[J].计算机学报,2012,35(2):364-374. 被引量：19
6胡玉胜,涂序彦,崔晓瑜,程乾生.基于贝叶斯网络的不确定性知识的推理方法[J].计算机集成制造系统-CIMS,2001,7(12):65-68. 被引量：71
7王双成,杜瑞杰,刘颖.连续属性完全贝叶斯分类器的学习与优化[J].计算机学报,2012,35(10):2129-2138. 被引量：39

二级参考文献173

1刘微,罗林开,王华珍.基于随机森林的基金重仓股预测[J].福州大学学报（自然科学版）,2008,36(S1):134-139. 被引量：8
2闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：57
3林成德,彭国兰.随机森林在企业信用评估指标体系确定中的应用[J].厦门大学学报（自然科学版）,2007,46(2):199-203. 被引量：38
4Han J, Kamber M. Data Mining: Concepts and Techniques. 2nd Edition. San Francisco, CA: Morgan Kaufmann, 2005.
5Friedman N, Geiger D, Goldszmidt M. Bayesian network classifiers. Machine Learning, 1997, 29(2/3): 131-163.
6Greiner R, Zhou W. Structural extension to logistic regres- sion= Discriminative parameter learning of belief net classifi- ers//Proceedings of the 18th Annual National Conference on Artificial Intelligence ( AAAI 2002). Edmonton, Canada, 2002:167-173.
7Greiner R, Su X, Shen B et al. Structural extension to logis- tic regression: Discriminative parameter learning of belief net classifiers. Machine Learning, 2005, 59(3): 297-322.
8Chickering D M, Heckerman D, Meek C. Large sample learning of Bayesian networks is NP-hard. The Journal of Machine Learning Research, 2004, 5 : 1287-1330.
9Tillman R E. Structure learning with independent non-identi cally distributed data//Proceedings of the 26th Annual Inter national Conference on Machine Learning. New York, 2009: 1041-1048.
10Zheng Z, Webb G I. Lazy learning of Bayesian rules. Machine Learning, 2000, 41(1): 53-84.

共引文献1226

1石康乐,孟庆刚.基于贝叶斯推理的中医诊疗小数据构建设想[J].中华中医药学刊,2022,40(5):104-107. 被引量：4
2郑伟,戴伊宁,孙楠楠,尹乔乔,吴青青,惠田辰,吴文昊,黄海军,童永喜,黄益澄,汪明珊,陈美娟,张家杰,严蓉,高海女,潘红英.应用随机森林模型和Logistic回归模型分析COVID-19的影响因素[J].预防医学,2021,33(7):722-725. 被引量：1
3杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：17
4袁鸷慧,聂胜,张合兵,王成,王宏涛,习晓环.GEDI地面高程和森林冠层高度的精度评价与影响分析[J].遥感技术与应用,2022,37(5):1056-1070. 被引量：3
5谢春,许伟.基于随机森林回归算法的锅炉沾污因数预测方法[J].上海电气技术,2022,15(1):29-32. 被引量：2
6王仁超,朱品光.基于随机森林回归方法的爆破块度预测模型研究[J].水力发电学报,2020,39(1):89-101. 被引量：25
7陈欣宇.基于大数据背景的机器学习算法研究[J].计算机产品与流通,2020,0(3):85-85. 被引量：1
8杨龙,王闻娟,覃哲,古悦璇.中国大学生气候认知与低碳行为及其影响因素研究——基于随机森林模型分析[J].文化与传播,2022,11(2):6-15. 被引量：2
9任福,侯宛玥.面向机器阅读的地图名称注记类别识别方法[J].武汉大学学报（信息科学版）,2020,45(2):273-280. 被引量：10
10饶贵川,王雅楠,华伟平,林维晟,潘俊忠,廖佩莹.环境因子对人工森林蓄积量影响的机器学习分析[J].林业科技通讯,2023(12):58-63.

同被引文献216

1杨仙保,张王菲,孙斌,高志海,李毅夫,王晗.基于GEE和Sentinel-2时序数据的呼伦贝尔沙地及其周边植被类型识别研究[J].遥感技术与应用,2022,37(4):982-992. 被引量：3
2王晓玲,谢怀宇,王佳俊,陈文龙,蔡志坚,刘宗显.基于Bootstrap和ICS-MKELM算法的大坝变形预测[J].水力发电学报,2020,39(3):106-120. 被引量：37
3王智勇,李丽敏,温宗周,尚艳芳,王莲霞.基于GWO-XGBoost泥石流灾害预测[J].电子测量技术,2023,46(3):92-99. 被引量：3
4Peter K. Kaiser.Design of rock support system under rockburst condition[J].Journal of Rock Mechanics and Geotechnical Engineering,2012,4(3):215-227. 被引量：64
5田艳琴,郭平,卢汉清.基于灰度共生矩阵的多波段遥感图像纹理特征的提取[J].计算机科学,2004,31(12):162-163. 被引量：31
6冯夏庭.地下峒室岩爆预报的自适应模式识别方法[J].东北大学学报（自然科学版）,1994,15(5):471-475. 被引量：33
7汤天瑾,曹向群,林斌.光电轴角编码器发展现状分析及展望[J].光学仪器,2005,27(1):90-95. 被引量：53
8魏东,张明廉,蒋志坚,孙明.基于贝叶斯方法的神经网络非线性模型辨识[J].计算机工程与应用,2005,41(11):5-8. 被引量：28
9雷亚国,何正嘉,訾艳阳.基于混合智能新模型的故障诊断[J].机械工程学报,2008,44(7):112-117. 被引量：107
10刘兴彬,杨建华,谢高岗,胡玥.基于Apriori算法的流量识别特征自动提取方法[J].通信学报,2008,29(12):51-59. 被引量：39

引证文献21

1张爱武,董喆,康孝岩.基于XGBoost的机载激光雷达与高光谱影像结合的特征选择算法[J].中国激光,2019,46(4):142-150. 被引量：34
2钱仲文,陈浩,纪德良.一种基于XGBoost算法的月度负荷预测方法[J].浙江电力,2019,38(5):77-82. 被引量：6
3孙琛,田晓声.基于XGBOOST算法的变压器故障诊断[J].佳木斯大学学报（自然科学版）,2019,37(3):378-380. 被引量：7
4张荣涛,焦斌,李彬彬.一种新的轴承故障诊断方法[J].上海电机学院学报,2019,22(5):270-275. 被引量：1
5王红爱.基于XGBoost算法的铁路旅客退票率预测研究[J].铁道学报,2019,41(12):19-25. 被引量：8
6赵晗,孟晓景,张春勇.基于XGBoost的搜索结果智能排序系统[J].软件导刊,2019,18(12):56-60. 被引量：2
7邢伟,母卓元.基于EIEMD-IMDE-XGBoost模型的短期电力负荷预测[J].山西电力,2020(2):9-14. 被引量：2
8张荣涛,陈志高,李彬彬,焦斌.基于深度卷积神经网络模型和XGBoost算法的齿轮箱故障诊断研究[J].机械强度,2020,42(5):1059-1066. 被引量：13
9柳娟,刘亚芳,许爽,许小可.基于多模体边度的科学家合作关系预测[J].计算机学报,2020,43(12):2372-2384. 被引量：3
10徐韧,苏怀智,杨立夫.基于GP-XGBoost的大坝变形预测模型[J].水利水电科技进展,2021,41(5):41-46. 被引量：35

二级引证文献144

1李宁,杨镇华,马伟中,李昊,王行行.基于CatBoost算法的SAP混凝土抗压强度预测[J].内蒙古公路与运输,2023(5):1-6. 被引量：2
2张炎,刘立龙,蒙金龙,梁月吉,徐勇.多元宇宙算法在大坝水平位移预测中的应用[J].测绘科学,2022,47(11):48-55. 被引量：2
3张国伦.难治性心力衰竭辨治举隅[J].甘肃中医学院学报,2000,17(1):39-40. 被引量：5
4许霖庆.高新技术在园艺上的应用（二）[J].花卉,2000(3):10-20.
5赵生银,安如.基于特征挖掘的高光谱遥感图像识别研究[J].亚热带资源与环境学报,2019,14(3):87-94. 被引量：3
6张志锋,崔亚东,崔霄.基于XGBoost的二手房房价预测模型[J].数字技术与应用,2019,37(11):178-180. 被引量：8
7杜梅,曹蔚然,高峰.基于Android的计算机专业本科毕业设计智能指导策略研究[J].软件工程,2020,23(2):19-21.
8邢伟,母卓元.基于EIEMD-IMDE-XGBoost模型的短期电力负荷预测[J].山西电力,2020(2):9-14. 被引量：2
9赵深,程栋,陈勇杰,贾雍.一种基于时间序列的配电网物资预测方法[J].浙江电力,2020,39(4):52-56. 被引量：6
10魏立飞,张杨熙,尹峰,黄庆彬.基于XGBoost特征选取和迭加权相关权重矩阵的高分五号遥感影像变化检测[J].湖北大学学报（自然科学版）,2020,42(4):398-403. 被引量：1

1苏术锋,潘坤友.一参数寻优GM(1,1)模型及其对客流量预测[J].统计与决策,2017,33(24):77-79. 被引量：2
2张松.大型储罐环梁施工质量技术保证措施的改进及应用[J].门窗,2017(12):226-227. 被引量：2
3黄超洋,杨宗,丁飞.基于穷举法的VPI矩形铁芯电抗器优化设计方法[J].计算机与数字工程,2017,45(12):2552-2556.
4班景洋.玉米播种机主要工作部件研究[J].农业科技与装备,2017(2):33-34.
5甘海龙.工作面支护强度计算及数值模拟研究[J].江西煤炭科技,2017(4):32-36.
6侯荣超.45m^3黄化机的改进及应用[J].人造纤维,2017,47(6):17-18.
7裴南平,毕传林.回溯法在计算机程序设计中的应用[J].电脑知识与技术,2017,13(11):262-264. 被引量：1
8李汀.多用户干扰信道下建模于流形上的联合干扰对齐预编码[J].数据采集与处理,2017,32(6):1115-1124. 被引量：1
9田园,刘刚.高校财务系统的改进及应用[J].中国市场,2018(2):208-209.
10周克艳,刘芳清,陈俊宇.推进湖南农业供给侧结构性改革的战略思考[J].黑龙江八一农垦大学学报,2017,29(6):113-117. 被引量：3

广东工业大学学报

2018年第1期

浏览历史

内容加载中请稍等...

基于贝叶斯最优化的Xgboost算法的改进及应用被引量：21

参考文献7

二级参考文献173

共引文献1226

同被引文献216

引证文献21

二级引证文献144

相关作者

相关机构

相关主题

浏览历史

基于贝叶斯最优化的Xgboost算法的改进及应用 被引量：21

参考文献7

二级参考文献173

共引文献1226

同被引文献216

引证文献21

二级引证文献144

相关作者

相关机构

相关主题

浏览历史

基于贝叶斯最优化的Xgboost算法的改进及应用被引量：21