期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
应用SHAP可解释机器学习模型估测森林蓄积量 被引量:1
1
作者 王元 王玥 +3 位作者 周宇琛 陈伏生 张绿水 刘牧 《东北林业大学学报》 北大核心 2025年第5期66-73,共8页
森林蓄积量是反映森林资源丰富程度的关键指标,精确估测森林蓄积量对于森林资源管理至关重要。以江西省林区为研究对象,运用谷歌地球引擎(Google Earth Engine)平台从Landsat 8遥感影像中提取多个植被指数、单波段及组合特征,并结合国... 森林蓄积量是反映森林资源丰富程度的关键指标,精确估测森林蓄积量对于森林资源管理至关重要。以江西省林区为研究对象,运用谷歌地球引擎(Google Earth Engine)平台从Landsat 8遥感影像中提取多个植被指数、单波段及组合特征,并结合国家森林资源连续清查的地面实测数据,分析不同影像特征参数在森林蓄积量反演中的贡献率。结果表明:对比多元线性回归、神经网络、随机森林和XGBoost模型估测森林蓄积量的精度,随机森林模型估测精度为93.3%,决定系数(R^(2))为0.9337,均方根误差为2.2323,平均绝对误为2.3395;与BP神经网络模型(R^(2)=0.8219)和XGBoost模型(R^(2)=0.7916)相比,模型拟合度和预测效果更佳,比多元线性回归模型(R^(2)=0.688)处理非线性关系的稳定性和可靠性更高。通过解释特征参数的相对重要性,揭示出平均胸径、郁闭度等特征对森林蓄积量影响显著,且随机森林模型中各因子间存在相互作用。 展开更多
关键词 shap解释模型 机器学习模型 森林蓄积量
在线阅读 下载PDF
智能融合模型在恶意软件检测中的可解释性
2
作者 王圣节 张庆红 王紫薇 《科学技术与工程》 北大核心 2025年第23期9892-9899,共8页
为提高恶意软件检测模型的性能和可解释性,提出一种基于数据预处理与模型优化的智能融合检测方法。该方法集成多种机器学习算法,通过随机森林算法提取关键特征,并采用常春藤优化算法(ivy optimizer algorithm,IVYA)进行参数调优,构建融... 为提高恶意软件检测模型的性能和可解释性,提出一种基于数据预处理与模型优化的智能融合检测方法。该方法集成多种机器学习算法,通过随机森林算法提取关键特征,并采用常春藤优化算法(ivy optimizer algorithm,IVYA)进行参数调优,构建融合模型以提升检测效果。模型利用SHAP(shapley additive explanations)方法进行解释性分析,增强检测结果的透明度与可靠性。实验表明,该方法在多个数据集上准确率、精确率、召回率等指标均超过99%,相较于传统方法表现出明显优势,为网络安全提供了更强的防护手段和更高的可解释性。 展开更多
关键词 恶意软件检测 网络安全 机器学习 随机森林算法 Stacking模型 常春藤优化算法 shap模型
在线阅读 下载PDF
基于CatBoost和SHAP的高级别自动驾驶车辆非预期停车冲突风险预测
3
作者 刘擎超 王瑞海 +2 位作者 蔡英凤 王海 陈龙 《汽车安全与节能学报》 北大核心 2025年第1期170-180,共11页
针对高级别自动驾驶车辆非预期停车引发的交通冲突及其环境影响问题,现有研究缺乏对风险特征交互的捕获和可解释性评估。本研究提出了一种基于CatBoost和SHAP的风险预测及解释模型,通过分析城市中心、住宅区和郊区交通网络的接管次数,... 针对高级别自动驾驶车辆非预期停车引发的交通冲突及其环境影响问题,现有研究缺乏对风险特征交互的捕获和可解释性评估。本研究提出了一种基于CatBoost和SHAP的风险预测及解释模型,通过分析城市中心、住宅区和郊区交通网络的接管次数,构建了冲突风险预测模型。结果表明,接管次数在城市中心、住宅区和郊区分别为161次、227次和164次,最高单路段接管次数分别为11次、11次和16次;模型预测精度达93%以上。SHAP分析显示,前后车辆间相对速度和相对位置对冲突风险的影响显著。研究结果对提升自动驾驶车辆的可靠性和安全性具有重要意义。 展开更多
关键词 冲突风险 交通排放 高级别自动驾驶 CatBoost算法 shap解释模型
在线阅读 下载PDF
融合XGBoost与SHAP的冠心病预测及其特征分析模型 被引量:25
4
作者 陈小昆 左航旭 +1 位作者 廖彬 孙瑞娜 《计算机应用研究》 CSCD 北大核心 2022年第6期1796-1804,共9页
为了解决冠心病诊断模型中性能无法满足临床应用要求、缺乏可解释性的问题,提出一种融合XGBoost与SHAP的冠心病预测及其特征分析模型。在对数据集进行特征工程的基础上,将处理好的数据集输入XGBoost模型进行训练,并且对模型进行优化,进... 为了解决冠心病诊断模型中性能无法满足临床应用要求、缺乏可解释性的问题,提出一种融合XGBoost与SHAP的冠心病预测及其特征分析模型。在对数据集进行特征工程的基础上,将处理好的数据集输入XGBoost模型进行训练,并且对模型进行优化,进一步提高了模型的性能表现;其次,与基于SVM、朴素贝叶斯等六种机器学习模型以及八种主流机器学习模型进行实验对比,参数优化后的XGBoost模型在准确率、特异度、F_(1)值和AUC值四个指标上分别达到0.9942、0.9970、0.9941和0.9998,均优于已有模型;最后引入SHAP框架增强模型可解释性,综合四种模型特征重要性排序结果,识别出影响冠心病的重要因素,为医生作出正确的诊断提供决策参考。 展开更多
关键词 冠心病预测 XGBoost模型 shap模型 特征分析
在线阅读 下载PDF
基于机器学习算法的C_(8)芳烃异构化催化剂性能预测模型
5
作者 陈芳 任小甜 +2 位作者 康承琳 周震寰 唐晓津 《石油学报(石油加工)》 北大核心 2025年第6期1472-1484,共13页
采用机器学习算法建立C_(8)芳烃异构化催化剂性能预测模型,并利用模型解释(SHAP)方法对模型结果进行特征分析,探究原料组成、催化剂性质和工艺条件对催化剂性能的影响规律。结果表明,相较于最近邻、随机梯度下降等非树模型,基于决策树... 采用机器学习算法建立C_(8)芳烃异构化催化剂性能预测模型,并利用模型解释(SHAP)方法对模型结果进行特征分析,探究原料组成、催化剂性质和工艺条件对催化剂性能的影响规律。结果表明,相较于最近邻、随机梯度下降等非树模型,基于决策树的集成模型表现出最佳的预测性能。对于使用乙苯脱烷基型催化剂的反应过程,二甲苯异构化活性、乙苯转化率和二甲苯收率预测模型的决定系数(R^(2))分别为0.78、0.93和0.96。对于使用乙苯转化型催化剂的反应过程,二甲苯异构化活性、乙苯转化率和C_(8)芳烃收率预测模型的R^(2)分别为0.91、0.97和0.90。通过比较硅/铝比、比表面积、孔体积、金属负载量的SHAP值可知,催化剂的比表面积与硅/铝比是决定乙苯脱烷基型催化剂性能的关键特征。而对于乙苯转化型催化剂,通过比较原料组成和比表面积、孔体积、金属负载的SHAP值可知,金属负载量是影响其活性的主要因素;对比不同反应温度、反应压力、质量空速、氢/烃比,反应温度与质量空速对催化反应效果具有显著影响。 展开更多
关键词 机器学习 C_(8)芳烃异构化 催化剂 模型 模型解释(shap)方法
在线阅读 下载PDF
基于CatBoost模型与SHAP分析研究地理环境因子对健康人血尿酸参考值的影响 被引量:1
6
作者 梁向荣 葛淼 +1 位作者 王聪霞 何进伟 《西安交通大学学报(医学版)》 CAS CSCD 北大核心 2023年第4期601-607,共7页
目的探究可能对健康人血尿酸(uric acid,UA)产生影响的地理环境因子并探究全国尺度下UA参考值的变化趋势。方法收集全国565个位点的607905例健康人的UA参考值,运用相关分析法分析25项地理环境因素与UA参考值的相关性,构建CatBoost模型... 目的探究可能对健康人血尿酸(uric acid,UA)产生影响的地理环境因子并探究全国尺度下UA参考值的变化趋势。方法收集全国565个位点的607905例健康人的UA参考值,运用相关分析法分析25项地理环境因素与UA参考值的相关性,构建CatBoost模型并应用SHAP值解释模型,预测全国各县市级的健康人UA参考值,并采用普通克里金绘制全国健康人的UA参考值地理分布图。结果纬度、海拔高度、年平均气温、年平均相对湿度、年降水量、气温年较差、年平均风速、表土粉粒百分率、表土容重、表土石砾含量、表土有机质含量、表土pH、表土(粘土)阳离子交换量、表土(粉土)阳离子交换量、表土盐基饱和度、表土总可交换量、T-CaCO 3、T-CaSO 4、表土碱度、表土盐分这20项指标与全国健康人UA参考值呈现相关。全国健康人UA参考值的空间分布呈现差异性,表现为高海拔地区较高,沿海地区在相近海拔高度下高于内陆地区,中东部低、西南部高的变化趋势。结论本研究为后续近一步研究不同影响因子对UA参考值的作用机制奠定基础。建立CatBoost模型在不同地区使用UA参考值作为高尿酸血症及相关慢性疾病预后因子制定参考标准时提供依据。 展开更多
关键词 高尿酸血症 尿酸(UA) 地理环境 CatBoost shap模型 克里金
在线阅读 下载PDF
基于机器学习和夏普利加法解释(SHAP)模型的饲料原料价格可解释预测 被引量:1
7
作者 吴展 王春晓 《饲料研究》 CAS 北大核心 2023年第23期178-181,共4页
文章旨在评估机器学习模型的性能,提出一种饲料原料价格可解释预测的框架。选取豆粕为饲料产品原材料的代表品种,基于2006年1月至2023年4月的豆粕期货月度结算价数据,采用反向传播(BP)神经网络、梯度提升决策树(GBDT)和极限梯度提升(XGB... 文章旨在评估机器学习模型的性能,提出一种饲料原料价格可解释预测的框架。选取豆粕为饲料产品原材料的代表品种,基于2006年1月至2023年4月的豆粕期货月度结算价数据,采用反向传播(BP)神经网络、梯度提升决策树(GBDT)和极限梯度提升(XGBoost)等3种机器学习算法进行训练测试,使用贝叶斯优化算法调整各模型参数,选择性能最优模型结合SHAP模型解析预测结果。结果显示,贝叶斯优化的极限梯度提升算法(BO-XGBoost)模型的预测性能显著优于其他基准模型,其测试集的平均绝对百分比误差(MAPE)和决定系数(R2)分别为0.03和0.892,模型精度较高;滞后一期豆油期货结算价对豆粕价格具有显著正向影响。研究表明,该模型具有良好的应用前景,可为饲料相关企业管理者决策和有关部门制定政策提供一定参考。 展开更多
关键词 机器学习 shap模型 贝叶斯优化 可解释预测 饲料原料价格
在线阅读 下载PDF
基于学科交叉驱动的颠覆性技术预测研究 被引量:2
8
作者 王萌萌 吴艾晗 +1 位作者 邓琨升 郭晓彤 《情报杂志》 北大核心 2025年第3期72-80,138,共10页
[研究目的]新质生产力的发展极大程度上依赖于颠覆性技术的突破。准确识别颠覆性技术有助于推动生产能力现代化,增强国家实力和社会发展水平。[研究方法]以专利家族作为技术分析单元,融合专利数据和论文数据,从多样性、均衡性、差异性和... [研究目的]新质生产力的发展极大程度上依赖于颠覆性技术的突破。准确识别颠覆性技术有助于推动生产能力现代化,增强国家实力和社会发展水平。[研究方法]以专利家族作为技术分析单元,融合专利数据和论文数据,从多样性、均衡性、差异性和Rao-Stirling综合维度挖掘颠覆性技术所引证知识的学科交叉特征,并据此采用逻辑回归算法识别与技术颠覆性程度具有显著关联的候选特征;构建八类机器学习模型并优选颠覆性技术预测效果最佳的模型,通过SHAP模型揭示学科交叉特征在颠覆性技术预测中的相对贡献和特征关联机制。[研究结果/结论]人工智能领域研究结果表明,所引证专利和论文的多样性、均衡性和差异性特征均对颠覆性技术的产生具有显著影响,相较于其他八类机器学习模型,XGBoost模型在综合性能上取得了最佳表现,其中引证论文的差异性、专利的多样性和差异性等交叉驱动特征在颠覆性技术预测中贡献度最高。 展开更多
关键词 颠覆性技术 学科交叉 专利家族 专利数据 科学论文 人工智能 机器学习 shap模型
在线阅读 下载PDF
基于最大光能利用率动态校正的京津冀地区植被碳汇反演研究
9
作者 姜雪梅 曹永强 +2 位作者 么嘉棋 刘子华 周姝含 《生态学报》 北大核心 2025年第13期6374-6389,共16页
陆地生态系统在全球碳循环中扮演重要角色,植被碳汇能力是衡量生态系统质量与气候变化响应的重要指标。近年来,京津冀地区作为我国首都经济圈,其植被碳汇对区域绿色发展和“双碳”目标具有重要意义。然而,已有研究在碳汇反演中面临光能... 陆地生态系统在全球碳循环中扮演重要角色,植被碳汇能力是衡量生态系统质量与气候变化响应的重要指标。近年来,京津冀地区作为我国首都经济圈,其植被碳汇对区域绿色发展和“双碳”目标具有重要意义。然而,已有研究在碳汇反演中面临光能利用率等经验参数鲁棒性差等问题,导致碳汇估算结果存在较大不确定性。研究基于2003—2022年长时序多源主被动卫星遥感传感器估计京津冀碳汇时空变化。结合GEDI高分辨率激光雷达改进了植被最大光能利用率的动态校正方法,优化了CASA模型对NPP的模拟能力;基于土壤异养呼吸模型,估算了近20年京津冀地区的NEP;运用SHAP模型量化了气温、降水和太阳辐射等环境因子对植被碳汇的驱动作用及其非线性交互关系。结果表明:(1)基于GEDI实现了对最大光能利用率长时间序列的动态校正,森林的光能利用率模拟值最大为0.667—0.712 gC/MJ,这一改进方法能够可靠地对京津冀地区NPP进行模拟。(2)NEP多年均值为179.17 gC m^(-2)a^(-1),季节变化为夏季>春季>秋季>冬季,空间上呈现从冀北山区向东南部平原和城市区域递减的分布特征,且森林对京津冀NEP的贡献率达47.60%。(3)各驱动因子对NEP的重要性和主效应程度为气温>降水>太阳辐射,且气温和降水对NEP的正交互作用最强。研究结论可促进对京津冀地区植被碳汇动态变化机制的理解,同时为制定生态管理和气候变化适应策略提供科学依据。 展开更多
关键词 植被碳汇 最大光能利用率 shap模型 驱动因子 京津冀地区
在线阅读 下载PDF
基于机器学习的中国铁矿石资源产业链评估 被引量:1
10
作者 李林泰 江飞涛 +3 位作者 李海玲 谢聪敏 张艳飞 邵留国 《地球学报》 北大核心 2025年第5期991-1006,共16页
由于国内铁矿石资源品位低,且供应量不足,中国炼铁生产对进口铁矿石依赖性较强,因此科学评估中国铁矿石资源保障情况显得尤为重要。本文旨在定量评估中国铁矿石资源的供应安全,据此进行预警,并针对现有风险问题提出相应的策略与措施。... 由于国内铁矿石资源品位低,且供应量不足,中国炼铁生产对进口铁矿石依赖性较强,因此科学评估中国铁矿石资源保障情况显得尤为重要。本文旨在定量评估中国铁矿石资源的供应安全,据此进行预警,并针对现有风险问题提出相应的策略与措施。本文一是构建涵盖铁矿石保障因素、经济发展因素、运输周转因素、经济风险因素、价格波动因素的评价体系,确定各因素的代表性指标;二是运用机器学习方法,选取CatBoost算法对其进行贝叶斯优化,据此预测铁矿石资源供应系数的未来走势,同时与其他机器学习方法的预测结果进行对比;三是采用SHAP方法解释模型结果,对比分析各个因素系数对于铁矿石产业链供应链安全性的贡献水平。研究结论如下:BO-Catboost模型预测供应系数的效果要优于其他机器学习方法。在铁矿石供应系数的影响因素特征排名中,经济风险相关指标权重最大,其次是经济发展因素、运输周转因素、价格波动因素的指标权重最小。其中,经济不确定性指数、黑色金属冶炼和压延加工业亏损企业数量比例、美元兑人民币汇率与铁矿石库存量是影响2012—2024年间铁矿石资源供应的主要原因。中国铁矿石资源供应面临诸多风险,需要根据国际市场供需情况与经济发展水平,灵活调整铁矿石进口关税和进口节奏,保持市场稳定。基于相关风险防范,本文为政府和企业提供了优化铁矿石资源配置和应对经济环境风险的政策建议。 展开更多
关键词 铁矿石资源供应 特征分析 shap模型
在线阅读 下载PDF
基于声发射技术的CFRP/steel粘接接头损伤行为研究
11
作者 张志远 徐长航 +2 位作者 王文奥 李娜 王龙博 《仪器仪表学报》 北大核心 2025年第8期87-107,共21页
碳纤维增强复合材料/钢(CFRP/steel)粘接接头在桥梁和船体结构加固中应用广泛,其力学性能受搭接长度的显著影响。针对现有研究中损伤演化机理揭示不足、识别精度有限的问题,提出了一种融合声发射(AE)与数字图像相关(DIC)技术的损伤监测... 碳纤维增强复合材料/钢(CFRP/steel)粘接接头在桥梁和船体结构加固中应用广泛,其力学性能受搭接长度的显著影响。针对现有研究中损伤演化机理揭示不足、识别精度有限的问题,提出了一种融合声发射(AE)与数字图像相关(DIC)技术的损伤监测与搭接长度识别方法。选取25、50、75和100 mm这4种搭接长度,在准静态拉伸加载过程中采集AE信号的幅值、能量、质心频率、均方根(RMS)及持续时间等特征参数,并结合DIC的全场应变分布,分析接头的损伤起始、扩展以及失效模式的演化规律。研究表明,接头损伤过程可分为3个阶段,失效模式主要有钢变形、纤维断裂、基体开裂、粘结失效和内聚失效。另外,搭接长度对接头的力学性能有显著影响,其中搭接长度为100 mm的接头的极限拉伸载荷为60.70 kN,约为75 mm接头的2倍。然后,以声发射的特征参数为输入,构建了基于极限梯度提升树(XGBoost)的CFRP/steel粘接接头搭接长度识别模型,识别准确率高达94%。最后,在该模型中引入可加性解释模型(SHAP)量化各特征贡献度,结果发现质心频率、RMS与持续时间是关键特征。该研究揭示了搭接长度对接头损伤行为的作用机制,有效挖掘了声发射特征与接头损伤状态之间的关系,从而提升了损伤预测的准确性与解释能力,为CFRP/steel粘接接头的失效模式预测和结构优化设计提供了重要参考。 展开更多
关键词 CFRP/steel粘接接头 声发射 数字图像相关 损伤演化 XGBoost模型 shap模型
在线阅读 下载PDF
高密度城市扩张影响绿色基础设施降温效应的关键因素与阈值识别——以上海市为例
12
作者 黄俊达 王云才 《中国园林》 北大核心 2025年第8期29-35,共7页
高密度城市扩张过程中,极端气候事件频发,已严重威胁居民健康。厘清该过程中绿色基础设施(GI)降温效应的时空异质性及其关键影响因素是建设凉爽城市的重要依据。以上海市(2005—2020年)为例,基于GI降温效应与城市扩张特征量化结果,级联... 高密度城市扩张过程中,极端气候事件频发,已严重威胁居民健康。厘清该过程中绿色基础设施(GI)降温效应的时空异质性及其关键影响因素是建设凉爽城市的重要依据。以上海市(2005—2020年)为例,基于GI降温效应与城市扩张特征量化结果,级联回归树与SHAP模型探究GI变化类型中,影响其降温效应的关键因素与阈值。结果显示,GI呈现植被净初级生产力(NPP)下降面积提升与NPP提升形态破碎2种主要类型。不透水面占比、建筑密度与人口密度是影响GI降温效应的关键要素,阈值区间分别为30%~50%、50%~65%和10%~20%。相关结果旨在为城市的可持续发展与推动高温韧性规划提供理论依据与实践指导。 展开更多
关键词 风景园林 城市扩张 绿色基础设施 降温效应 shap模型
在线阅读 下载PDF
基于可解释机器学习的北京市屋面雨水径流水质评估与模拟
13
作者 毕洁瑜 李睿贤 +3 位作者 张守红 张帆 章孙逊 魏祯 《水土保持研究》 北大核心 2025年第6期280-289,共10页
[目的]定量评估气象与环境要素分异下北京市屋面雨水收集利用系统径流水质特征并解析其主要影响因素,为城市屋面雨水收集系统设计和径流水质综合评价提供科学依据。[方法]2023年7—11月通过在北京市不同区域的5个站点搭建雨水收集利用... [目的]定量评估气象与环境要素分异下北京市屋面雨水收集利用系统径流水质特征并解析其主要影响因素,为城市屋面雨水收集系统设计和径流水质综合评价提供科学依据。[方法]2023年7—11月通过在北京市不同区域的5个站点搭建雨水收集利用试验装置,监测并获取周边环境要素、降雨特征及径流水质数据,并采用水质综合指数(RQI)对水质进行评价,同时使用可解释随机森林回归模型构建基于气象与环境要素的RQI预测模型。[结果](1)各地区装置对径流水质污染物浓度呈现不同分布规律,海淀、延庆RQI值较高,而房山RQI值最低;(2)随机森林模型能够较准确地预测RQI值,具有较高预测精度(R^(2)_(率定)=0.853,R^(2)_(验证)=0.745);(3) SHAP模型分析表明,降雨量对RQI影响最大(平均SHAP值=0.120),且降雨量初期冲刷效应作用的临界值约为8 mm。[结论]北京市不同区域间屋面雨水径流水质存在显著差异,主要受降雨量、降雨间期及大气NO_(2)浓度影响;随机森林模型能够有效预测径流水质,结合SHAP模型可量化各影响因子贡献度。 展开更多
关键词 雨水收集利用 径流水质 机器学习 shap模型
在线阅读 下载PDF
基于可解释性机器学习算法的珠江河口区咸潮上溯预报
14
作者 祝雨珂 易晶晶 +1 位作者 刘培霖 刘丙军 《水电能源科学》 北大核心 2025年第10期18-22,共5页
为有效应对珠江河口区咸潮上溯日趋加重的问题,利用磨刀门水道逐时观测数据,基于梯度提升决策树(GBDT)、极端梯度提升(XGBoost)、轻量级梯度提升(Light GBM)、类别提升(Cat Boost)模型框架,结合可解释性的SHAP模型进行咸潮上溯逐时预报... 为有效应对珠江河口区咸潮上溯日趋加重的问题,利用磨刀门水道逐时观测数据,基于梯度提升决策树(GBDT)、极端梯度提升(XGBoost)、轻量级梯度提升(Light GBM)、类别提升(Cat Boost)模型框架,结合可解释性的SHAP模型进行咸潮上溯逐时预报。结果表明,4种机器学习算法模型均具有较好的预报效果,其中Cat Boost模型表现最好,24 h预见期模型纳什效率系数为0.738 5;基于SHAP模型特征重要性排序进一步优选输入因子,可以提高模型精度,优化后的Cat Boost模型纳什效率系数、相关系数分别提升了0.30%、0.13%;对咸潮上溯预报不同特征进行SHAP分析可提高模型可解释性,分析发现盐度特征对咸潮上溯预报呈线性正相关影响,单一特征的SHAP分布图散点的分布越集中,特征重要性越大。 展开更多
关键词 咸潮上溯预报 shap模型 机器学习 珠江河口
在线阅读 下载PDF
融合LightGBM与SHAP的糖尿病预测及其特征分析方法 被引量:24
15
作者 王鑫 廖彬 +1 位作者 李敏 孙瑞娜 《小型微型计算机系统》 CSCD 北大核心 2022年第9期1877-1885,共9页
人工智能在辅助医疗诊断方面得到广泛关注,对糖尿病预测的相关研究是近年来关注的一个热点问题.以皮马印第安人糖尿病数据集为研究对象,首先,对原始数据进行缺失值填充、异常值分析、标准化处理等工作的基础上,将预处理后的数据作为Ligh... 人工智能在辅助医疗诊断方面得到广泛关注,对糖尿病预测的相关研究是近年来关注的一个热点问题.以皮马印第安人糖尿病数据集为研究对象,首先,对原始数据进行缺失值填充、异常值分析、标准化处理等工作的基础上,将预处理后的数据作为LightGBM训练模型的输入;其次,与已有工作中基于SVM、随机森林、决策树以及Xgboost等多种机器学习模型进行实验对比,结果表明本文模型在准确率、精确率、召回率、F1值、AUC值5项性能指标上均明显优于对比模型;最后,引入SHAP模型增强模型的可解释性,同时综合比较了LightGBM和Xgboost的特征重要性排序结果,识别出了影响糖尿病的主要因素,为糖尿病的疾病诊断提供决策参考. 展开更多
关键词 LightGBM模型 shap模型 糖尿病预测 特征分析
在线阅读 下载PDF
基于机器学习的中型城市居民出行方式选择行为研究 被引量:6
16
作者 李文权 邓安鑫 +2 位作者 郑炎 殷子娟 王白凡 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期13-23,共11页
为探索中型城市居民出行特征以及不同因素对出行方式选择行为的影响机制,本文以中国某中型城市居民出行数据为例,综合考虑传统离散选择模型和机器学习模型在预测精度和建模合理性上的优劣,以及机器学习模型超参数求解算法的特点和效率,... 为探索中型城市居民出行特征以及不同因素对出行方式选择行为的影响机制,本文以中国某中型城市居民出行数据为例,综合考虑传统离散选择模型和机器学习模型在预测精度和建模合理性上的优劣,以及机器学习模型超参数求解算法的特点和效率,引入变异程序,提出粒子群优化随机森林的中型城市居民出行方式选择预测模型,采用预测准确率、出行方式比例预测绝对误差和期望模拟误差这3项性能指标,量化对比粒子群优化随机森林模型与多种机器学习模型和多项Logit模型统计学上的预测性能差异,利用SHAP(SHapley Additive exPlanation)模型深入分析个人社会经济属性、出行属性及出行方式属性等相关因素与居民出行方式选择之间的非线性关系。结果表明:粒子群优化随机森林模型整体平均预测准确率最高,为0.856,出行方式比例预测平均绝对误差和期望模拟平均误差最低,分别为0.062和0.306,模型间指标差异在统计学检验下显著;距离对不同出行方式选择的影响最显著,步行和私家车出行对距离敏感性更高,不同距离下,两者选择概率变化超过35%;30岁以下群体不同出行方式选择概率差距大于其他年龄段;性别、是否拥有私家车或公交IC卡等因素显著改变公交车和私家车的选择概率。 展开更多
关键词 城市交通 出行方式选择 机器学习模型 中型城市 粒子群优化 shap模型
在线阅读 下载PDF
基于机器学习的农业水资源利用效率评价与分析 被引量:5
17
作者 吴展 王春晓 《中国农村水利水电》 北大核心 2024年第9期188-195,共8页
为提升我国北方农牧交错带农业水资源利用效率,研究旨在提出一种基于机器学习极限梯度提升(eXtreme Gradient Boosting,XGBoost)算法的农业水资源利用效率评价和分析框架。首先,利用熵权TOPSIS(Technique for Order Preference by Simil... 为提升我国北方农牧交错带农业水资源利用效率,研究旨在提出一种基于机器学习极限梯度提升(eXtreme Gradient Boosting,XGBoost)算法的农业水资源利用效率评价和分析框架。首先,利用熵权TOPSIS(Technique for Order Preference by Similarity to Ideal Solution)模型对北方农牧交错带七省区2008年至2021年的农业水资源利用效率进行测度;其次,将效率值作为XGBoost回归预测算法的先验样本进行训练测试,并使用贝叶斯优化(Bayesian Optimization,BO)算法对极限梯度提升回归预测模型的超参数进行优化。此外,应用五折交叉验证对TOPSIS-XGBoost回归模型结果进行稳健性检验;最后采用SHAP(Shapley Additive Explanation)模型系统分析影响北方农牧交错带七省区农业水资源利用效率的关键驱动因素。研究结果表明:2008年至2021年的北方农牧交错带七省区农业水资源利用效率整体有所提高,平均效率值由2008年的0.328上升至2021年的0.437,但总体效率均值较低;2021年河北省、宁夏回族自治区、辽宁省、陕西省和内蒙古自治区的农业水资源利用效率相对较高,效率值分布在0.40至0.59之间;甘肃省和山西省的农业水资源综合利用效率较低,效率值分别为0.33和0.31;BO-XGBoost回归预测模型测试集的R2较基准XGBoost模型提高了2.63%,且五折交叉验证的R2均值为0.96,表明模型误差较小,具有良好的预测性能和稳健性;供水模数、有效灌溉率以及农业规模化程度是影响七省区农业水资源利用效率的关键驱动因素。TOPSIS-BO-XGBoost-SHAP模型可为我国农业可持续发展提供科学参考和技术支持。 展开更多
关键词 机器学习 农业水资源利用效率 北方农牧交错带 XGBoost回归算法 shap模型
在线阅读 下载PDF
基于参数优化VMD与XGBoost算法的玉米蛋白粉价格预测 被引量:2
18
作者 吴展 王春晓 《饲料研究》 CAS 北大核心 2024年第13期178-183,共6页
玉米蛋白粉价格稳定对饲料工业可持续发展和国家粮食安全具有重要意义,但其价格序列具有非平稳、非线性特征,难以精确预测。试验旨在基于XGBoost算法,构建玉米蛋白粉价格预测模型。首先,利用鲸鱼算法(WOA)优化变模分解(VMD)的K值和惩罚... 玉米蛋白粉价格稳定对饲料工业可持续发展和国家粮食安全具有重要意义,但其价格序列具有非平稳、非线性特征,难以精确预测。试验旨在基于XGBoost算法,构建玉米蛋白粉价格预测模型。首先,利用鲸鱼算法(WOA)优化变模分解(VMD)的K值和惩罚参数,对原始价格序列进行自适应分解,降低数据噪声。其次,将Pearson特征筛选后的变量作为极限梯度提升树(XGBoost)模型的输入,进行训练和测试。最后,使用10折交叉验证和学习曲线检验模型性能,并结合SHAP模型分析关键影响因素的非线性效应。结果显示,上一期豆粕期货价格对本期玉米蛋白粉价格波动具有显著的正向影响。研究表明,贝叶斯算法(BO)优化的XGBoost模型具有较好的预测性能,优于基准模型。 展开更多
关键词 XGBoost算法 价格预测 玉米蛋白粉 变分模态分解 shap模型 贝叶斯优化
在线阅读 下载PDF
云贵高原地区生态系统健康时空分布及其驱动因素影响 被引量:2
19
作者 张学鹏 曾铖 +1 位作者 勾鹏 黄莹双 《测绘通报》 CSCD 北大核心 2024年第8期37-41,共5页
针对云贵高原地区生态系统健康(EH)的时空分布及其驱动因素问题,本文首先建立了“活力-组织力-恢复力-服务力”的EH评估模型,分析2000—2020年EH时空分布,然后利用XGBoost模型和SHAP解释模型分析各驱动因子与EH间的具体函数关系。结果表... 针对云贵高原地区生态系统健康(EH)的时空分布及其驱动因素问题,本文首先建立了“活力-组织力-恢复力-服务力”的EH评估模型,分析2000—2020年EH时空分布,然后利用XGBoost模型和SHAP解释模型分析各驱动因子与EH间的具体函数关系。结果表明:①2000—2020年,云贵高原地区的EH西部区域较东部区域较好,弱健康县集中在东北地区;②弱健康和较弱健康县由2000年的40%降低至2020年的24%,总体呈现全域改善的趋势;③城市化水平、降水与EH间存在递减的三次函数关系,温度、归一化植被指数与EH间存在递增的三次函数关系,高程与EH间为波动的四次函数关系。本文旨在为区域EH监测提供新方案,为云贵地区生态保护与恢复提供参考。 展开更多
关键词 生态系统健康 时空分布 驱动因素 XGBoost模型 shap模型
在线阅读 下载PDF
基于校准窗口集成与耦合市场特征的可解释双层日前电价预测 被引量:8
20
作者 刘慧鑫 沈晓东 +3 位作者 魏泽涛 刘友波 刘俊勇 白元宝 《中国电机工程学报》 EI CSCD 北大核心 2024年第4期1272-1285,I0003,共15页
随着电力市场之间耦合程度不断加深,只局限于单个市场内部的传统特征集不足以支撑高精度预测的需求。而且模型预测性能对校准窗口的选择敏感,而传统电价预测仅使用一个固定时间长度的数据集,同时预测模型的“黑盒”结构导致预测结果在... 随着电力市场之间耦合程度不断加深,只局限于单个市场内部的传统特征集不足以支撑高精度预测的需求。而且模型预测性能对校准窗口的选择敏感,而传统电价预测仅使用一个固定时间长度的数据集,同时预测模型的“黑盒”结构导致预测结果在工程应用中可信度偏低。针对上述问题,该文提出一种考虑校准窗口集成与耦合市场特征的可解释双层日前电价预测框架。内层框架为基于改进自适应噪声完备集合经验模态分解(improved complete ensemble empirical mode decomposition,ICEEMDAN)的择优预测,首先分解原始电价序列,然后应用Lasso估计回归(lassoestimated autoregressive,LEAR)、长期和短期时间序列网络(long-term and short-term time-series networks,LSTNet)、卷积神经网络-长短记忆神经网络(convolutionalneuralnetworks-longshort termmemory,CNN-LSTM)、移动平均(autoregressive integrated moving average,ARIMA)和核极限学习机(kernel extreme learning machines,KELM)模型预测子序列并选择最优预测算法。外层框架为基于贝叶斯模型平均(bayes modelaveraging,BMA)的校准窗口集成预测,针对每个不同校准窗口长度数据集下的预测分配权重并集成得到预测电价。最后,通过可解释方法沙普利加性解释模型(shapley additiveexplanations,SHAP)分析耦合市场特征如何影响预测电价。该文通过北欧电力市场数据集的算例分析证明了所提算法的优越性和校准窗口集成方案的有效性。 展开更多
关键词 校准窗口集成 耦合市场特征 双层预测框架 改进自适应噪声完备集合经验模态分解(ICEEMDAN) 贝叶斯模型平均(BMA) 沙普利加性解释模型(shap)
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部