期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于随机森林与SHAP算法的致密砂岩气暂堵效果的影响因素分析
1
作者 黄浩 车恒达 +3 位作者 孔祥伟 辛富斌 向九洲 吉俊杰 《科学技术与工程》 北大核心 2025年第26期11135-11143,共9页
为深入研究地质因素、分段及射孔参数、压裂施工因素对簇间暂堵效果的影响,通过构建暂堵效果量化模型和公式,收集苏里格区块暂堵井数据76组,融合随机森林和SHAP(Shapley additive explanations)值算法,建立暂堵效果算法模型。经过对暂... 为深入研究地质因素、分段及射孔参数、压裂施工因素对簇间暂堵效果的影响,通过构建暂堵效果量化模型和公式,收集苏里格区块暂堵井数据76组,融合随机森林和SHAP(Shapley additive explanations)值算法,建立暂堵效果算法模型。经过对暂堵效果量化模型和公式、暂堵效果算法模型验证,发现暂堵效果量化值与产气贡献率正相关,P=0.037,证明暂堵效果量化模型和公式的准确性高;又因暂堵效果算法模型中,训练集与测试集的MSE、MAE、R^(2)相差微小,证明该模型的泛化能力较强且准确性高。在暂堵效果算法模型的基础之上,开展暂堵效果的影响因素分析,结果表明:总段数、渗透率、暂堵球数量、簇间距和砂比这5个因素对于暂堵效果的影响占比最大。进一步分析单影响因素,发现随总段数增加,暂堵效果增加的规律只适用于直井,对水平井不适用;随渗透率增加,暂堵效果变差;暂堵球数量<50个、簇间距>20 m、砂比介于18%~20%,暂堵效果均可达到正向增长。研究结果可为苏里格等气田现场暂堵作业设计提供借鉴和参考。 展开更多
关键词 苏里格气田 致密砂岩气 暂堵效果 随机森林 shap(shapley additive explanations)值 模型解释
在线阅读 下载PDF
融合LightGBM与SHAP的糖尿病预测及其特征分析方法 被引量:25
2
作者 王鑫 廖彬 +1 位作者 李敏 孙瑞娜 《小型微型计算机系统》 CSCD 北大核心 2022年第9期1877-1885,共9页
人工智能在辅助医疗诊断方面得到广泛关注,对糖尿病预测的相关研究是近年来关注的一个热点问题.以皮马印第安人糖尿病数据集为研究对象,首先,对原始数据进行缺失值填充、异常值分析、标准化处理等工作的基础上,将预处理后的数据作为Ligh... 人工智能在辅助医疗诊断方面得到广泛关注,对糖尿病预测的相关研究是近年来关注的一个热点问题.以皮马印第安人糖尿病数据集为研究对象,首先,对原始数据进行缺失值填充、异常值分析、标准化处理等工作的基础上,将预处理后的数据作为LightGBM训练模型的输入;其次,与已有工作中基于SVM、随机森林、决策树以及Xgboost等多种机器学习模型进行实验对比,结果表明本文模型在准确率、精确率、召回率、F1值、AUC值5项性能指标上均明显优于对比模型;最后,引入SHAP模型增强模型的可解释性,同时综合比较了LightGBM和Xgboost的特征重要性排序结果,识别出了影响糖尿病的主要因素,为糖尿病的疾病诊断提供决策参考. 展开更多
关键词 LightGBM模型 shap模型 糖尿病预测 特征分析
在线阅读 下载PDF
融合XGBoost与SHAP模型的足球运动员身价预测及特征分析方法 被引量:10
3
作者 廖彬 王志宁 +1 位作者 李敏 孙瑞娜 《计算机科学》 CSCD 北大核心 2022年第12期195-204,共10页
随着足球运动全球化程度的不断提升,全球转会市场愈发庞大,然而针对影响转会交易最关键的因素球员身价的深入模型及应用研究还较为缺乏。以国际足球联合会FIFA的官方球员数据库为研究对象,首先,在区分不同球员位置的前提下,运用Box-Cox... 随着足球运动全球化程度的不断提升,全球转会市场愈发庞大,然而针对影响转会交易最关键的因素球员身价的深入模型及应用研究还较为缺乏。以国际足球联合会FIFA的官方球员数据库为研究对象,首先,在区分不同球员位置的前提下,运用Box-Cox变换、F-Score特征选择等方法对原始数据集进行特征处理;其次,通过XGBoost构建球员身价预测模型,并与Random Forest,Adaboost,GBDT,SVR等主流机器学习算法进行10折交叉验证实验对比,证明了XGBoost模型在R2,MAE,RMSE这3项指标上的性能优势;最后,在身价预测模型的基础上,融合SHAP框架分析不同位置影响球员身价的重要因素,为球员身价评估、身价对比分析、球员训练策略制定等场景提供决策支持。 展开更多
关键词 机器学习 球员身价预测 训练策略 XGBoost算法 shap
在线阅读 下载PDF
基于SHAP值惩罚特征的集成分类方法研究 被引量:7
4
作者 曹玉茹 高洋洋 《统计与决策》 CSSCI 北大核心 2023年第6期21-26,共6页
在回归问题中,惩罚特征即正则化是特征处理的常用方式。但在集成分类问题中,惩罚特征以改善训练效果的研究较少。文章提出一种基于GBDT模型训练的SHAP值对各样本特征惩罚加权,进而提升分类精度的集成模型;其中,对于测试样本的SHAP值估计... 在回归问题中,惩罚特征即正则化是特征处理的常用方式。但在集成分类问题中,惩罚特征以改善训练效果的研究较少。文章提出一种基于GBDT模型训练的SHAP值对各样本特征惩罚加权,进而提升分类精度的集成模型;其中,对于测试样本的SHAP值估计,通过其与训练集的样本距离权重结合训练集的SHAP矩阵近似得到。实验结果表明:选择GBDT_SHAP值惩罚特征后,模型的预测精度均有显著提升,验证了该算法的有效性。以GBDT_SHAP_GBDT模型为例,其在多组经典数据集上的分类效果良好,且在不平衡数据集上性能突出;若干组仿真实验表明,该方法能使模型快速达到较优且较为稳定的拟合效果,鲁棒性较强。 展开更多
关键词 分类问题 shap 特征惩罚 GBDT 集成学习
在线阅读 下载PDF
基于可解释机器学习的混凝土重力坝变形安全监控模型 被引量:3
5
作者 程琳 袁喜娜 +2 位作者 马春辉 贾冬焱 徐笑颜 《水利水电科技进展》 北大核心 2025年第3期77-85,共9页
针对目前基于机器学习的大坝安全监控模型无法给出模型预测解释的问题,引入SHAP值理论,并结合LightGBM模型,建立了一种具备可解释性的混凝土重力坝变形安全监控模型,且该模型可以量化每个影响因子的具体贡献。工程实例验证结果表明,该... 针对目前基于机器学习的大坝安全监控模型无法给出模型预测解释的问题,引入SHAP值理论,并结合LightGBM模型,建立了一种具备可解释性的混凝土重力坝变形安全监控模型,且该模型可以量化每个影响因子的具体贡献。工程实例验证结果表明,该模型考虑了变形与环境量之间复杂的非线性关系,更接近真实情况,不仅具有良好的拟合精度和预测精度,还能对模型进行全局和局部的解释。 展开更多
关键词 混凝土重力坝 变形安全监控 可解释机器学习 shap值理论 LightGBM模型
在线阅读 下载PDF
基于MLP-AdaBoost模型的混凝土抗压强度预测研究 被引量:2
6
作者 赵佳亮 达列雄 +1 位作者 郭鸿 王婷 《混凝土》 北大核心 2025年第6期17-22,共6页
针对传统机器学习模型对混凝土抗压强度预测方面的局限性,提出了采用集成MLP和AdaBoost算法的融合模型。结合影响混凝土抗压强度共8个特征,以MLP和AdaBoost两种算法作为基模型,加权线性回归作为元模型,构建MLP-Adaboost融合模型,然后采... 针对传统机器学习模型对混凝土抗压强度预测方面的局限性,提出了采用集成MLP和AdaBoost算法的融合模型。结合影响混凝土抗压强度共8个特征,以MLP和AdaBoost两种算法作为基模型,加权线性回归作为元模型,构建MLP-Adaboost融合模型,然后采用贝叶斯优化技术来确定最优的超参数组合,以确保模型预测的准确性。试验表明:五折交叉验证确定系数指标(R^(2))达到0.957,均方根误差指标(RMSE)为3.798,平均绝对误差指标(MAE)为2.769。将MLP-AdaBoost融合模型与其他模型的预测结果作比较分析,得到MLP-AdaBoost融合模型的预测精度更高。最后通过SHAP库对混凝土数据集的组合预测模型进行可解释性分析,得到模型的预测逻辑与工程领域的实际操作一致,证明了该模型的合理性,为混凝土抗压强度的准确预测提供了一种有效的新方法。 展开更多
关键词 混凝土抗压强度预测 ADABOOST 贝叶斯优化 MLP 融合模型 shap
在线阅读 下载PDF
基于血清标志物等临床特征的机器学习模型在浸润性乳腺癌腋窝淋巴结转移预测中的应用研究
7
作者 依帕拉·伊力哈木 王蕾 +4 位作者 马涛 高春洁 刘静 赵婷 王岩 《中国肿瘤临床》 北大核心 2025年第10期507-514,共8页
目的:本研究旨在结合血清生物标志物(serum tumor markers,STMs)和临床病理因素,预测浸润性乳腺癌患者腋窝淋巴结转移(axillary lymph node metastasis,ALNM)风险。方法:收集2015年1月至2019年12月在新疆医科大学附属肿瘤医院接受诊治的... 目的:本研究旨在结合血清生物标志物(serum tumor markers,STMs)和临床病理因素,预测浸润性乳腺癌患者腋窝淋巴结转移(axillary lymph node metastasis,ALNM)风险。方法:收集2015年1月至2019年12月在新疆医科大学附属肿瘤医院接受诊治的3360例患者的11个临床特征资料,采用5种机器学习(machine learning,ML)算法构建ALNM预测模型,并通过曲线下面积(area under curve,AUC)、准确度、Kappa值和Brier评分比较模型性能,并将表现最好的模型与基于逻辑回归(Logistic regression,LR)构建的列线图进行比较,以确定最终的模型。最后,根据确定的最终模型的夏普利加性解释(Shapley additive explanations,SHAP)值,对影响ALNM的危险因素进行重要性排序。结果:极限梯度增强(eXtreme gradient boosting,XGBoost)模型展现出最佳的预测性能(AUC=0.769,准确度=0.735,Kappa=0.450),并在训练和验证集上均优于传统基于LR的列线图[训练集AUC和Brier评分为0.822(0.810~0.820)vs.0.742(0.721~0.763),0.170(0.163~0.177)vs.0.197(0.189~0.204);验证集AUC和Brier评分为0.769(0.740~0.770)vs.0.747(0.716~0.779),0.190(0.178~0.202)vs.0.195(0.189~0.204)],最终确定XGBoost为本研究的最佳模型。SHAP值分析显示,影响ALNM的前四位因素为肿瘤分期、年龄、分子分型和CEA水平。结论:基于STMs和临床特征的XGBoost模型能较为准确地预测浸润性乳腺癌ALNM风险,其性能优于传统模型,且肿瘤分期是最关键的预测因素。 展开更多
关键词 乳腺癌 腋窝淋巴结转移 机器学习 血清标志物 shap
在线阅读 下载PDF
变压器励磁涌流多角度时频特征综合辨识方法
8
作者 陈春 占露昕 +3 位作者 曹伯仲 曹一家 李勇 刘均乐 《电力系统自动化》 北大核心 2025年第14期163-172,共10页
配电网中电力电子器件的不断接入导致系统谐波电流日益加大,传统基于二次谐波电流制动的变压器差动保护可靠性面临挑战。同时,单一特征辨识方法受分布式电源类型和合闸角影响,无法准确区分不同场景下的故障电流和励磁涌流。为了提高励... 配电网中电力电子器件的不断接入导致系统谐波电流日益加大,传统基于二次谐波电流制动的变压器差动保护可靠性面临挑战。同时,单一特征辨识方法受分布式电源类型和合闸角影响,无法准确区分不同场景下的故障电流和励磁涌流。为了提高励磁涌流的辨识准确率,文中提出全面整合时域、频域和时频域特征的多角度时频分析方法,利用Bayes算法优化极端梯度提升(XGBoost)的分类参数,提高模型的泛化能力,实现不同容量、不同类型分布式电源接入下的故障电流与励磁涌流的准确辨识;采用SHAP值分析方法,揭示各特征值在辨识模型中的贡献度。基于仿真及现场实测数据对所提励磁涌流辨识方法进行验证,针对样本数据的识别准确率接近100%。 展开更多
关键词 分布式电源 变压器 故障电流 励磁涌流 时域特征 频率特征 shap
在线阅读 下载PDF
变压器健康状态实时预警方法及可解释性分析 被引量:1
9
作者 廖才波 蒋子豪 +3 位作者 杨金鑫 邵剑 王同磊 李轩 《高电压技术》 北大核心 2025年第10期5155-5165,共11页
传统变压器健康状态评估主要依赖行业导则和专家经验,通常采用周期性的离线评估方式,难以反映设备实时状态。基于数据驱动的评估模型虽适用于持续跟踪设备运行状态及其发展趋势,但存在对原始样本要求高、可解释性不足等问题。因此,该文... 传统变压器健康状态评估主要依赖行业导则和专家经验,通常采用周期性的离线评估方式,难以反映设备实时状态。基于数据驱动的评估模型虽适用于持续跟踪设备运行状态及其发展趋势,但存在对原始样本要求高、可解释性不足等问题。因此,该文提出了一种基于不平衡数据的可解释变压器健康状态预警方法。首先,通过自适应综合过采样方法有效扩充少数类样本,生成均衡化的样本集;其次,构建基于贝叶斯优化轻量梯度提升机的变压器健康状态预警模型,实现对变压器健康状态的精准、高效预测;最后,引入沙普利值加性解释归因理论,从全局与个体两个角度开展变压器健康状态预警影响因素分析,有效量化了各状态参量对模型预测结果的影响度。研究表明,该文方法对变压器健康状态的识别平均准确率为98.46%,可有效反映变压器特征参量与模型预测结果之间的动态联动过程,为现场变压器的智能运维及差异化检修策略制定提供有效支撑。 展开更多
关键词 变压器 健康预警 轻量梯度提升机 自适应综合过采样 沙普利值 可解释性
在线阅读 下载PDF
基于机器学习的旋压成形20钢筒形件表面质量和性能预测
10
作者 李浩玮 李强 +3 位作者 桂海莲 李沂玮 杨鹏程 申春雷 《机械工程材料》 北大核心 2025年第10期58-65,共8页
采用有限元模拟了不同减薄率(10%,20%,30%,40%,50%)和进给率(0.55,0.70,0.85,1.00,1.15,1.30,1.45 mm·r^(-1))下旋压成形20钢筒形件的椭圆度、直线度和残余应力,构建数据集,采用粒子群优化(PSO)优化支持向量回归(SVR)、随机森林(RF... 采用有限元模拟了不同减薄率(10%,20%,30%,40%,50%)和进给率(0.55,0.70,0.85,1.00,1.15,1.30,1.45 mm·r^(-1))下旋压成形20钢筒形件的椭圆度、直线度和残余应力,构建数据集,采用粒子群优化(PSO)优化支持向量回归(SVR)、随机森林(RF)、梯度提升决策树(GBDT)和极端梯度提升树(XGBoost)算法建立机器学习模型,对比分析各模型预测效果,并进行了沙普利可加性特征解释(SHAP)分析。结果表明:有限元模拟得到随着减薄率增加,椭圆度先增大后减小后增大,直线度先增大后减小,残余压应力先减小后增大;随着进给率增加,椭圆度增加,直线度增大,残余应力变化不显著。对直线度、椭圆度和残余应力预测准确性由高到低依次为GBDT模型、XGBoost模型、RF模型和SVR模型;GBDT模型SHAP分析结果与实际结果基本相符,证明了GBDT模型预测的可靠性。GBDT模型预测得到满足直线度小于0.5 mm、椭圆度小于0.4 mm、残余应力小于160 MPa要求的旋压工艺参数为减薄率40%、进给率0.55~0.90 mm·r^(-1)。 展开更多
关键词 旋压工艺 机器学习 表面质量 性能预测 shap值可解释分析
在线阅读 下载PDF
改进贝叶斯优化与集成学习短期负荷预测模型
11
作者 顼佳宇 王晓冰 +3 位作者 李冰 王媛 雍明月 邵晨 《电力系统及其自动化学报》 北大核心 2025年第9期34-44,共11页
针对电力系统短期负荷预测的问题,提出基于改进贝叶斯优化和集成学习的预测模型。首先,采用岭回归、套索回归、随机森林和Huber回归作为基学习器,以待测负荷之前时段的负荷数据作为自变量,独立地预测待测负荷值;其次,构建基于极致梯度... 针对电力系统短期负荷预测的问题,提出基于改进贝叶斯优化和集成学习的预测模型。首先,采用岭回归、套索回归、随机森林和Huber回归作为基学习器,以待测负荷之前时段的负荷数据作为自变量,独立地预测待测负荷值;其次,构建基于极致梯度提升的元学习器,以基学习器的预测值作为自变量,进一步提升待测负荷值的预测精度;然后,使用基于Hyperband改进的贝叶斯优化算法和5折交叉验证进行参数优化;最后,利用沙普利加和解释值分析各个基学习器对元学习器的重要性,以及各个输入特征对集成学习模型的重要性。仿真及实际算例验证表明,该方法相较于单一模型具有更好的预测精度和稳定性,且与神经网络模型相比,所提模型在不损失预测精度的情况下提高了预测可解释性。 展开更多
关键词 电力系统 短期负荷预测 贝叶斯优化 集成学习 极致梯度提升 沙普利加和解释值
在线阅读 下载PDF
黄河流域中游生态系统服务价值时空变化特征及驱动因素
12
作者 崔琦泽 张仲伍 《山西农业大学学报(自然科学版)》 北大核心 2025年第5期125-136,共12页
[目的]受土壤结构松散、地形起伏显著及植被覆盖度低等因素共同影响,黄土高原地区生态环境稳定性较差,致使黄河中游段成为我国生态环境脆弱性较为突出的典型区域,准确估算生态系统服务价值(ESV)动态变化及其影响因素对促进黄河流域中游... [目的]受土壤结构松散、地形起伏显著及植被覆盖度低等因素共同影响,黄土高原地区生态环境稳定性较差,致使黄河中游段成为我国生态环境脆弱性较为突出的典型区域,准确估算生态系统服务价值(ESV)动态变化及其影响因素对促进黄河流域中游可持续发展具有重要意义。[方法]本文基于修正后的当量因子法构建包含建设用地的ESV估值模型,并通过土地利用转移矩阵、XGBoost-SHAP模型等方法,考察研究区土地利用和ESV的动态演变,以及ESV的影响因素。[结果](1)黄河流域中游的土地利用类型及转变以耕地、草地和森林为主。耕地和建设用地单一土地利用动态变化显著,分别为-2.95%和1.90%;土地利用综合动态变化平均为0.15%,2005-2010年最大为0.32%。(2)黄河流域中游的ESV值逐渐降低,总降低率为21.95%。ESV较低值区和中值区缩小,其余各级扩大,呈现出由西北向东南递减的空间分布格局。(3)夜间灯光亮度是影响黄河流域中游ESV变化的最主要因素,占23.03%。平均坡度、森林比例和年平均气温对ESV有正向影响,而夜间灯光亮度、耕地比例、人口密度和平均海拔对ESV有负向影响。其它因素的影响相对较小。[结论]由于经济快速发展和城市化逐渐推进,黄河流域中游的ESV值呈降低趋势,有必要深入了解自然和人类活动对生态环境的影响。研究结果可为黄河流域中游生态系统服务空间格局优化及生态保护策略的制定提供科学支撑。 展开更多
关键词 生态系统服务价值 土地利用变化 XGBoost-shap模型 黄河流域中游
在线阅读 下载PDF
基于XGBoost算法的山东烟叶质量预测模型初探 被引量:11
13
作者 别瑞 周婷云 +4 位作者 周显升 姜滨 周永 邱军 曹建敏 《中国烟草科学》 CSCD 北大核心 2022年第5期80-86,93,共8页
为挖掘烟叶化学成分与感官质量之间的关系,探究机器学习算法在烟叶质量评价领域的应用效果,以山东烟叶为试验材料,开展了常规成分、生物碱、有机酸、多酚和单双糖等20项主要化学成分检测和感官质量评价,并根据感官质量优劣将其划分为好... 为挖掘烟叶化学成分与感官质量之间的关系,探究机器学习算法在烟叶质量评价领域的应用效果,以山东烟叶为试验材料,开展了常规成分、生物碱、有机酸、多酚和单双糖等20项主要化学成分检测和感官质量评价,并根据感官质量优劣将其划分为好、中、差3个质量档次。利用遗传算法对XGBoost进行超参数寻优,建立了基于化学成分的山东烟叶质量档次预测模型,同时引入SHAP value模型解释框架进行全局解释与特征依赖分析。所建预测模型对山东烟叶质量档次判别准确率为85%,尤其对第3质量档次识别效果最佳。SHAP value全局解释表明,影响山东烤烟质量的7个特征指标贡献度排名为:酸酚比>蔗糖>氯>烟碱>降烟碱>柠檬酸>糖碱比,其中糖碱比、蔗糖、酸酚比分别为好、中、差质量档次判别贡献最大的化学指标。基于XGBoost算法的山东烟叶质量预测模型在烟叶质量档次判别应用中有效、可靠、可解释性强,对于烟叶质量评价和烟叶生产具有一定指导意义。 展开更多
关键词 山东烟叶 XGBoost 机器学习 shap value 质量预测
在线阅读 下载PDF
考虑样本不平衡的特高压换流阀状态评估及其影响因素分析 被引量:15
14
作者 李轩 梅飞 +2 位作者 沙浩源 李丹奇 郑建勇 《中国电机工程学报》 EI CSCD 北大核心 2022年第4期1558-1568,共11页
针对特高压换流阀状态评估中原始数据不均衡、模型难以解释等问题,提出一种基于轻量梯度提升机(light gradient boosting machine,LightGBM)与SHAP归因分析的特高压换流阀状态评估方法。首先,通过层次聚类、自适应确定子簇规模与加权过... 针对特高压换流阀状态评估中原始数据不均衡、模型难以解释等问题,提出一种基于轻量梯度提升机(light gradient boosting machine,LightGBM)与SHAP归因分析的特高压换流阀状态评估方法。首先,通过层次聚类、自适应确定子簇规模与加权过采样生成均衡化样本,解决样本不平衡问题;接着,基于Light GBM树结构分类器构建状态评估模型,实现对样本的快速、准确评估;最后提出一种基于夏普利加法解释(SHapley Additive exPlanations,SHAP)归因理论的特高压换流阀状态评估影响因素分析框架,从全局与个体2个角度展示换流阀各状态量的重要程度及其对运行等级的影响效果。通过算例验证了所提过采样方法及状态评估模型的有效性,并通过关键影响因素的分析为换流阀状态评估结果提供依据与支撑。 展开更多
关键词 换流阀 状态评估 过采样 LightGBM shap
在线阅读 下载PDF
基于机器学习的公交驾驶员事故风险识别及影响因素研究 被引量:8
15
作者 朱彤 秦丹 +2 位作者 魏雯 任杰 冯移冬 《中国安全科学学报》 CAS CSCD 北大核心 2023年第2期23-30,共8页
为从公交驾驶员群体中识别出易发生事故的风险公交驾驶员,结合某市公交公司营运安全管理系统数据库、百度应用程序接口(API)及网络爬取技术,并应用K近邻算法补充缺失值,获取42条线路及1893名驾驶员的数据;基于驾驶员、车辆、线路特征、... 为从公交驾驶员群体中识别出易发生事故的风险公交驾驶员,结合某市公交公司营运安全管理系统数据库、百度应用程序接口(API)及网络爬取技术,并应用K近邻算法补充缺失值,获取42条线路及1893名驾驶员的数据;基于驾驶员、车辆、线路特征、违规行为、事故、管理等基本特征变量构造派生变量;采用包括递归特征消除、有惩罚项的逻辑回归、随机森林的集成方法选择特征;采用极致梯度提升(XGBoost)等6种机器方法分别建立分类模型,并采用贝叶斯方法优化超参数。结果表明:在构建的6个分类模型中,XGBoost方法构建的模型其受试者工作特征(ROC)曲线下的面积(AUC)评估结果最佳;运用贝叶斯方法优化模型,可以在一定程度上提升ROC的AUC指标;对于风险公交驾驶员预测准确率达到98.66%,运营单位还可以根据自身情况权衡虚报率与命中率代价。此外,车辆服役时间、违规次数等特征对于事故风险具有明显的非线性影响。 展开更多
关键词 风险公交驾驶员 机器学习 事故风险 极致梯度提升(XGBoost) shapley加性解释(shap)值
在线阅读 下载PDF
基于Sentinel-5P卫星反演京津冀地区近地面NO_(2)浓度研究 被引量:4
16
作者 周刚 徐彬仁 +3 位作者 徐炜达 程文晨 尹文君 王凌 《环境科学研究》 CAS CSCD 北大核心 2024年第6期1223-1231,共9页
为充分利用卫星传感器在探索长时间、大范围区域内近地面二氧化氮(NO2)浓度时空变化规律方面的优势,进一步提高卫星近地面NO_(2)浓度预测的准确性,本研究以Sentinel-5P卫星TROPOMI传感器观测的对流层NO_(2)柱浓度为基础,提出一种融合多... 为充分利用卫星传感器在探索长时间、大范围区域内近地面二氧化氮(NO2)浓度时空变化规律方面的优势,进一步提高卫星近地面NO_(2)浓度预测的准确性,本研究以Sentinel-5P卫星TROPOMI传感器观测的对流层NO_(2)柱浓度为基础,提出一种融合多源地理要素的“自上而下”近地面NO_(2)浓度遥感估算方法,综合分析随机森林模型(RF)、极致梯度提升树模型(XGBoost)和轻型梯度提升树模型(LightGBM)的性能,基于3种树模型对2019−2020年京津冀地区近地面NO_(2)浓度进行反演,并采用十折交叉验证方法分别对3种模型在近地面NO_(2)浓度预测中的精度差异与稳定性进行了检验比较,利用拟合优度(R2)、均方根误差(RMSE)和平均绝对误差(MAE)对模型进行精度评价,最终选取XGBoost以实现京津冀地区卫星近地面NO_(2)浓度的高效分析预测(R2=0.85,RMSE=6.61μg/m^(3),MAE=2.09μg/m^(3)),在此基础上,从季度、年份等时间尺度对近地面NO_(2)浓度进行空间分析。结果表明:①由于2020年新型冠状病毒感染疫情反弹带来的人类生产活动和出行活动的大量减少,2019年近地面NO_(2)浓度(13.96μg/m^(3))比2020年(13.04μg/m^(3))整体偏高。②近地面NO_(2)浓度具有明显的季节性变化特征,春、夏两季由于大气扩散条件较好,近地面NO_(2)浓度相对较低,在冬季达到全年峰值。③基于SHAP值(沙普利加性解释法)方法对模型特征进行空间分析,并定量研究每个特征对模型的正负贡献程度,其中,对流层NO_(2)柱浓度对预测近地面NO_(2)浓度起到主要促进作用,大气边界层高度对预测近地面NO_(2)浓度起到抑制作用,另外太阳直射辐射、人口密度、地表温度及降水量等指标均对预测近地面NO_(2)浓度有明显影响。研究显示,XGBoost能够更加稳定和准确地预测卫星近地面NO_(2)浓度,为准确识别近地面NO_(2)浓度时空分布特征提供新的手段,可在一定程度上突破现阶段NO_(2)地面监测稀疏的空间局限以及卫星对流层NO_(2)柱浓度代表性不足的缺陷。 展开更多
关键词 NO_(2) TROPOMI 机器学习 XGBoost shap
在线阅读 下载PDF
基于链上数据的区块链欺诈账户检测研究 被引量:9
17
作者 周健 张杰 闫石 《计算机应用研究》 CSCD 北大核心 2022年第4期992-997,共6页
针对区块链上存在的欺诈账户给交易带来的安全问题,提出了基于机器学习的欺诈账户的检测及特征分析模型,将以太坊上真实的链上数据进行特征提取后作为模型的数据来源,通过对不同的机器学习方法进行比较得到最优模型并进行迭代训练以获... 针对区块链上存在的欺诈账户给交易带来的安全问题,提出了基于机器学习的欺诈账户的检测及特征分析模型,将以太坊上真实的链上数据进行特征提取后作为模型的数据来源,通过对不同的机器学习方法进行比较得到最优模型并进行迭代训练以获得最佳的预测模型,同时引入SHAP值对数据特征进行分析。实验结果表明,基于XGBoost的欺诈账户检测模型在RMSE、MAE和R^(2)三组指标上达到了0.205、0.084和0.833,优于其余的对比模型,并结合SHAP值识别出预测欺诈账户的关键因素,为区块链的交易安全提供决策参考。 展开更多
关键词 链上数据 机器学习 区块链 欺诈账户 shap
在线阅读 下载PDF
奥运奖牌可以被预测吗?——基于可解释机器学习视角 被引量:2
18
作者 石慧敏 章东迎 章永辉 《上海体育大学学报》 CSSCI 北大核心 2024年第4期26-36,共11页
基于1992-2021年夏季奥运会的分项目成绩大数据,使用随机森林模型评估不同项目金牌和奖牌的可预测性,发现各项目存在较大的差异:对奖牌而言,可预测性最强的是乒乓球、羽毛球和游泳,而最弱的是水球、现代五项和排球。基于可解释机器学习... 基于1992-2021年夏季奥运会的分项目成绩大数据,使用随机森林模型评估不同项目金牌和奖牌的可预测性,发现各项目存在较大的差异:对奖牌而言,可预测性最强的是乒乓球、羽毛球和游泳,而最弱的是水球、现代五项和排球。基于可解释机器学习方法挖掘社会经济因素对奥运奖牌的影响发现:(1)对同一个项目而言,女子项目的可预测准确性普遍高于男子项目;(2)代表队所在地区的人口规模、人均GDP、是否为主办国等因素对奖牌总数具有一定影响;(3)在特定项目上,代表队的传统优势(如中国的乒乓球、美国的田径等)对奖牌预测具有较大影响。 展开更多
关键词 奥运奖牌 机器学习 特征重要性 shap方法 shapLEY值
在线阅读 下载PDF
基于集成学习的土壤含水量预测研究——以辽西地区为例 被引量:7
19
作者 付平凡 杨晓静 +2 位作者 苏志诚 屈艳萍 马苗苗 《土壤》 CAS CSCD 北大核心 2023年第3期671-681,共11页
准确高效地预测土壤含水量(SMC)对田间水分管理至关重要。本研究利用在辽西地区自建的3个站点2018—2021年10~40 cm土壤水分自动观测小时数据集,分析研究随机森林(random forest,RF)和梯度提升机(gradient boosting machine,GBM)算法在... 准确高效地预测土壤含水量(SMC)对田间水分管理至关重要。本研究利用在辽西地区自建的3个站点2018—2021年10~40 cm土壤水分自动观测小时数据集,分析研究随机森林(random forest,RF)和梯度提升机(gradient boosting machine,GBM)算法在SMC预测方面的适用性,验证不同时间尺度SMC的预测结果。同时引入SHAP(shapley additive explanations)方法表征5类(降水、日照时数、平均相对湿度、风速、平均气温)输入变量对SMC预测结果的影响,并制定区间划分规则识别变量最大贡献阈值区间。研究结果表明:年尺度下,SMC预测GBM模型和RF模型R2分别为0.982和0.888,气温贡献最大,最大贡献区间是21~23℃;季尺度下,2种模型R2分别为0.935和0.863,日照时数贡献最大,最大贡献区间为2~4 h。该研究创新应用SHAP方法于机器学习输入变量贡献度分析,同时验证了2种机器学习算法对SMC预测研究的准确性,可为SMC相关研究提供参考。 展开更多
关键词 集成学习 土壤含水量预测 梯度提升机 随机森林 辽宁西部 shap
在线阅读 下载PDF
一种基于夏普利值及油中溶解气体分析的可解释变压器故障诊断方法 被引量:12
20
作者 廖才波 杨金鑫 +3 位作者 邱志斌 胡雄 曾清霖 黄智勇 《电网技术》 EI CSCD 北大核心 2024年第4期1752-1761,I0099,共11页
相比于三比值等传统方法,基于机器学习算法的变压器故障诊断方法在诊断效率及准确性等方面具有一定的优势,但“黑箱模型”的本质属性决定了其决策过程及诊断结果的不可解释性。针对该问题,该文提出了一种基于油中溶解气体分析的可解释... 相比于三比值等传统方法,基于机器学习算法的变压器故障诊断方法在诊断效率及准确性等方面具有一定的优势,但“黑箱模型”的本质属性决定了其决策过程及诊断结果的不可解释性。针对该问题,该文提出了一种基于油中溶解气体分析的可解释变压器故障诊断方法,采用树形夏普利加法解释(tree Shapely additive explanations,TreeSHAP)方法实现了基于树结构概率密度估计优化极端梯度提升(tree-structured parzen estimator-extreme gradient boosting,TPE-XGBoost)的变压器故障诊断模型的可解释性分析。首先,构建了涵盖油中溶解气体含量、比值及编码等多结构数据的24维故障特征集合,并筛选得到10个有效特征量。其次,提出了基于TPE-XGBoost算法的变压器故障诊断方法,采用树结构概率密度估计完成XGBoost模型的多参数同步优化,实现对故障类型的准确判断。最后,引入TreeSHAP理论开展变压器故障诊断模型的可解释性分析,实现了故障诊断决策过程及其影响因素的可视化,并获取了不同故障类型的关键特征量。研究表明,该文所述变压器故障诊断方法的平均准确率为90.23%,同时可反映特征量对模型决策的影响过程及程度。该方法具有较好的准确性、鲁棒性及可解释性,可为变压器运维检修提供针对性的指导建议。 展开更多
关键词 变压器 故障诊断 树结构概率密度估计 极端梯度提升 可解释性 夏普利值
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部