期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
改进K-SMOTE随机森林算法在地震信息发布安全风险评估中的应用研究 被引量:1
1
作者 李亚龙 何琳 +2 位作者 万杰 潘丹 孙静 《地震工程学报》 北大核心 2025年第1期168-177,共10页
为有效地提高地震监测、预警、灾情评估等信息发布的安全性提出一种改进型K-SMOTE随机森林(RF)方法构建地震信息安全风险评估模型。该模型通过改进K-SMOTE算法中运用混合采样获得均衡度高的样本集,然后使用随机K折交叉验证方法进行样本... 为有效地提高地震监测、预警、灾情评估等信息发布的安全性提出一种改进型K-SMOTE随机森林(RF)方法构建地震信息安全风险评估模型。该模型通过改进K-SMOTE算法中运用混合采样获得均衡度高的样本集,然后使用随机K折交叉验证方法进行样本划分与模型优化,最终实现目标安全风险等级评估。对实际地震信息发布案例进行评测,文章所提方法构建模型评估准确率为92%,模型精确率和查全率分别为0.81和0.92,模型泛化能力强,能有效用于地震信息发布安全风险评估。本研究为完善地震信息发布安全评估体系、改进地震信息发布环境、降低安全风险提供了参考。 展开更多
关键词 地震信息发布 风险等级评估 改进K-SMOTE 随机森林 随机K折交叉验证
在线阅读 下载PDF
基于改进K-SMOTE随机森林算法的房屋建筑抗震能力判定 被引量:1
2
作者 李亚龙 张洁 檀斌 《工程抗震与加固改造》 北大核心 2025年第1期67-78,共12页
为完善房屋建筑抗震能力评价体系,改进房屋建筑抗震能力判定方法,本文分析了房屋建筑抗震设防能力影响因素,基于故障树分析法(FTA)确定评估目标的基本原因事件,并对FTA模型中的基本原因事件进行分类归纳,构建房屋建筑抗震设防能力判定体... 为完善房屋建筑抗震能力评价体系,改进房屋建筑抗震能力判定方法,本文分析了房屋建筑抗震设防能力影响因素,基于故障树分析法(FTA)确定评估目标的基本原因事件,并对FTA模型中的基本原因事件进行分类归纳,构建房屋建筑抗震设防能力判定体系;采用基尼指数计算体系中各指标因子的权重并对指标的重要性进行分析,在对指标进行斯皮尔曼相关系数计算的基础上,结合指标重要性基于随机森林(RF)方法构建了房屋建筑抗震设防能力判定模型,以霍山县部分房屋建筑基础数据构建样本集,为提升RF模型泛化能力,避免模型过度拟合,通过改进K-SMOTE算法混合采样提高样本均衡度,使用随机K折交叉验证方法进行样本划分与模型优化,实现房屋建筑抗震设防能力等级判定。研究结果表明:(1)模型评估准确率为93.81%,模型精确率和查全率分别为0.883和0.938,模型泛化能力强;(2)选择实际房屋建筑样例,模型判定结果与实际结果一致,验证了所提方法构建模型的正确性,能有效用于房屋建筑抗震能力判定;(3)将所提方法应用霍山县乡镇区域房屋建筑抗震设防能力判定,得出霍山县城区房屋建筑抗震能力一般,乡村房屋建筑抗震能力较差。本研究可有效用于房屋建筑抗震能力判定,为改进区域抗震设防措施、降低区域震害风险提供参考。 展开更多
关键词 抗震设防判定 FTA 改进K-SMOTE 随机森林 随机K折交叉验证
在线阅读 下载PDF
蛋白质中RNA-结合残基预测的随机森林模型 被引量:10
3
作者 马昕 郭静 孙啸 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第1期50-54,共5页
构建了用于预测蛋白质序列中RNA-结合残基的分类模型.在模型的特征提取方面,除了与功能相关的结构特征和序列正交编码信息以外,还提出了一个新颖的特征PSSM-PP.该特征不仅包含蛋白质序列的进化保守特征,还包含与蛋白质和RNA结合有关的... 构建了用于预测蛋白质序列中RNA-结合残基的分类模型.在模型的特征提取方面,除了与功能相关的结构特征和序列正交编码信息以外,还提出了一个新颖的特征PSSM-PP.该特征不仅包含蛋白质序列的进化保守特征,还包含与蛋白质和RNA结合有关的氨基酸理化特征.在设计模型时,考虑到样本数据量大的问题,选用了快速的随机森林算法.该预测模型总体预测准确率达到87.02%,特异性达到95.62%,敏感性达51.16%,Matthew相关系数为0.533 6.此外,还构建了RNA结合残基的预测平台. 展开更多
关键词 随机森林 位置特异性矩阵 嵌套式交叉验证 RNA-结合残基
在线阅读 下载PDF
基于随机森林模型的需水预测模型及其应用 被引量:47
4
作者 王盼 陆宝宏 +3 位作者 张瀚文 张巍 孙银凤 季妤 《水资源保护》 CAS 2014年第1期34-37,89,共5页
为解决需水预测模型精度问题,尝试基于随机森林模型的分类和回归功能构建需水预测模型。以苏州市需水量预测为研究实例,首先应用随机森林模型的分类功能将需水预测因子分类,经计算发现第一产业比例、人口、灌溉面积、万元产值用水量和... 为解决需水预测模型精度问题,尝试基于随机森林模型的分类和回归功能构建需水预测模型。以苏州市需水量预测为研究实例,首先应用随机森林模型的分类功能将需水预测因子分类,经计算发现第一产业比例、人口、灌溉面积、万元产值用水量和国民经济生产总值为最重要的解释变量。在此基础上,用随机森林模型的回归功能对需水进行预测,同时采用相同的训练数据建立基于BP神经网络和RBF神经网络的需水预测模型,通过对比3个模型的预测结果,发现随机森林模型能有效预测需水量,且精度较高。 展开更多
关键词 需水预测 随机森林模型 神经网络模型 解释变量 OOB交叉验证
在线阅读 下载PDF
基于随机森林的乳腺肿瘤细针穿刺辅助诊断 被引量:5
5
作者 孙伟 张俊升 邢培锐 《计算机应用》 CSCD 北大核心 2015年第A02期143-145,169,共4页
细针穿刺细胞学诊断是乳腺肿瘤早期诊断最常用的方法。为提高乳腺肿瘤细针穿刺诊断的准确率,提出了基于随机森林(RF)和支持向量机(SVM)的乳腺肿瘤细针穿刺辅助诊断方法。该方法利用乳腺肿瘤细针穿刺病例数据库,分别对随机森林(RF)、支... 细针穿刺细胞学诊断是乳腺肿瘤早期诊断最常用的方法。为提高乳腺肿瘤细针穿刺诊断的准确率,提出了基于随机森林(RF)和支持向量机(SVM)的乳腺肿瘤细针穿刺辅助诊断方法。该方法利用乳腺肿瘤细针穿刺病例数据库,分别对随机森林(RF)、支持向量机(SVM)两种分类算法进行训练,并利用训练得到的分类模型对乳腺肿瘤进行诊断。仿真结果表明,采用RF分类器时,乳腺肿瘤诊断准确率达到95.96%,高于SVM分类器的94.71%,也高于学习向量化(LVQ)神经网络的91.51%及中人工神经网络的91.25%,且RF分类器准确率的稳定性优于SVM分类器,可靠性高。最终结果证明:采用RF分类器提高了乳腺肿瘤细针穿刺诊断的正确率和可靠性,为乳腺肿瘤细针穿刺临床诊断提供了更加先进有效的方法。 展开更多
关键词 乳腺肿瘤 随机森林 支持向量机 细胞穿刺 交叉验证
在线阅读 下载PDF
随机森林回归模型用于土壤重金属含量多光谱遥感反演 被引量:12
6
作者 王腾军 方珂 +1 位作者 杨耘 张祥东 《测绘通报》 CSCD 北大核心 2021年第11期92-95,共4页
本文以陕西省柞水县大西沟矿区为研究区域,通过实地采集土壤样本,结合在Landsat 8多光谱遥感影像上提取的辐射亮度值和光谱衍生指数,以及从ASTER GDEM提取的3种地形因素,通过相关性分析确定了建模因子,并以K折交叉验证法建立了砷、铜、... 本文以陕西省柞水县大西沟矿区为研究区域,通过实地采集土壤样本,结合在Landsat 8多光谱遥感影像上提取的辐射亮度值和光谱衍生指数,以及从ASTER GDEM提取的3种地形因素,通过相关性分析确定了建模因子,并以K折交叉验证法建立了砷、铜、铅3种重金属元素的随机森林回归模型。试验结果表明,所建立模型的预测精度优于多元线性回归模型和CART模型,可见随机森林回归模型适用于在小样本情况下的矿区重金属含量反演。经现场调查,空间反演结果与实际情况较符合,证明了基于多光谱遥感的随机森林回归模型在矿区土壤重金属反演中的准确性。 展开更多
关键词 土壤重金属反演 多光谱遥感 K折交叉验证 随机森林回归模型
在线阅读 下载PDF
基于改进随机森林模型的海底管道腐蚀预测 被引量:18
7
作者 张新生 蔡宝泉 《中国安全科学学报》 CAS CSCD 北大核心 2021年第8期69-74,共6页
为提高海底管道腐蚀速率预测精度,建立一种基于改进随机森林的海底管道腐蚀预测模型。首先,采用斯皮尔曼相关系数,分析实海挂片腐蚀数据的相关性,并采用因子分析降维;然后,设定K值为5的K折交叉验证,建立随机森林回归(RFR)模型,并输入降... 为提高海底管道腐蚀速率预测精度,建立一种基于改进随机森林的海底管道腐蚀预测模型。首先,采用斯皮尔曼相关系数,分析实海挂片腐蚀数据的相关性,并采用因子分析降维;然后,设定K值为5的K折交叉验证,建立随机森林回归(RFR)模型,并输入降维后的数据;最后,输出模型的交叉验证得分,并对比评价该模型与其他模型的最高得分预测结果。研究结果表明:改进RFR的五折交叉验证输出平均得分值为0.912,高于BP神经网络(BPNN)模型、支持向量回归(SVR)模型2种对比模型;五折交叉验证最高得分预测结果均方根误差(RMSE)、平均绝对误差(MAE)分别为1.441和1.3,均优于对比模型相应值。 展开更多
关键词 海底管道 腐蚀预测 随机森林回归(RFR)模型 斯皮尔曼相关系数 因子分析 K折交叉验证
在线阅读 下载PDF
局部加权随机森林的冲击地压危险性等级预测
8
作者 王彦彬 田洪斌 李昕璐 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2017年第7期679-683,共5页
为对煤矿冲击地压危险性等级进行预测,综合考虑煤层厚度、煤层倾角、开采深度、顶板岩性、构造情况、开采方法、有无煤柱、采煤工艺等影响因素.采用局部加权学习方法建立冲击地压危险性等级预测模型,其中分类器选择随机森林,样本间距离... 为对煤矿冲击地压危险性等级进行预测,综合考虑煤层厚度、煤层倾角、开采深度、顶板岩性、构造情况、开采方法、有无煤柱、采煤工艺等影响因素.采用局部加权学习方法建立冲击地压危险性等级预测模型,其中分类器选择随机森林,样本间距离采用欧氏距离函数进行计算.实验选取17组冲击地压数据进行研究,其中14组数据用于建立预测模型,采用十折交叉验证法对模型进行评价,并与采用决策树和朴素贝叶斯生成的模型进行比较,预测准确率得到较大提高,最后使用该模型对其它3组测试数据进行预测,预测结果与实际类别吻合.研究结果表明:采用局部加权随机森林方法可以建立泛化性能更好的冲击地压预测模型. 展开更多
关键词 冲击地压 等级预测 局部加权学习 随机森林 十折交叉验证
在线阅读 下载PDF
基于BWO-RF模型的岩体质量评价方法 被引量:2
9
作者 赵国彦 胡凯译 +2 位作者 李洋 刘雷磊 王猛 《黄金科学技术》 CSCD 北大核心 2024年第2期270-279,共10页
岩体质量分级是地下工程初期设计和施工的基础。为了更加高效准确地开展岩体质量评价,提出了一种基于白鲸优化(BWO)随机森林的岩体质量评价模型——BWO-RF模型,同时构建了麻雀搜索算法优化随机森林(SSA-RF)、粒子群优化随机森林(PSO-RF... 岩体质量分级是地下工程初期设计和施工的基础。为了更加高效准确地开展岩体质量评价,提出了一种基于白鲸优化(BWO)随机森林的岩体质量评价模型——BWO-RF模型,同时构建了麻雀搜索算法优化随机森林(SSA-RF)、粒子群优化随机森林(PSO-RF)和未优化随机森林(RF)的岩体质量评价模型进行对比。在模型构建前,建立了包含131组工程实例数据的数据库,运用该数据库最终完成了4种模型的训练和测试。基于模型测试结果,采用准确率、查准率、召回率、F1值和AUC值5个评价指标对模型进行对比优选。研究结果表明:BWO-RF模型各项评价指标均优于其余3种模型,具有更优的评价性能;经过工程实例验证,本研究所提出的BWO-RF模型预测准确率达90%,可为实际工程建设提供参考依据,具备实际工程应用价值。 展开更多
关键词 安全工程 岩体质量评价 岩体质量分级 白鲸优化 随机森林 交叉验证
在线阅读 下载PDF
利用随机森林回归的现货市场出清价格预测方法 被引量:67
10
作者 魏勤 陈仕军 +2 位作者 黄炜斌 马光文 陶春华 《中国电机工程学报》 EI CSCD 北大核心 2021年第4期1360-1367,共8页
为得到一种实用性较强且具有较高精度的电力现货市场出清价格的预测方法,该文尝试将随机森林回归应用到现货市场出清价格预测。首先通过随机森林回归的特征重要度分析功能对历史出清价和负荷输入进行特征筛选,然后建立基于随机森林回归... 为得到一种实用性较强且具有较高精度的电力现货市场出清价格的预测方法,该文尝试将随机森林回归应用到现货市场出清价格预测。首先通过随机森林回归的特征重要度分析功能对历史出清价和负荷输入进行特征筛选,然后建立基于随机森林回归的市场出清价预测模型,以网格搜索和交叉验证的方法确定模型参数,最后与基于决策回归树、支持向量机回归和人工神经网络的方法在北欧现货市场公开数据的基础上进行对比试验。试验结果表明该文设计预测方法相较其他方法的平均预测精度至少提高了25%,且预测效果较为稳定,同时输入特征筛选方法的应用能够进一步提高各个模型的预测精度。 展开更多
关键词 电力现货市场 市场出清价 随机森林 特征筛选 网格搜索 交叉验证
在线阅读 下载PDF
改进随机森林在Android恶意检测中的应用 被引量:3
11
作者 朱月俊 文爽 李剑 《信息安全研究》 2017年第11期1020-1027,共8页
为了提高Android恶意软件多分类问题的效率,提出了一种改进的随机森林算法.针对随机森林构建过程中每个节点分裂时选取的特征子集进行优化,同时采用交叉验证方法进行模型优化.实验结果表明,在将Android应用划分为正常应用、短信木马、... 为了提高Android恶意软件多分类问题的效率,提出了一种改进的随机森林算法.针对随机森林构建过程中每个节点分裂时选取的特征子集进行优化,同时采用交叉验证方法进行模型优化.实验结果表明,在将Android应用划分为正常应用、短信木马、间谍软件、僵尸网络问题上,改进的随机森林算法分类性能优于原始的随机森林算法,具有较高的精确率(94.0%)和召回率(90.5%).能够有效检测出Android恶意软件类型,保护设备安全,保障用户信息和财产安全. 展开更多
关键词 安卓 恶意软件 多分类 随机森林 特征子集 交叉验证
在线阅读 下载PDF
基于随机森林回归的智能手机用步长估计模型 被引量:2
12
作者 毕京学 汪云甲 +2 位作者 齐红霞 曹鸿基 姚国标 《中国惯性技术学报》 EI CSCD 北大核心 2020年第2期147-152,共6页
行人航位推算是智能手机室内定位与导航系统中最常用的方法,步长估计是重要组成部分。针对现有步长估计模型精度不够高、多数模型无法用于智能手机的问题,提出了一种面向智能手机基于随机森林回归的高精度步长估计模型。利用线性回归和... 行人航位推算是智能手机室内定位与导航系统中最常用的方法,步长估计是重要组成部分。针对现有步长估计模型精度不够高、多数模型无法用于智能手机的问题,提出了一种面向智能手机基于随机森林回归的高精度步长估计模型。利用线性回归和相关分析方法对测试数据进行特征分析,以身高、步频及其算术平方根为训练特征构建随机森林回归模型,采用十折交叉验证法的误差评定结果(相关系数和均方根误差)对随机森林回归模型进行改进。利用提出步长估计模型在4段走廊内开展实验,步行211 m的距离误差为2.582 m,相对误差约为1.22%;与常用三种模型相比,相对误差减小了2.18%~5.82%,且具有更高轨迹重合度。实验结果表明,提出模型比常用三种模型具有更高估计精度。 展开更多
关键词 室内定位 智能手机 行人航位推算 步长估计 随机森林回归 十折交叉验证
在线阅读 下载PDF
随机森林算法在城市空气质量预测中的应用 被引量:36
13
作者 杨思琪 赵丽华 《统计与决策》 CSSCI 北大核心 2017年第20期83-86,共4页
近年来雾霾现象不断出现,空气质量状况愈发受到关注。文章以每日前一天的PM2.5、PM10浓度值等污染指标及温度、湿度、风速值等气象指标为影响因子,尝试基于随机森林算法的分类与回归功能,采用交叉验证法构建空气质量预测模型,并与应用Bo... 近年来雾霾现象不断出现,空气质量状况愈发受到关注。文章以每日前一天的PM2.5、PM10浓度值等污染指标及温度、湿度、风速值等气象指标为影响因子,尝试基于随机森林算法的分类与回归功能,采用交叉验证法构建空气质量预测模型,并与应用Boosting、Bagging、决策树及支持向量机算法建立的模型的预测结果对比,发现随机森林模型具有较高的预测精度、较强的泛化能力及较好的稳健性能等优点,对开展城市空气质量预测工作有一定的指导意义。 展开更多
关键词 随机森林算法 空气质量预测 交叉验证 分类 回归
在线阅读 下载PDF
基于贝叶斯模型组合的随机森林预测方法 被引量:12
14
作者 董娜 常建芳 吴爱国 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第2期123-130,共8页
为了能够精准可靠地估计太阳能辐照度,本文提出一种基于贝叶斯模型组合的随机森林算法用于太阳能辐照度预测.首先,引入K-means聚类和K折交叉验证将气象数据训练集生成多个训练子集,以增加训练子集的多样性并保证均匀采样.其次,将随机森... 为了能够精准可靠地估计太阳能辐照度,本文提出一种基于贝叶斯模型组合的随机森林算法用于太阳能辐照度预测.首先,引入K-means聚类和K折交叉验证将气象数据训练集生成多个训练子集,以增加训练子集的多样性并保证均匀采样.其次,将随机森林作为基学习器建立集成学习预测模型,导入训练子集并训练各个随机森林.之后,依据各个随机森林在验证集上的预测性能,采用贝叶斯模型组合算法制定组合策略.个体随机森林在测试集上的预测值经过模型组合策略得到最终输出.最后,基于气象实测数据建立仿真实验,并引入其他四种预测方法进行对比仿真研究,通过实验结果验证了文中所提出预测方法在太阳能辐照度预测问题中的准确性和可靠性. 展开更多
关键词 K均值聚类 交叉验证 随机森林 贝叶斯模型组合 太阳能辐照度
在线阅读 下载PDF
改进的并行随机森林算法及其包外估计 被引量:4
15
作者 钱雪忠 秦静 宋威 《计算机应用研究》 CSCD 北大核心 2018年第6期1651-1654,共4页
传统的包外估计记录全局数据与树之间的对应关系来测算泛化误差。然而基于MapReduce机制的并行随机森林算法(MR_RF)是建立在多个互不可见的分块数据上。对此分析MR_RF与RF的区别,设计了一个新的适用于MR_RF的包外泛化误差估计方法。主... 传统的包外估计记录全局数据与树之间的对应关系来测算泛化误差。然而基于MapReduce机制的并行随机森林算法(MR_RF)是建立在多个互不可见的分块数据上。对此分析MR_RF与RF的区别,设计了一个新的适用于MR_RF的包外泛化误差估计方法。主要将测算限定在数据块内,最终森林的泛化误差估计取块结果的平均。实验结果表明,新的包外估计方法与交叉验证在默认分块上的结果近似,却随着分块的增加出现偏差,对此分析了可能的原因,并给出选择集成方案思想,且分块大小与分类准确率成反比,与分类速率成正比。 展开更多
关键词 MAPREDUCE 随机森林 包外估计 泛化误差 交叉验证
在线阅读 下载PDF
基于DBSCAN-ML的液压风力发电机故障诊断研究 被引量:1
16
作者 宾世杨 李利强 +1 位作者 程乐 陈浩武 《机床与液压》 北大核心 2024年第14期227-235,共9页
传统风力发电机对于系统故障的解决方案是有限和预先确定的,而具有大量传感器数据的故障预测诊断可以有效预防可能发生的系统故障,从而降低设备维护成本。为此,提出一种基于DBSCAN-ML的风力发电机故障诊断策略。基于密度的应用噪声算法... 传统风力发电机对于系统故障的解决方案是有限和预先确定的,而具有大量传感器数据的故障预测诊断可以有效预防可能发生的系统故障,从而降低设备维护成本。为此,提出一种基于DBSCAN-ML的风力发电机故障诊断策略。基于密度的应用噪声算法空间聚类(DBSCAN)从正常状态数据中分类出异常状态的风力机数据,然后采用决策树和随机森林算法2种机器学习(ML)算法构建预测模型,最后使用K折交叉验证进行测试。通过广西31台风力发电机组数据对此故障诊断方案进行案例验证。结果表明:DBSCAN算法可以有效分离异常状态数据,且决策树预测模型和随机森林模型可以分别获得92.7%和92.1%的准确率,通过数据挖掘和建模可以检测风力发电机组的故障,并可以预测部件的维护需求。 展开更多
关键词 风力发电机 基于密度的应用噪声算法空间聚类(DBSCAN) 机器学习(ML) 决策树 随机森林 K折交叉验证 故障诊断
在线阅读 下载PDF
基于RF-SA-SDCNN的涡扇发动机剩余寿命预测
17
作者 肖亮 曾云 《农业装备与车辆工程》 2024年第3期153-158,共6页
针对涡扇发动机现阶段预测精确度低的问题,提出了一种基于RF-SA-SDCNN相融合的涡扇发动机剩余寿命预测方法。首先,将多传感器长序列数据进行指数平滑和归一化处理,以减少由于量纲、取值范围不同和噪声波动引起的误差,并利用随机森林算... 针对涡扇发动机现阶段预测精确度低的问题,提出了一种基于RF-SA-SDCNN相融合的涡扇发动机剩余寿命预测方法。首先,将多传感器长序列数据进行指数平滑和归一化处理,以减少由于量纲、取值范围不同和噪声波动引起的误差,并利用随机森林算法对多元传感器信号进行重要性特征提取;然后,搭建基于随机森林算法和自注意机制与堆叠膨胀卷积神经网络相结合的预测模型,自注意机制通过对特征赋予不同权重分配加强贡献度,堆叠膨胀卷积通过扩大模型感受野提取时序特征用于回归分析,并利用GridSearch优化算法和StratifiedKFold交叉验证方法优化模型提升模型预测精度;最后,采用CMAPSS数据集验证验证所提方法的有效性。结果表明,所提方法可有效提高涡扇发动机剩余寿命预测精度。 展开更多
关键词 随机森林算法 自注意机制 堆叠神经网络 GridSearch K折交叉验证 指数平滑
在线阅读 下载PDF
岩体质量分类的PCA-RF模型及应用 被引量:10
18
作者 刘强 李夕兵 梁伟章 《黄金科学技术》 CSCD 2018年第1期49-55,共7页
为了更合理地确定岩体质量类别,将主成分分析(PCA)与随机森林(RF)算法相结合,提出一种岩体质量分类的PCA-RF模型。选取能够充分反映岩体质量类别的5项指标进行分析,运用主成分分析法对各指标进行相关性处理,依据方差累计贡献率得出3个... 为了更合理地确定岩体质量类别,将主成分分析(PCA)与随机森林(RF)算法相结合,提出一种岩体质量分类的PCA-RF模型。选取能够充分反映岩体质量类别的5项指标进行分析,运用主成分分析法对各指标进行相关性处理,依据方差累计贡献率得出3个主成分,从而消除指标间的相关性,减少模型输入。然后采用随机森林模型对岩体质量进行分类,选用现场20组数据作为训练样本、10组数据作为测试样本,利用交叉验证的方法估计泛化误差。结果表明,该方法分类结果与实际结果较吻合,平均准确率达96.7%,同时得出岩体质量所处类别的概率分布,进一步反映岩体质量的复杂度,为工程建设提供更详细的参考依据。 展开更多
关键词 岩体质量 主成分分析 随机森林 指标相关性 交叉验证 泛化误差
在线阅读 下载PDF
基于RFI与PFE的光伏功率预测数据挖掘方法
19
作者 高乐天 顾文波 《太阳能学报》 北大核心 2025年第4期256-262,共7页
为避免光伏组件寿命、清洁度等随时间变化但数据集中不存在的特征对光伏发电功率预测造成的不良影响,提出一种基于随机森林重要性排序与多项式升维的数据挖掘方法来应用于小样本的光伏发电功率预测中。首先根据随机森林重要性对各特征... 为避免光伏组件寿命、清洁度等随时间变化但数据集中不存在的特征对光伏发电功率预测造成的不良影响,提出一种基于随机森林重要性排序与多项式升维的数据挖掘方法来应用于小样本的光伏发电功率预测中。首先根据随机森林重要性对各特征进行重要性排序;然后通过交叉验证分别确定回归模型最适合保留的特征数量和多项式升维次数;最后对比数据挖掘前后交叉验证集和测试集的预测结果。结果表明所提出的数据挖掘方法适用于小样本条件下MLPR回归模型及以MLPR为基础的RNN、GRU、LSTM共3种时序回归模型。 展开更多
关键词 数据挖掘 光伏发电 预测 小样本 随机森林重要性排序 多项式升维 交叉验证
在线阅读 下载PDF
基于TF-IDF的Webshell文件检测 被引量:8
20
作者 赵瑞杰 施勇 +2 位作者 张涵 龙军 薛质 《计算机科学》 CSCD 北大核心 2020年第S02期363-367,共5页
随着互联网的飞速发展,网络攻击行为日益频繁。Webshell是常见的网络攻击方式,而传统的检测手段已无法应对复杂灵活的变种Webshell攻击。为解决这一问题,提出了一种基于TF-IDF的Webshell文件检测方法。系统首先对不同类型的Webshell文... 随着互联网的飞速发展,网络攻击行为日益频繁。Webshell是常见的网络攻击方式,而传统的检测手段已无法应对复杂灵活的变种Webshell攻击。为解决这一问题,提出了一种基于TF-IDF的Webshell文件检测方法。系统首先对不同类型的Webshell文件进行分类,并对不同文件进行相应的预处理转码,以降低混淆干扰技术对检测的影响;随后建立词袋模型,并采用TF-IDF算法加权提取相关特征;最后使用XGBoost算法训练得到检测模型。与传统机器学习算法进行的10折交叉验证对比测试表明,使用TF-IDF算法预处理后结合XGBoost算法的Webshell文件检测模型性能出色,检测效果相较于传统检测方法在准确率、精确率、召回率等方面均有所提高,同时具备更强的鲁棒性与泛化能力,其中对PHP类型文件检测的准确率达到了98.09%,对JSP类型文件检测准确率达到了97.09%。 展开更多
关键词 Webshell检测 特征提取 交叉验证 TF-IDF 多层神经网络 支持向量机 随机森林 XGBoost算法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部