期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
不平衡数据集的自然邻域超球面过采样方法
1
作者 周玉 岳学震 +1 位作者 刘星 王培崇 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第12期81-95,共15页
为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻... 为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻居直至形成稳定的自然邻域;接着,根据每个样本点自然邻居的标签特点,将所有样本点划分为异常点、噪声点、多数类安全点、少数类安全点和少数类边界点5个区域;然后,对每个少数类边界点构建超球面,合并完全处于大超球面中的小超球面,形成一个超球面集合;最后,根据超球面半径大小自适应地为每个超球面分配采样比例,在超球面内生成指定个数的新样本点得到平衡数据集。结果表明,利用该方法在人工数据集和真实数据集上进行过采样形成新的样本集,以CART,SVM和KNN 3个分类器进行实验,并与其他8种常用方法进行对比分析。同时,以AUC值、F_(1)和G_(m)作为评价指标,进一步证明了该方法可以更好的对不平衡数据集进行分类。 展开更多
关键词 不平衡数据集 过采样 自然邻居 超球面 分类
在线阅读 下载PDF
基于改进级联算法的不平衡数据集分类检测算法
2
作者 吕文官 薛峰 《保定学院学报》 2024年第2期98-103,共6页
以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部... 以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部密度特征,利用时间编码挖掘数据的时序性特征,采用Apriori算法的强关联规则提取数据集特征;利用模糊层次聚类算法对支持向量机进行优化,实现数据类型的划分;利用改进的级联算法联合布谷鸟算法实现不平衡数据集分类检测.实验结果表明本方法的分类协方差低于0.15,检测准确率高于95%,检测时间低于2.2 ms,有效提升了不平衡数据集分类检测效果. 展开更多
关键词 卡尔曼滤波 改进级联算法 不平衡数据集 分类检测
在线阅读 下载PDF
基于对不平衡数据集进行二次迁移学习的滚动轴承剥落类故障诊断方法 被引量:4
3
作者 郭俊锋 王淼生 王智明 《上海交通大学学报》 EI CAS CSCD 北大核心 2023年第11期1512-1521,共10页
滚动轴承在运行过程中正常工作状态时间长,故障时间很短,导致数据集不平衡,从而极大地影响深度学习模型故障诊断的准确率.针对该问题,提出一种基于二次迁移学习的滚动轴承不平衡数据集故障诊断方法.首先使用源域和目标域中的少量数据通... 滚动轴承在运行过程中正常工作状态时间长,故障时间很短,导致数据集不平衡,从而极大地影响深度学习模型故障诊断的准确率.针对该问题,提出一种基于二次迁移学习的滚动轴承不平衡数据集故障诊断方法.首先使用源域和目标域中的少量数据通过条件梯度惩罚生成对抗网络(CWGAN-GP)生成过渡数据集,然后将搭建好的卷积神经网络模型在源域数据集、过渡数据集和目标域数据集之间进行两次迁移,最后使用目标域的少量数据对迁移后的模型进行微调,得到最终的故障诊断模型.实验结果表明,该方法对不同工况下数据集不平衡的滚动轴承剥落类故障有较好的诊断识别效果. 展开更多
关键词 迁移学习 故障诊断 不平衡数据集 生成对抗网络
在线阅读 下载PDF
面向不平衡数据集的煤矿监测系统异常数据识别方法 被引量:22
4
作者 冀汶莉 郗刘涛 王斌 《工矿自动化》 北大核心 2020年第1期18-25,共8页
异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数... 异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数据,以煤矿分布式光纤竖井变形监测系统采集的数据为研究对象,提出了一种面向不平衡数据集、基于去重复下采样(RDU)、合成少数类过采样技术(SMOTE)和随机森林(RF)分类算法的煤矿监测系统异常数据识别方法。该方法利用RDU算法对多数类数据进行下采样,去除重复样本;利用SMOTE算法对少数类异常数据进行过采样,通过合成新的异常数据来改善数据集的不平衡性;并利用优化后的数据集训练RF分类算法,得到异常数据识别模型。在6个真实数据集上的对比实验结果表明,该方法的异常数据识别准确率平均值达到99.3%,具有较好的泛化性和较强的鲁棒性。 展开更多
关键词 煤矿安全监测 异常数据识别 不平衡数据集 机器学习 数据 下采样 过采样 随机森林
在线阅读 下载PDF
一种适应于不平衡数据集的改进TANC算法 被引量:1
5
作者 赵小强 杨佳敏 《兰州理工大学学报》 CAS 北大核心 2014年第5期86-89,共4页
传统的分类方法对不平衡数据集进行分类时对数据集中少数类的分类准确率不高,而少数类往往对结果的影响尤为重要.为此提出一种适应于不平衡数据集的改进树扩展型朴素贝叶斯(TANC)算法,该算法首先利用Relief算法对样本中的少数类进行权... 传统的分类方法对不平衡数据集进行分类时对数据集中少数类的分类准确率不高,而少数类往往对结果的影响尤为重要.为此提出一种适应于不平衡数据集的改进树扩展型朴素贝叶斯(TANC)算法,该算法首先利用Relief算法对样本中的少数类进行权重分配,然后通过训练数据集,使缺失数据补齐,并通过将属性分割成多个有限区间,使连续数据离散化,将修改后的训练集用以训练TANC,最后通过TANC算法对数据集进行分类.基于UCI标准数据集上的实验结果表明,该算法的整体性能优于TANC算法. 展开更多
关键词 机器学习 不平衡数据集 TANC算法 RELIEF算法
在线阅读 下载PDF
不平衡数据集的混合采样方法 被引量:4
6
作者 尚旭 《数字技术与应用》 2016年第12期68-71,共4页
不平衡数据集中,由于某类别数量的不平衡,使得类别数量少的容易被误分,导致其分类准确率不高。处理不平衡数据集的方法,可以分为算法方面和数据方面,在数据方面中,主要分为两种方法:过采样和欠采样,但是对于将这两种方法结合的研究不是... 不平衡数据集中,由于某类别数量的不平衡,使得类别数量少的容易被误分,导致其分类准确率不高。处理不平衡数据集的方法,可以分为算法方面和数据方面,在数据方面中,主要分为两种方法:过采样和欠采样,但是对于将这两种方法结合的研究不是很多,过采样和欠采样都具有一定的优势,因此设想将这两种方法结合起来,希望可以找到更好的方法。提出两种混合采样方法:Random-SMOTE+ENN和Random-SMOTE+TNS,并与几种典型的抽样方法在数据集上进行实验对比,实验结果表明提出的两种方法是可行有效的。 展开更多
关键词 不平衡数据集 过采样 欠采样
在线阅读 下载PDF
不平衡数据集下基于自适应加权Bagging-GBDT算法的磁盘故障预测模型 被引量:9
7
作者 李新鹏 高欣 +6 位作者 何杨 阎博 孙汉旭 李军良 徐建航 刘震宇 庞博 《微电子学与计算机》 北大核心 2020年第3期14-19,共6页
针对磁盘数据集中正负样本数目严重不平衡导致基于机器学习的分类算法易出现故障预测准确率低的问题,本文提出一种基于自适应加权Bagging-GBDT算法的磁盘故障预测模型.首先,提出基于聚类的分层欠采样方法对健康磁盘样本进行多次抽样,解... 针对磁盘数据集中正负样本数目严重不平衡导致基于机器学习的分类算法易出现故障预测准确率低的问题,本文提出一种基于自适应加权Bagging-GBDT算法的磁盘故障预测模型.首先,提出基于聚类的分层欠采样方法对健康磁盘样本进行多次抽样,解决随机欠采样方法易丢弃潜在有用样本的问题;其次,将每次采样后样本与全部故障磁盘样本组合得到多个样本子集,通过训练这些子集建立多个预测精度较高的GBDT子分类模型;最后,根据待测点邻域样本类别自适应确定各子模型权重,据此通过加权硬投票集成最终的磁盘故障预测模型.在8组KEEL不平衡数据集上实验结果表明,与现有典型不平衡学习算法相比,少数类的召回率平均提升了9.46%;同时在磁盘公开数据集和某调度系统磁盘数据上对比验证了该方法在故障预测率上的先进性. 展开更多
关键词 磁盘故障预测 不平衡数据集 分层欠采样 Bagging-GBDT 自适应加权
在线阅读 下载PDF
面向不平衡数据集的一种改进的k-近邻分类器 被引量:15
8
作者 刘鹏 杜佳芝 +1 位作者 吕伟刚 窦明武 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第7期932-936,共5页
心脏心律失常数据集的心电图(ECG)数据往往存在各心律失常类型下样本数量不平衡问题.针对此问题,提出了一种新的模式识别分类方法,即改进的基于核的差重建的加权k-近邻分类器(modified kernel difference-weighted k-nearest neighbor c... 心脏心律失常数据集的心电图(ECG)数据往往存在各心律失常类型下样本数量不平衡问题.针对此问题,提出了一种新的模式识别分类方法,即改进的基于核的差重建的加权k-近邻分类器(modified kernel difference-weighted k-nearest neighbor classifier, MKDF-WKNN),通过引入修正因子对含样本数较多的类别进行权值抑制,对含样本数较少的类别进行权值的加大,并使用UCI心脏心律失常数据集对ECG数据进行分类.实验结果表明,提出的算法和其他一些基于KNN的算法如KNN,DS-WKNN,DF-WKNN和KDF-WKNN相比,对于不平衡的心律失常数据集的分类有更好的效果. 展开更多
关键词 心律失常 心电图 模式分类 K-近邻算法 不平衡数据集
在线阅读 下载PDF
面向不平衡数据集的网络入侵检测算法 被引量:2
9
作者 徐忠原 杨秀华 +1 位作者 王业 李玲 《吉林大学学报(信息科学版)》 CAS 2023年第6期1112-1119,共8页
针对入侵检测数据集存在类别不平衡问题,提出了系统化数据预处理与混合采样相结合的网络入侵检测算法。根据入侵检测数据集的特征分布,对特征值进行系统化处理。首先对Proto、Service和State 3个类别特征,合并每类特征中样本数较少的取... 针对入侵检测数据集存在类别不平衡问题,提出了系统化数据预处理与混合采样相结合的网络入侵检测算法。根据入侵检测数据集的特征分布,对特征值进行系统化处理。首先对Proto、Service和State 3个类别特征,合并每类特征中样本数较少的取值,以降低独热编码的维度;然后依据数值分布将其中18个极端分布的数值特征进行对数处理后再执行Z-score标准化。设计了Nearmiss-1欠采样与SMOTE(Synthetic Minority Over-sampling Technique)过采样相结合的类别不平衡处理技术,将训练集中每类样本按照Proto、Service和State类别特征分成子类,对每个子类进行等比例欠采样或过采样。建立了入侵检测模型PSSNS-RF(Nearmiss and SMOTE based on Proto,Service,State-Random Forest),在UNSW-NB15数据集上的多分类检出率达到97.02%,解决了数据不平衡问题,显著提高了少数类的检出率。 展开更多
关键词 网络入侵检测 不平衡数据集 特征选择 网络安全
在线阅读 下载PDF
不平衡数据集的CT结肠镜息肉检测方法
10
作者 熊馨 徐礼胜 +1 位作者 王春武 康雁 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2013年第11期112-117,共6页
目前CT结肠镜的息肉检测分类器面临着数据集不平衡问题,数据集中的正样本(息肉)的数量远远小于负样本.针对这个问题,息肉检测分类器采用SMOTEBoost,结合SMOTE(Synthetic Minority Over-Sampling Technique)和Boosting:在数据层面,采用... 目前CT结肠镜的息肉检测分类器面临着数据集不平衡问题,数据集中的正样本(息肉)的数量远远小于负样本.针对这个问题,息肉检测分类器采用SMOTEBoost,结合SMOTE(Synthetic Minority Over-Sampling Technique)和Boosting:在数据层面,采用过采样技术SMOTE合成少数类样本,减轻数据集中两类样本的不平衡程度;在算法层面,采用Boosting方法提高弱分类器的性能,两者结合起来,既改善对少数类样本的预测能力,又保证了对整个数据集的分类精度.为了满足息肉检测对算法实时性的需求,采用MRMR(Minimum Redundancy Maximum Relevance)方法挑选最大相关、最小冗余的简单特征组成级联第1层强分类器,拒绝大多数负样本,极大地提高了分类器的处理速度.实验结果表明:设计的分类器检测直径大于5 mm息肉的敏感度达到90%,每个数据体6个假阳. 展开更多
关键词 不平衡数据集 CT结肠镜 结肠息肉检测 重采样 BOOSTING CASCADE ADABOOST
在线阅读 下载PDF
面向不平衡数据集的改进SMOTE算法 被引量:10
11
作者 董永峰 董彦琦 张亚娟 《河北工业大学学报》 CAS 2022年第6期40-46,共7页
合成少数类过采样技术(SMOTE)提升了分类器在不平衡数据集上的分类性能,但该算法在合成新样本时存在盲目性和边缘化的问题。为此,提出了一种改进算法BSMOTE,该算法对少数类样本进行聚类,在聚类产生的各个簇中任取三个样本构造三角形,在... 合成少数类过采样技术(SMOTE)提升了分类器在不平衡数据集上的分类性能,但该算法在合成新样本时存在盲目性和边缘化的问题。为此,提出了一种改进算法BSMOTE,该算法对少数类样本进行聚类,在聚类产生的各个簇中任取三个样本构造三角形,在三角形的重心与顶点之间合成新样本,从而使新样本向重心靠拢并远离决策边界。在7个不平衡数据集上,采用6种不同的过采样算法平衡数据集,再利用随机森林进行分类,实验结果表明,基于BSMOTE算法的随机森林分类性能更佳,验证了该算法在解决不平衡数据分类问题中的优势。 展开更多
关键词 不平衡数据集 SMOTE算法 聚类 过采样 随机森林
在线阅读 下载PDF
基于车用柴油机不平衡数据集的故障识别组合模型
12
作者 李秀峰 王宁 +1 位作者 刘璇琦 段艳 《汽车工程学报》 2022年第5期646-653,共8页
基于车用柴油机的不平衡数据集,根据对应故障发生频次高与低,将模型建立对象分为样本丰富的大数据量故障与样本集不完备的小数据量故障两种。面向前者,基于XGBoost(Extreme Gradient Boosting)分类算法构建故障识别模型,面向后者,基于... 基于车用柴油机的不平衡数据集,根据对应故障发生频次高与低,将模型建立对象分为样本丰富的大数据量故障与样本集不完备的小数据量故障两种。面向前者,基于XGBoost(Extreme Gradient Boosting)分类算法构建故障识别模型,面向后者,基于模糊神经网络构建故障识别模型,然后针对两类模型进行参数调节以获得最优效果,并分别建立评估机制。模型评估结果表明,该故障识别组合模型能够较为精确、全面地识别大多数故障种类,是一种对数据量要求不高且总识别率超过80%的多适应性识别模型算法,可作为汽车维保工作中的重要工具使用。 展开更多
关键词 发动机故障识别 不平衡数据集 XGBoost 模糊神经网络
在线阅读 下载PDF
面向不平衡数据集的入侵检测算法 被引量:2
13
作者 高莹莹 孙璇 《北京信息科技大学学报(自然科学版)》 2022年第2期81-86,共6页
针对目前常用的入侵检测数据集存在的类别不平衡问题,从数据的采样层面出发,提出基于数据增强的入侵检测算法,并对数据进行了特征选择。在公开发布的真实数据集上展开的实验表明,针对不平衡的数据集,所提算法可以在一定程度上提升检测... 针对目前常用的入侵检测数据集存在的类别不平衡问题,从数据的采样层面出发,提出基于数据增强的入侵检测算法,并对数据进行了特征选择。在公开发布的真实数据集上展开的实验表明,针对不平衡的数据集,所提算法可以在一定程度上提升检测的准确率。 展开更多
关键词 不平衡数据集 入侵检测 数据增强 KDD99
在线阅读 下载PDF
针对不平衡数据集的维数约简方法
14
作者 刘丽娜 于治楼 张化祥 《信息技术与信息化》 2011年第5期62-64,共3页
针对不平衡数据的分类问题,本文提出了一种新的方法,将特征选择应用在不平衡数据集中,首先对数据集进行预处理,然后从特征选择的角度出发,选择具有较强能力代表数据集的特征,简化数据的同时也提高了分类性能。通过实验表明,该方法能够... 针对不平衡数据的分类问题,本文提出了一种新的方法,将特征选择应用在不平衡数据集中,首先对数据集进行预处理,然后从特征选择的角度出发,选择具有较强能力代表数据集的特征,简化数据的同时也提高了分类性能。通过实验表明,该方法能够有效地提高分类精度。 展开更多
关键词 不平衡数据集 特征选择 聚类
在线阅读 下载PDF
一种处理非平衡数据集的优化随机森林分类方法 被引量:10
15
作者 马海荣 程新文 《微电子学与计算机》 CSCD 北大核心 2018年第11期28-32,共5页
利用传统随机森林(random forest,RF)模型进行分类时存在分类精度受不平衡样本集的影响,以及投票平局现象会导致算法停滞等问题.本文对RF模型进行了优化改进,首先随机抽取等量的少数类与多数类样本构建训练样本集进行RF建模,然后根据投... 利用传统随机森林(random forest,RF)模型进行分类时存在分类精度受不平衡样本集的影响,以及投票平局现象会导致算法停滞等问题.本文对RF模型进行了优化改进,首先随机抽取等量的少数类与多数类样本构建训练样本集进行RF建模,然后根据投票熵与基于样本特征参数的广义欧几里得距离逐步添加具有最大投票熵的样本到训练样本集,解决传统RF模型随机抽取样本时训练样本集中包含不同类别样本数不平衡问题.对于分类过程中可能出现投票结果的平局现象,利用测试样本与邻近训练样本的广义欧几里得距离决定其分类结果,以消除投票平局现象造成的停滞问题.实验结果表明,本文优化RF模型对于非平衡数据集的分类可以取得较好的分类结果. 展开更多
关键词 随机森林 最大投票熵 广义欧几里得距离 不平衡数据集
在线阅读 下载PDF
基于不平衡数据的多分类航班延误预测方法研究
16
作者 薛龙腾 《长江信息通信》 2024年第9期151-154,共4页
航班延误会给旅客和航空公司带来诸多不便和损失,影响到整个出行体验和航空运营效率,为为了增强航班延误预测的可靠性,构建一种基于极端随机树的航班延误预测模型。首先,该模型结合美国航班数据和对应机场气象数据,通过递归特征消除和... 航班延误会给旅客和航空公司带来诸多不便和损失,影响到整个出行体验和航空运营效率,为为了增强航班延误预测的可靠性,构建一种基于极端随机树的航班延误预测模型。首先,该模型结合美国航班数据和对应机场气象数据,通过递归特征消除和交叉验证算法进行特征选择,以识别出最相关的特征。其次,使用SMOTETomek算法对数据集进行平衡,以解决样本不平衡的问题。最后,使用极端随机树进行建模。将本文中的模型,与其它先进机器学习模型进行对比。结果表明,所提模型在各种预测指标中获得了更准确的预测结果。预测精度提升到了97%以上。 展开更多
关键词 航班延误 不平衡数据集 多分类 特征选择 机器学习
在线阅读 下载PDF
基于改进SMOTE的不平衡数据挖掘方法研究 被引量:31
17
作者 杨智明 乔立岩 彭喜元 《电子学报》 EI CAS CSCD 北大核心 2007年第B12期22-26,共5页
少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题,但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调... 少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题,但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调整SMOTE方法中近邻选择策略,控制合成样本的质量.算法分析和仿真结果表明,文中提出的方法在不影响计算复杂度的前提下,有效地提高了分类算法的整体分类准确率。 展开更多
关键词 不平衡数据集 少类样本合成过采样技术 自适应SMOTE 合成样本 近邻选择策略
在线阅读 下载PDF
基于邻近样本类别判断的不平衡数据分类算法 被引量:2
18
作者 胡艳 《科技通报》 北大核心 2013年第10期58-60,共3页
数据类间分布不均衡是不平衡数据集分类效果不好的主要原因,为了克服类间分布的不均衡,本文提出了一种基于邻近样本类别判断的不平衡数据分类算法。首先,对待判定样本,计算它的k个最邻近样本,然后将待判定样本的类别指派到它的k个最邻... 数据类间分布不均衡是不平衡数据集分类效果不好的主要原因,为了克服类间分布的不均衡,本文提出了一种基于邻近样本类别判断的不平衡数据分类算法。首先,对待判定样本,计算它的k个最邻近样本,然后将待判定样本的类别指派到它的k个最邻近中的多数类。由于本文所提出的不平衡数据分类算法在类别决策时,只考虑少量的邻近样本的类别,而不是考虑所有的训练样本,因此可以较好地克服类间不平衡对少数类分类结果的影响。在客户流失数据集上的仿真实验充分证明了本文算法能较好地处理不平衡数据分类问题。 展开更多
关键词 不平衡数据集 邻近样本 数据分类 少数类
在线阅读 下载PDF
一种基于聚类的不平衡数据分类算法 被引量:1
19
作者 陈兴稣 王雪峰 《信息技术》 2013年第8期57-60,共4页
针对不平衡数据分类问题,在数据层面对不平衡数据集进行预处理,即对多数类数据进行先聚类,后欠采样的方式,减少多数类数据的数目,降低数据集的不平衡度,之后再用KNN算法对其进行分类。实验结果表明,对数据层面的预处理,使少数类数据的... 针对不平衡数据分类问题,在数据层面对不平衡数据集进行预处理,即对多数类数据进行先聚类,后欠采样的方式,减少多数类数据的数目,降低数据集的不平衡度,之后再用KNN算法对其进行分类。实验结果表明,对数据层面的预处理,使少数类数据的分类效果得到了提升。 展开更多
关键词 分类 不平衡数据集 KNN算法
在线阅读 下载PDF
基于PCA-SMOTE-随机森林的地质不平衡数据分类方法——以东天山地球化学数据为例 被引量:7
20
作者 桂州 陈建国 王成彬 《桂林理工大学学报》 CAS 北大核心 2017年第4期587-593,共7页
基于PCA改进SMOTE算法,能实现不平衡数据集的均衡化,并以随机森林作为分类器,应用于地质数据进行分类与预测。因原始数据集中的噪声数据可能会引起插值后的数据分布形态的改变,故提出结合PCA算法与SMOTE算法,先进行除噪降维再进行数据插... 基于PCA改进SMOTE算法,能实现不平衡数据集的均衡化,并以随机森林作为分类器,应用于地质数据进行分类与预测。因原始数据集中的噪声数据可能会引起插值后的数据分布形态的改变,故提出结合PCA算法与SMOTE算法,先进行除噪降维再进行数据插值,改善不平衡数据集的分类性能,并对东天山化探样本数据进行实验,结果表明,新算法能较好地提高分类精度,为地质不平衡数据的分类与预测提供新的思路。 展开更多
关键词 主成分分析 SMOTE 随机森林 不平衡数据集 地球化学数据 除噪
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部