期刊文献+
共找到57篇文章
< 1 2 3 >
每页显示 20 50 100
不平衡数据集的自然邻域超球面过采样方法
1
作者 周玉 岳学震 +1 位作者 刘星 王培崇 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第12期81-95,共15页
为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻... 为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻居直至形成稳定的自然邻域;接着,根据每个样本点自然邻居的标签特点,将所有样本点划分为异常点、噪声点、多数类安全点、少数类安全点和少数类边界点5个区域;然后,对每个少数类边界点构建超球面,合并完全处于大超球面中的小超球面,形成一个超球面集合;最后,根据超球面半径大小自适应地为每个超球面分配采样比例,在超球面内生成指定个数的新样本点得到平衡数据集。结果表明,利用该方法在人工数据集和真实数据集上进行过采样形成新的样本集,以CART,SVM和KNN 3个分类器进行实验,并与其他8种常用方法进行对比分析。同时,以AUC值、F_(1)和G_(m)作为评价指标,进一步证明了该方法可以更好的对不平衡数据集进行分类。 展开更多
关键词 平衡数据集 过采样 自然邻居 超球面 分类
在线阅读 下载PDF
基于改进级联算法的不平衡数据集分类检测算法
2
作者 吕文官 薛峰 《保定学院学报》 2024年第2期98-103,共6页
以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部... 以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部密度特征,利用时间编码挖掘数据的时序性特征,采用Apriori算法的强关联规则提取数据集特征;利用模糊层次聚类算法对支持向量机进行优化,实现数据类型的划分;利用改进的级联算法联合布谷鸟算法实现不平衡数据集分类检测.实验结果表明本方法的分类协方差低于0.15,检测准确率高于95%,检测时间低于2.2 ms,有效提升了不平衡数据集分类检测效果. 展开更多
关键词 卡尔曼滤波 改进级联算法 平衡数据集 分类检测
在线阅读 下载PDF
一种基于核SMOTE的非平衡数据集分类方法 被引量:49
3
作者 曾志强 吴群 +1 位作者 廖备水 高济 《电子学报》 EI CAS CSCD 北大核心 2009年第11期2489-2495,共7页
本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空... 本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练.实验表明,核SMOTE方法所合成的样本质量高于SMOTE算法,从而有效提高SVM在非平衡数据集上的分类效果. 展开更多
关键词 平衡数据集 支持向量机 输入空间 特征空间 原像
在线阅读 下载PDF
非平衡数据集Fisher线性判别模型 被引量:15
4
作者 谢纪刚 裘正定 《北京交通大学学报》 EI CAS CSCD 北大核心 2006年第5期15-18,共4页
非平衡数据是指两类问题中正类样本与负类样本个数不相等,甚至相比悬殊.非平衡数据集会导致许多分类器的性能下降,这与分类器的构造原理有关.本文首先阐述了Fisher线性判别的分类机制,指出当两类样本的协方差矩阵不同时,样本不平衡会导... 非平衡数据是指两类问题中正类样本与负类样本个数不相等,甚至相比悬殊.非平衡数据集会导致许多分类器的性能下降,这与分类器的构造原理有关.本文首先阐述了Fisher线性判别的分类机制,指出当两类样本的协方差矩阵不同时,样本不平衡会导致Fisher线性判别的性能下降.在此基础上,提出了一种加权Fisher线性判别(WFLD),以减小样本不平衡的影响.然后,从UCI中选择了8个非平衡数据集,并采用ROC曲线下面积作为评估指标进行比较,实验结果证明了WFLD模型的有效性. 展开更多
关键词 平衡数据集 FISHER线性判别 ROC曲线下面积(AUC)
在线阅读 下载PDF
基于对不平衡数据集进行二次迁移学习的滚动轴承剥落类故障诊断方法 被引量:4
5
作者 郭俊锋 王淼生 王智明 《上海交通大学学报》 EI CAS CSCD 北大核心 2023年第11期1512-1521,共10页
滚动轴承在运行过程中正常工作状态时间长,故障时间很短,导致数据集不平衡,从而极大地影响深度学习模型故障诊断的准确率.针对该问题,提出一种基于二次迁移学习的滚动轴承不平衡数据集故障诊断方法.首先使用源域和目标域中的少量数据通... 滚动轴承在运行过程中正常工作状态时间长,故障时间很短,导致数据集不平衡,从而极大地影响深度学习模型故障诊断的准确率.针对该问题,提出一种基于二次迁移学习的滚动轴承不平衡数据集故障诊断方法.首先使用源域和目标域中的少量数据通过条件梯度惩罚生成对抗网络(CWGAN-GP)生成过渡数据集,然后将搭建好的卷积神经网络模型在源域数据集、过渡数据集和目标域数据集之间进行两次迁移,最后使用目标域的少量数据对迁移后的模型进行微调,得到最终的故障诊断模型.实验结果表明,该方法对不同工况下数据集不平衡的滚动轴承剥落类故障有较好的诊断识别效果. 展开更多
关键词 迁移学习 故障诊断 平衡数据集 生成对抗网络
在线阅读 下载PDF
面向不平衡数据集的煤矿监测系统异常数据识别方法 被引量:22
6
作者 冀汶莉 郗刘涛 王斌 《工矿自动化》 北大核心 2020年第1期18-25,共8页
异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数... 异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数据,以煤矿分布式光纤竖井变形监测系统采集的数据为研究对象,提出了一种面向不平衡数据集、基于去重复下采样(RDU)、合成少数类过采样技术(SMOTE)和随机森林(RF)分类算法的煤矿监测系统异常数据识别方法。该方法利用RDU算法对多数类数据进行下采样,去除重复样本;利用SMOTE算法对少数类异常数据进行过采样,通过合成新的异常数据来改善数据集的不平衡性;并利用优化后的数据集训练RF分类算法,得到异常数据识别模型。在6个真实数据集上的对比实验结果表明,该方法的异常数据识别准确率平均值达到99.3%,具有较好的泛化性和较强的鲁棒性。 展开更多
关键词 煤矿安全监测 异常数据识别 平衡数据集 机器学习 数据 下采样 过采样 随机森林
在线阅读 下载PDF
一种适应于不平衡数据集的改进TANC算法 被引量:1
7
作者 赵小强 杨佳敏 《兰州理工大学学报》 CAS 北大核心 2014年第5期86-89,共4页
传统的分类方法对不平衡数据集进行分类时对数据集中少数类的分类准确率不高,而少数类往往对结果的影响尤为重要.为此提出一种适应于不平衡数据集的改进树扩展型朴素贝叶斯(TANC)算法,该算法首先利用Relief算法对样本中的少数类进行权... 传统的分类方法对不平衡数据集进行分类时对数据集中少数类的分类准确率不高,而少数类往往对结果的影响尤为重要.为此提出一种适应于不平衡数据集的改进树扩展型朴素贝叶斯(TANC)算法,该算法首先利用Relief算法对样本中的少数类进行权重分配,然后通过训练数据集,使缺失数据补齐,并通过将属性分割成多个有限区间,使连续数据离散化,将修改后的训练集用以训练TANC,最后通过TANC算法对数据集进行分类.基于UCI标准数据集上的实验结果表明,该算法的整体性能优于TANC算法. 展开更多
关键词 机器学习 平衡数据集 TANC算法 RELIEF算法
在线阅读 下载PDF
一种提高非平衡数据集PSVM分类精度的方法 被引量:1
8
作者 曾凡仔 裘正定 《铁道学报》 EI CAS CSCD 北大核心 2004年第2期124-127,共4页
邻近支撑向量机(PSVM)是一种比较快捷分类器,然而当它用于非平衡样本集时,PSVM过拟合样本点数较多的一类,而低估样本点数较少的错分误差,因此导致了PSVM比较低的整体分类性能。为此,提出了一种改进算法,算法通过在求解分类平面时,只考... 邻近支撑向量机(PSVM)是一种比较快捷分类器,然而当它用于非平衡样本集时,PSVM过拟合样本点数较多的一类,而低估样本点数较少的错分误差,因此导致了PSVM比较低的整体分类性能。为此,提出了一种改进算法,算法通过在求解分类平面时,只考虑错分样本造成误差,同时根据两类的错分样本数自适应的惩罚或奖励错分误差来消除两类样本点数差对整体分类性能的影响。实验结果验证了本文提出的改进算法的有效性。 展开更多
关键词 邻近支撑向量机 拟牛顿算法 平衡数据集分类 错分样本
在线阅读 下载PDF
不平衡数据集的混合采样方法 被引量:4
9
作者 尚旭 《数字技术与应用》 2016年第12期68-71,共4页
不平衡数据集中,由于某类别数量的不平衡,使得类别数量少的容易被误分,导致其分类准确率不高。处理不平衡数据集的方法,可以分为算法方面和数据方面,在数据方面中,主要分为两种方法:过采样和欠采样,但是对于将这两种方法结合的研究不是... 不平衡数据集中,由于某类别数量的不平衡,使得类别数量少的容易被误分,导致其分类准确率不高。处理不平衡数据集的方法,可以分为算法方面和数据方面,在数据方面中,主要分为两种方法:过采样和欠采样,但是对于将这两种方法结合的研究不是很多,过采样和欠采样都具有一定的优势,因此设想将这两种方法结合起来,希望可以找到更好的方法。提出两种混合采样方法:Random-SMOTE+ENN和Random-SMOTE+TNS,并与几种典型的抽样方法在数据集上进行实验对比,实验结果表明提出的两种方法是可行有效的。 展开更多
关键词 平衡数据集 过采样 欠采样
在线阅读 下载PDF
不平衡数据集下基于自适应加权Bagging-GBDT算法的磁盘故障预测模型 被引量:8
10
作者 李新鹏 高欣 +6 位作者 何杨 阎博 孙汉旭 李军良 徐建航 刘震宇 庞博 《微电子学与计算机》 北大核心 2020年第3期14-19,共6页
针对磁盘数据集中正负样本数目严重不平衡导致基于机器学习的分类算法易出现故障预测准确率低的问题,本文提出一种基于自适应加权Bagging-GBDT算法的磁盘故障预测模型.首先,提出基于聚类的分层欠采样方法对健康磁盘样本进行多次抽样,解... 针对磁盘数据集中正负样本数目严重不平衡导致基于机器学习的分类算法易出现故障预测准确率低的问题,本文提出一种基于自适应加权Bagging-GBDT算法的磁盘故障预测模型.首先,提出基于聚类的分层欠采样方法对健康磁盘样本进行多次抽样,解决随机欠采样方法易丢弃潜在有用样本的问题;其次,将每次采样后样本与全部故障磁盘样本组合得到多个样本子集,通过训练这些子集建立多个预测精度较高的GBDT子分类模型;最后,根据待测点邻域样本类别自适应确定各子模型权重,据此通过加权硬投票集成最终的磁盘故障预测模型.在8组KEEL不平衡数据集上实验结果表明,与现有典型不平衡学习算法相比,少数类的召回率平均提升了9.46%;同时在磁盘公开数据集和某调度系统磁盘数据上对比验证了该方法在故障预测率上的先进性. 展开更多
关键词 磁盘故障预测 平衡数据集 分层欠采样 Bagging-GBDT 自适应加权
在线阅读 下载PDF
面向不平衡数据集的一种改进的k-近邻分类器 被引量:15
11
作者 刘鹏 杜佳芝 +1 位作者 吕伟刚 窦明武 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第7期932-936,共5页
心脏心律失常数据集的心电图(ECG)数据往往存在各心律失常类型下样本数量不平衡问题.针对此问题,提出了一种新的模式识别分类方法,即改进的基于核的差重建的加权k-近邻分类器(modified kernel difference-weighted k-nearest neighbor c... 心脏心律失常数据集的心电图(ECG)数据往往存在各心律失常类型下样本数量不平衡问题.针对此问题,提出了一种新的模式识别分类方法,即改进的基于核的差重建的加权k-近邻分类器(modified kernel difference-weighted k-nearest neighbor classifier, MKDF-WKNN),通过引入修正因子对含样本数较多的类别进行权值抑制,对含样本数较少的类别进行权值的加大,并使用UCI心脏心律失常数据集对ECG数据进行分类.实验结果表明,提出的算法和其他一些基于KNN的算法如KNN,DS-WKNN,DF-WKNN和KDF-WKNN相比,对于不平衡的心律失常数据集的分类有更好的效果. 展开更多
关键词 心律失常 心电图 模式分类 K-近邻算法 平衡数据集
在线阅读 下载PDF
一种处理非平衡数据集的优化随机森林分类方法 被引量:10
12
作者 马海荣 程新文 《微电子学与计算机》 CSCD 北大核心 2018年第11期28-32,共5页
利用传统随机森林(random forest,RF)模型进行分类时存在分类精度受不平衡样本集的影响,以及投票平局现象会导致算法停滞等问题.本文对RF模型进行了优化改进,首先随机抽取等量的少数类与多数类样本构建训练样本集进行RF建模,然后根据投... 利用传统随机森林(random forest,RF)模型进行分类时存在分类精度受不平衡样本集的影响,以及投票平局现象会导致算法停滞等问题.本文对RF模型进行了优化改进,首先随机抽取等量的少数类与多数类样本构建训练样本集进行RF建模,然后根据投票熵与基于样本特征参数的广义欧几里得距离逐步添加具有最大投票熵的样本到训练样本集,解决传统RF模型随机抽取样本时训练样本集中包含不同类别样本数不平衡问题.对于分类过程中可能出现投票结果的平局现象,利用测试样本与邻近训练样本的广义欧几里得距离决定其分类结果,以消除投票平局现象造成的停滞问题.实验结果表明,本文优化RF模型对于非平衡数据集的分类可以取得较好的分类结果. 展开更多
关键词 随机森林 最大投票熵 广义欧几里得距离 平衡数据集
在线阅读 下载PDF
面向不平衡数据集的网络入侵检测算法 被引量:2
13
作者 徐忠原 杨秀华 +1 位作者 王业 李玲 《吉林大学学报(信息科学版)》 CAS 2023年第6期1112-1119,共8页
针对入侵检测数据集存在类别不平衡问题,提出了系统化数据预处理与混合采样相结合的网络入侵检测算法。根据入侵检测数据集的特征分布,对特征值进行系统化处理。首先对Proto、Service和State 3个类别特征,合并每类特征中样本数较少的取... 针对入侵检测数据集存在类别不平衡问题,提出了系统化数据预处理与混合采样相结合的网络入侵检测算法。根据入侵检测数据集的特征分布,对特征值进行系统化处理。首先对Proto、Service和State 3个类别特征,合并每类特征中样本数较少的取值,以降低独热编码的维度;然后依据数值分布将其中18个极端分布的数值特征进行对数处理后再执行Z-score标准化。设计了Nearmiss-1欠采样与SMOTE(Synthetic Minority Over-sampling Technique)过采样相结合的类别不平衡处理技术,将训练集中每类样本按照Proto、Service和State类别特征分成子类,对每个子类进行等比例欠采样或过采样。建立了入侵检测模型PSSNS-RF(Nearmiss and SMOTE based on Proto,Service,State-Random Forest),在UNSW-NB15数据集上的多分类检出率达到97.02%,解决了数据不平衡问题,显著提高了少数类的检出率。 展开更多
关键词 网络入侵检测 平衡数据集 特征选择 网络安全
在线阅读 下载PDF
不平衡数据集的CT结肠镜息肉检测方法
14
作者 熊馨 徐礼胜 +1 位作者 王春武 康雁 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2013年第11期112-117,共6页
目前CT结肠镜的息肉检测分类器面临着数据集不平衡问题,数据集中的正样本(息肉)的数量远远小于负样本.针对这个问题,息肉检测分类器采用SMOTEBoost,结合SMOTE(Synthetic Minority Over-Sampling Technique)和Boosting:在数据层面,采用... 目前CT结肠镜的息肉检测分类器面临着数据集不平衡问题,数据集中的正样本(息肉)的数量远远小于负样本.针对这个问题,息肉检测分类器采用SMOTEBoost,结合SMOTE(Synthetic Minority Over-Sampling Technique)和Boosting:在数据层面,采用过采样技术SMOTE合成少数类样本,减轻数据集中两类样本的不平衡程度;在算法层面,采用Boosting方法提高弱分类器的性能,两者结合起来,既改善对少数类样本的预测能力,又保证了对整个数据集的分类精度.为了满足息肉检测对算法实时性的需求,采用MRMR(Minimum Redundancy Maximum Relevance)方法挑选最大相关、最小冗余的简单特征组成级联第1层强分类器,拒绝大多数负样本,极大地提高了分类器的处理速度.实验结果表明:设计的分类器检测直径大于5 mm息肉的敏感度达到90%,每个数据体6个假阳. 展开更多
关键词 平衡数据集 CT结肠镜 结肠息肉检测 重采样 BOOSTING CASCADE ADABOOST
在线阅读 下载PDF
面向不平衡数据集的改进SMOTE算法 被引量:10
15
作者 董永峰 董彦琦 张亚娟 《河北工业大学学报》 CAS 2022年第6期40-46,共7页
合成少数类过采样技术(SMOTE)提升了分类器在不平衡数据集上的分类性能,但该算法在合成新样本时存在盲目性和边缘化的问题。为此,提出了一种改进算法BSMOTE,该算法对少数类样本进行聚类,在聚类产生的各个簇中任取三个样本构造三角形,在... 合成少数类过采样技术(SMOTE)提升了分类器在不平衡数据集上的分类性能,但该算法在合成新样本时存在盲目性和边缘化的问题。为此,提出了一种改进算法BSMOTE,该算法对少数类样本进行聚类,在聚类产生的各个簇中任取三个样本构造三角形,在三角形的重心与顶点之间合成新样本,从而使新样本向重心靠拢并远离决策边界。在7个不平衡数据集上,采用6种不同的过采样算法平衡数据集,再利用随机森林进行分类,实验结果表明,基于BSMOTE算法的随机森林分类性能更佳,验证了该算法在解决不平衡数据分类问题中的优势。 展开更多
关键词 平衡数据集 SMOTE算法 聚类 过采样 随机森林
在线阅读 下载PDF
同分布强化学习优化多决策树及其在非平衡数据集中的应用 被引量:2
16
作者 焦江丽 张雪英 +1 位作者 李凤莲 牛壮 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第5期1112-1118,共7页
针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单... 针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单决策树形成多个决策树,各决策树采用分类回归树算法建树,并利用强化学习累积回报机制进行属性选择策略的优化。研究结果表明:提出的基于强化学习累积回报机制的属性优化策略可有效提高少数类被正确分类的概率;同分布多决策树方法可有效提高非平衡数据集整体预测性能,且正类率和负类率的几何平均值都有所提高。 展开更多
关键词 平衡数据集 多决策树 累积回报机制属性选择策略 同分布随机抽样 强化学习
在线阅读 下载PDF
基于车用柴油机不平衡数据集的故障识别组合模型
17
作者 李秀峰 王宁 +1 位作者 刘璇琦 段艳 《汽车工程学报》 2022年第5期646-653,共8页
基于车用柴油机的不平衡数据集,根据对应故障发生频次高与低,将模型建立对象分为样本丰富的大数据量故障与样本集不完备的小数据量故障两种。面向前者,基于XGBoost(Extreme Gradient Boosting)分类算法构建故障识别模型,面向后者,基于... 基于车用柴油机的不平衡数据集,根据对应故障发生频次高与低,将模型建立对象分为样本丰富的大数据量故障与样本集不完备的小数据量故障两种。面向前者,基于XGBoost(Extreme Gradient Boosting)分类算法构建故障识别模型,面向后者,基于模糊神经网络构建故障识别模型,然后针对两类模型进行参数调节以获得最优效果,并分别建立评估机制。模型评估结果表明,该故障识别组合模型能够较为精确、全面地识别大多数故障种类,是一种对数据量要求不高且总识别率超过80%的多适应性识别模型算法,可作为汽车维保工作中的重要工具使用。 展开更多
关键词 发动机故障识别 平衡数据集 XGBoost 模糊神经网络
在线阅读 下载PDF
面向不平衡数据集的入侵检测算法 被引量:2
18
作者 高莹莹 孙璇 《北京信息科技大学学报(自然科学版)》 2022年第2期81-86,共6页
针对目前常用的入侵检测数据集存在的类别不平衡问题,从数据的采样层面出发,提出基于数据增强的入侵检测算法,并对数据进行了特征选择。在公开发布的真实数据集上展开的实验表明,针对不平衡的数据集,所提算法可以在一定程度上提升检测... 针对目前常用的入侵检测数据集存在的类别不平衡问题,从数据的采样层面出发,提出基于数据增强的入侵检测算法,并对数据进行了特征选择。在公开发布的真实数据集上展开的实验表明,针对不平衡的数据集,所提算法可以在一定程度上提升检测的准确率。 展开更多
关键词 平衡数据集 入侵检测 数据增强 KDD99
在线阅读 下载PDF
针对不平衡数据集的维数约简方法
19
作者 刘丽娜 于治楼 张化祥 《信息技术与信息化》 2011年第5期62-64,共3页
针对不平衡数据的分类问题,本文提出了一种新的方法,将特征选择应用在不平衡数据集中,首先对数据集进行预处理,然后从特征选择的角度出发,选择具有较强能力代表数据集的特征,简化数据的同时也提高了分类性能。通过实验表明,该方法能够... 针对不平衡数据的分类问题,本文提出了一种新的方法,将特征选择应用在不平衡数据集中,首先对数据集进行预处理,然后从特征选择的角度出发,选择具有较强能力代表数据集的特征,简化数据的同时也提高了分类性能。通过实验表明,该方法能够有效地提高分类精度。 展开更多
关键词 平衡数据集 特征选择 聚类
在线阅读 下载PDF
基于优化SMOTE算法的非平衡大数据集分类研究 被引量:6
20
作者 唐思均 《沈阳工程学院学报(自然科学版)》 2021年第3期71-76,共6页
在处理非平衡大数据集中,提出一种基于优化SMOTE方案的分类算法研究,在临近样本插值分类中引入分簇聚类的理念,具体分为安全样本、危险样本和干扰样本,并重点对安全样本做插值处理。对插值后的数据样本做区间化处理,能够改善插值后数据... 在处理非平衡大数据集中,提出一种基于优化SMOTE方案的分类算法研究,在临近样本插值分类中引入分簇聚类的理念,具体分为安全样本、危险样本和干扰样本,并重点对安全样本做插值处理。对插值后的数据样本做区间化处理,能够改善插值后数据过于集中的状况,提高样本分布的均匀度。算法性能验证结果表明,分类算法的规模成长性更好,具有更强的数据集扩展能力,在多数据集性能分类对比实验中,提出的改进算法的MATLAB仿真性能具有明显优势。 展开更多
关键词 优化SMOTE 平衡数据 插值 分簇聚类
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部