期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
基于代价敏感激活函数XGBoost的不平衡数据分类方法 被引量:13
1
作者 李京泰 王晓丹 《计算机科学》 CSCD 北大核心 2022年第5期135-143,共9页
为解决在数据不平衡条件下使用XGBoost框架处理二分类问题时算法对少数类样本的识别能力下降的问题,提出了基于代价敏感激活函数的XGBoost算法(Cost-sensitive Activation Function XGBoost,CSAF-XGBoost)。在XGBoost框架构建决策树时,... 为解决在数据不平衡条件下使用XGBoost框架处理二分类问题时算法对少数类样本的识别能力下降的问题,提出了基于代价敏感激活函数的XGBoost算法(Cost-sensitive Activation Function XGBoost,CSAF-XGBoost)。在XGBoost框架构建决策树时,数据不平衡会影响分裂点的选择,导致少数类样本被误分。通过引入代价敏感激活函数改变样本在不同预测结果下损失函数的梯度变化,来解决被误分的少数类样本因梯度变化小而无法在XGBoost迭代过程中被有效分类的问题。通过实验分析了激活函数的参数与数据不平衡度的关系,并对CSAF-XGBoost算法与SMOTE-XGBoost,ADASYN-XGBoost,Focal loss-XGBoost,Weight-XGBoost优化算法在UCI公共数据集上的分类性能进行了对比。结果表明,在F1值和AUC值相同或有提高的情况下,CSAF-XGBoost算法对少数类样本的检出率比最优算法平均提高了6.75%,最多提高了15%,证明了CSAF-XGBoost算法对少数类样本有更高的识别能力,且具有广泛的适用性。 展开更多
关键词 代价敏感 LOGISTIC回归 数据不平衡分类 XGBoost 激活函数
在线阅读 下载PDF
基于代价敏感的朴素贝叶斯不平衡数据分类研究 被引量:21
2
作者 蒋盛益 谢照青 余雯 《计算机研究与发展》 EI CSCD 北大核心 2011年第S1期387-390,共4页
传统数据挖掘分类算法在不平衡数据集上分类效果不佳,可以将代价敏感思想与传统分类算法相结合解决不平衡数据分类问题.但在代价敏感学习中,代价的确定需要足够的先验知识,难以把握.针对上述不足,构造针对不平衡数据分布的自适应代价函... 传统数据挖掘分类算法在不平衡数据集上分类效果不佳,可以将代价敏感思想与传统分类算法相结合解决不平衡数据分类问题.但在代价敏感学习中,代价的确定需要足够的先验知识,难以把握.针对上述不足,构造针对不平衡数据分布的自适应代价函数,引进全局代价矩阵,对传统的朴素贝叶斯分类算法进行改进.在UCI数据集上的实验结果表明,提出的基于代价敏感的朴素贝叶斯分类算法对于不平衡数据分类是有效可行的. 展开更多
关键词 代价敏感 朴素贝叶斯 不平衡数据分类
在线阅读 下载PDF
Spark环境下基于综合权重的不平衡数据集成分类方法 被引量:8
3
作者 丁家满 王思晨 +2 位作者 贾连印 游进国 姜瑛 《小型微型计算机系统》 CSCD 北大核心 2019年第2期255-259,共5页
不平衡数据分类经常面临样本严重不平衡、少数类样本分类精度低的问题,随着数据规模增大,分类效率也成为了瓶颈问题.针对以上问题,本文结合spark高效的数据处理能力,提出了一种Spark环境下基于综合权重的不平衡数据集成分类方法.该方法... 不平衡数据分类经常面临样本严重不平衡、少数类样本分类精度低的问题,随着数据规模增大,分类效率也成为了瓶颈问题.针对以上问题,本文结合spark高效的数据处理能力,提出了一种Spark环境下基于综合权重的不平衡数据集成分类方法.该方法首先依照多数类样本中每类样本的权重以及少数类样本量获得的综合权重进行采样,并与少数类样本组成平衡规模的训练数据集;其次,采用基于相关性的特征选择方法选择最优的特征子集,并对随机森林算法进行改进优化以及利用其获得子分类器.最后在Spark环境下,以UCI数据集进行实验验证.实验结果表明本文方法不仅提高了整体分类精度,而且提升了分类效率. 展开更多
关键词 不平衡数据分类 样本采集 综合权重 随机森林 SPARK
在线阅读 下载PDF
基于Boosting的不平衡数据分类算法研究 被引量:17
4
作者 李秋洁 茅耀斌 王执铨 《计算机科学》 CSCD 北大核心 2011年第12期224-228,共5页
研究基于boosting的不平衡数据分类算法,归纳分析现有算法,在此基础上提出权重采样boosting算法。对样本进行权重采样,改变原有数据分布,从而得到适用于不平衡数据的分类器。算法本质是利用采样函数调整原始boosting损失函数形式,进一... 研究基于boosting的不平衡数据分类算法,归纳分析现有算法,在此基础上提出权重采样boosting算法。对样本进行权重采样,改变原有数据分布,从而得到适用于不平衡数据的分类器。算法本质是利用采样函数调整原始boosting损失函数形式,进一步强调正样本的分类损失,使得分类器侧重对正样本的有效判别,提高正样本的整体识别率。算法实现简单,实用性强,在UCI数据集上的实验结果表明,对于不平衡数据分类问题,权重采样boosting优于原始boosting及前人算法。 展开更多
关键词 不平衡数据分类 BOOSTING 采样
在线阅读 下载PDF
Bagging组合的不平衡数据分类方法 被引量:13
5
作者 秦姣龙 王蔚 《计算机工程》 CAS CSCD 北大核心 2011年第14期178-179,182,共3页
提出一种基于Bagging组合的不平衡数据分类方法CombineBagging,采用少数类过抽样算法SMOTE进行数据预处理,在此基础上利用C-SVM、径向基函数神经网络、Random Forests 3种不同的基分类器学习算法,分别对采样后的数据样本进行Bagging集... 提出一种基于Bagging组合的不平衡数据分类方法CombineBagging,采用少数类过抽样算法SMOTE进行数据预处理,在此基础上利用C-SVM、径向基函数神经网络、Random Forests 3种不同的基分类器学习算法,分别对采样后的数据样本进行Bagging集成学习,通过投票规则集成学习结果。实验结果表明,该方法能够提高少数类的分类准确率,有效处理不平衡数据分类问题。 展开更多
关键词 Bagging组合 不平衡数据分类 支持向量机 神经网络 RANDOM Forests算法
在线阅读 下载PDF
用于不平衡数据分类的代价敏感超网络算法 被引量:7
6
作者 郑燕 王杨 +1 位作者 郝青峰 甘振韬 《计算机应用》 CSCD 北大核心 2014年第5期1336-1340,1377,共6页
传统的超网络模型在处理不平衡数据分类问题时,具有很大的偏向性,正类的识别率远远高于负类。为此,提出了一种代价敏感超网络Boosting集成算法。首先,将代价敏感学习引入超网络模型,提出了代价敏感的超网络模型;同时,为了使算法能够自... 传统的超网络模型在处理不平衡数据分类问题时,具有很大的偏向性,正类的识别率远远高于负类。为此,提出了一种代价敏感超网络Boosting集成算法。首先,将代价敏感学习引入超网络模型,提出了代价敏感的超网络模型;同时,为了使算法能够自适应正类的错分代价,采用Boosting算法对代价敏感超网络进行集成。代价敏感超网络能很好地修正传统的超网络在处理不平衡数据分类问题时过分偏向正类的缺陷,提高对负类的分类准确性。实验结果表明,代价敏感超网络Boosting集成算法具有处理不平衡数据分类问题的优势。 展开更多
关键词 不平衡数据分类 超网络 代价敏感学习 自适应学习
在线阅读 下载PDF
基于DPC聚类重采样结合ELM的不平衡数据分类算法 被引量:15
7
作者 董宏成 文志云 +1 位作者 万玉辉 晏飞扬 《计算机工程与科学》 CSCD 北大核心 2021年第10期1856-1863,共8页
采样技术与ELM分类算法进行结合可提高少数类样本的分类精度,但现有的大多数结合ELM的采样方法并未考虑到样本的不平衡程度及样本内部的分布情况,采样技术过于单一,导致分类模型的效率低下,少数类样本的识别率不高。针对此问题,提出了... 采样技术与ELM分类算法进行结合可提高少数类样本的分类精度,但现有的大多数结合ELM的采样方法并未考虑到样本的不平衡程度及样本内部的分布情况,采样技术过于单一,导致分类模型的效率低下,少数类样本的识别率不高。针对此问题,提出了一种基于DPC聚类的重采样技术结合ELM的不平衡数据分类算法,首先根据数据集的不平衡程度分2种情况构建一个混合采样模型来平衡数据集;然后在此模型上运用DPC聚类算法分别对多数类样本和少数类样本进行分析处理,解决数据中存在的类内不平衡和噪声问题,使得2类样本相对均衡;最后使用ELM分类算法对得到的数据集进行分类。实验结果表明,与同类型分类算法进行比较,所提算法的2个分类性能指标在实验数据集上都有明显提升。 展开更多
关键词 极限学习机 不平衡数据分类 DPC聚类 重采样
在线阅读 下载PDF
一种基于投票的不平衡数据分类集成算法 被引量:3
8
作者 李勇 《科学技术与工程》 北大核心 2014年第21期275-279,共5页
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基... 不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。 展开更多
关键词 不平衡数据分类 朴素贝叶斯 决策树 投票表决
在线阅读 下载PDF
基于样本势和噪声进化的不平衡数据过采样方法 被引量:3
9
作者 冷强奎 孙薛梓 孟祥福 《计算机应用》 CSCD 北大核心 2024年第8期2466-2475,共10页
在处理不平衡数据分类问题中,过采样方法是一种有效的策略。现有方法大多采用K近邻(KNN)技术选取采样种子样本,但KNN参数值的改变会导致多数过采样方法表现出明显的不适定性。径向基过采样(RBO)方法能解决这个问题,但在采样后易出现大... 在处理不平衡数据分类问题中,过采样方法是一种有效的策略。现有方法大多采用K近邻(KNN)技术选取采样种子样本,但KNN参数值的改变会导致多数过采样方法表现出明显的不适定性。径向基过采样(RBO)方法能解决这个问题,但在采样后易出现大量噪声。基于此,提出一种基于样本势和噪声进化的不平衡数据过采样方法,进一步对采样后的数据集迭代进化。首先,使用RBO方法通过计算样本势合成少数类样本,并改善原始数据的不平衡;其次,使用自然近邻(NaN)作为错误检测技术检测过采样后数据集中存在的疑似噪声样本;最后,利用改进的差分进化(DE)方法对检测出的疑似噪声样本迭代进化。相较于传统过采样方法,所提方法能更充分挖掘数据集中的重要边界信息,从而为分类器提供更多辅助以改善其分类性能。在22个基准数据集上,与7种经典采样方法(结合3种不同分类器)进行了大量对比实验。实验结果表明,所提方法具有更高的F1值和G-mean值,并且在噪声处理方面也优于带有后置过滤器的采样方法,可以更有效地解决不平衡数据分类问题。此外,统计分析也表明它的弗里德曼排名更高。 展开更多
关键词 K近邻 径向基过采样 样本势 自然近邻 差分进化 不平衡数据分类
在线阅读 下载PDF
改进SMOTE的不平衡数据集成分类算法 被引量:33
10
作者 王忠震 黄勃 +2 位作者 方志军 高永彬 张娟 《计算机应用》 CSCD 北大核心 2019年第9期2591-2596,共6页
针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目... 针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目,对样本集中的噪声样本进行精确识别并予以滤除;其次,在过采样过程中基于聚类的思想将样本集划分为不同的子簇,根据子簇的簇心及其所包含的样本数目,在簇内样本与簇心之间进行新样本的合成操作。在样本合成过程中充分考虑类间和类内数据不平衡性,对样本及时修正以保证合成样本质量,平衡样本信息;最后,利用AdaBoost算法的优势,采用决策树作为基分类器,对平衡后的样本集进行训练,迭代多次直到满足终止条件,得到最终分类模型。选择G-mean、AUC作为评价指标,通过在6组KEEL数据集进行对比实验。实验结果表明,所提的过采样算法与经典的过采样算法SMOTE、自适应综合过采样技术(ADASYN)相比,G-means和AUC在4组中有3组最高;所提分类模型与现有的不平衡分类模型SMOTE-Boost,CUS-Boost,RUS-Boost相比,6组数据中:G-means均高于CUS-Boost和RUS-Boost,有3组低于SMOTE-Boost;AUC均高于SMOTE-Boost和RUS-Boost,有1组低于CUS-Boost。验证了所提的KSMOTE-AdaBoost具有更好的分类效果,且模型泛化性能更高。 展开更多
关键词 不平衡数据分类 合成少数类过采样技术 K近邻 过采样 聚类 ADABOOST算法
在线阅读 下载PDF
不平衡数据分类研究综述 被引量:51
11
作者 赵楠 张小芳 张利军 《计算机科学》 CSCD 北大核心 2018年第B06期22-27,57,共7页
在很多应用领域中,数据的类别分布不平衡,如何对其正确分类是数据挖掘和机器学习领域中的研究热点。经典的数据分类算法未考虑数据类别的不平衡性,认为类别之间的误分类代价相同,导致不平衡数据分类的效果不理想。针对数据分类的各个步... 在很多应用领域中,数据的类别分布不平衡,如何对其正确分类是数据挖掘和机器学习领域中的研究热点。经典的数据分类算法未考虑数据类别的不平衡性,认为类别之间的误分类代价相同,导致不平衡数据分类的效果不理想。针对数据分类的各个步骤,相继提出了不同的不平衡数据分类处理方法。对多年来的相关研究成果进行归类分析,从特征选择、数据分布调整、分类算法、分类结果评估等几个方面系统地介绍了相关方法,并探讨了进一步的探索方向。 展开更多
关键词 不平衡数据分类 不平衡数据的特征选择 不平衡分类评估 数据分布调整 不平衡数据分类算法
在线阅读 下载PDF
针对不平衡数据的PSO-DEC-IFSVM分类算法 被引量:2
12
作者 魏建安 黄海松 康佩栋 《数据采集与处理》 CSCD 北大核心 2019年第4期723-735,共13页
针对不平衡数据集下,传统的模糊支持向量机(Fussy support vector machine,FSVM)算法分类效果不够明显,引入的参数未做优化等缺点,本文提出一种基于粒子群算法(Particle swarmoptimization,PSO)优化的改进模糊支持向量机算法,即PSO-DEC-... 针对不平衡数据集下,传统的模糊支持向量机(Fussy support vector machine,FSVM)算法分类效果不够明显,引入的参数未做优化等缺点,本文提出一种基于粒子群算法(Particle swarmoptimization,PSO)优化的改进模糊支持向量机算法,即PSO-DEC-IFSVM算法。该算法首先综合考虑训练样本到其类中心的间距、样本周围的紧密度以及样本的信息量设计模糊隶属度函数,然后将此改进的模糊支持向量机与不同惩罚因子(Different error costs,DEC)算法相结合得到DEC-IFSVM算法,最后利用粒子群算法对DEC-IFSVM算法引入的参数进行优化。实验证明:对于UCI公共数据集中的Pima等6种不平衡数据集,相比已有的FSVM及其改进算法,PSO-DEC-IFSVM算法具有更好的正负类分类效果以及更强的鲁棒性。 展开更多
关键词 不平衡数据分类 改进模糊支持向量机 样本信息量 粒子群算法 参数寻优
在线阅读 下载PDF
密度峰值优化的球簇划分欠采样不平衡数据分类算法 被引量:14
13
作者 刘学文 王继奎 +4 位作者 杨正国 李强 易纪海 李冰 聂飞平 《计算机应用》 CSCD 北大核心 2022年第5期1455-1463,共9页
在集成算法中嵌入代价敏感和重采样方法是一种有效的不平衡数据分类混合策略。针对现有混合方法中误分代价计算和欠采样过程较少考虑样本的类内与类间分布的问题,提出了一种密度峰值优化的球簇划分欠采样不平衡数据分类算法DPBCPUSBoos... 在集成算法中嵌入代价敏感和重采样方法是一种有效的不平衡数据分类混合策略。针对现有混合方法中误分代价计算和欠采样过程较少考虑样本的类内与类间分布的问题,提出了一种密度峰值优化的球簇划分欠采样不平衡数据分类算法DPBCPUSBoost。首先,利用密度峰值信息定义多数类样本的抽样权重,将存在“近邻簇”的多数类球簇划分为“易误分区域”和“难误分区域”,并提高“易误分区域”内样本的抽样权重;其次,在初次迭代过程中按照抽样权重对多数类样本进行欠采样,之后每轮迭代中按样本分布权重对多数类样本进行欠采样,并把欠采样后的多数类样本与少数类样本组成临时训练集并训练弱分类器;最后,结合样本的密度峰值信息与类别分布为所有样本定义不同的误分代价,并通过代价调整函数增加高误分代价样本的权重。在10个KEEL数据集上的实验结果表明,与现有自适应增强(AdaBoost)、代价敏感自适应增强(AdaCost)、随机欠采样增强(RUSBoost)和代价敏感欠采样自适应增强(USCBoost)等不平衡数据分类算法相比,DPBCPUSBoost在准确率(Accuracy)、F1分数(F1-Score)、几何均值(G-mean)和受试者工作特征(ROC)曲线下的面积(AUC)指标上获得最高性能的数据集数量均多于对比算法。实验结果验证了DPBCPUSBoost中样本误分代价和抽样权重定义的有效性。 展开更多
关键词 不平衡数据分类 密度峰值 球聚类 代价敏感 欠采样
在线阅读 下载PDF
基于概率采样和集成学习的不平衡数据分类算法 被引量:14
14
作者 曹雅茜 黄海燕 《计算机科学》 CSCD 北大核心 2019年第5期203-208,共6页
集成学习由于泛化能力强,被广泛应用于信息检索、图像处理、生物学等类别不平衡的场景。为了提高算法在不平衡数据上的分类效果,文中提出一种基于采样平衡和特征选择的集成学习算法OBPD-EFSBoost。该算法主要包括3个步骤:首先,依据少数... 集成学习由于泛化能力强,被广泛应用于信息检索、图像处理、生物学等类别不平衡的场景。为了提高算法在不平衡数据上的分类效果,文中提出一种基于采样平衡和特征选择的集成学习算法OBPD-EFSBoost。该算法主要包括3个步骤:首先,依据少数类高斯混合分布得到的概率模型,进行过采样构造平衡数集,扩大少数类的潜在决策域;其次,每轮训练个体分类器时,根据上一轮的错分样本综合考虑样本和特征的加权,过滤冗余噪声特征;最后,通过个体分类器的加权投票得到最终的集成分类器。8组UCI数据分类结果表明,该算法不仅有效提高了少数类的分类精度,同时还弥补了Boosting类算法对噪声特征敏感的缺陷,具有较强的鲁棒性。 展开更多
关键词 不平衡数据分类 集成学习 特征选择 概率分布
在线阅读 下载PDF
一种基于不平衡数据的矿用脱介筛故障监测方法
15
作者 杨军 栗轩华 张雷云 《洁净煤技术》 CAS CSCD 北大核心 2024年第S02期78-81,共4页
矿用设备故障监测对提高煤矿生产的连续性和安全性具有重要意义,但是由于实际工业过程中故障数据稀少且难以采集,造成了不平衡问题,对基于数据的故障监测算法实际应用不利。本文针对实际设备故障监测中少数类样本集的类内不平衡问题,提... 矿用设备故障监测对提高煤矿生产的连续性和安全性具有重要意义,但是由于实际工业过程中故障数据稀少且难以采集,造成了不平衡问题,对基于数据的故障监测算法实际应用不利。本文针对实际设备故障监测中少数类样本集的类内不平衡问题,提出改进的加权过采样算法。算法以Borderline-SMOTE为基础,基于K近邻样本的分布情况,以边界样本作为根样本进行加权过采样,利用LOF实现异常新样本的识别,提高生成样本的准确率。在实际矿用精煤脱介筛上进行了故障监测实验表明,与传统过采样方法新疆比,本文方法能获得更好的精度和分类效果。 展开更多
关键词 LOF Borderline-SMOTE 不平衡数据分类 过采样 脱介筛故障监测
在线阅读 下载PDF
基于相似度的半监督学习工业数据分类算法 被引量:3
16
作者 孙栓柱 陈广 +3 位作者 高阳 孙彬 李逗 杨晨琛 《南京航空航天大学学报》 CAS CSCD 北大核心 2021年第5期677-683,共7页
针对现实场景中大量无监督数据无法有效利用的特点,提出了一种基于数据相似度匹配的半监督学习算法。该方法结合一定的先验知识,通过无监督学习的方式,计算未标记数据与少量有标记数据之间相似度,从而对少数类样本进行扩充。利用构造后... 针对现实场景中大量无监督数据无法有效利用的特点,提出了一种基于数据相似度匹配的半监督学习算法。该方法结合一定的先验知识,通过无监督学习的方式,计算未标记数据与少量有标记数据之间相似度,从而对少数类样本进行扩充。利用构造后的数据集进行模型训练,从而提高模型对于少数类的识别效果。该方法能有效改进分类任务中数据分布不平衡及标记困难的问题,在一组基于真实场景下的电力传感器检测数据分类任务中取得了较好的少数类识别效果。通过对比传统以及半监督的多种分类算法,该方法虽然在准确率上低于传统方法,但是在召回率与F_(1)值的表现上超越传统方法。 展开更多
关键词 数据分类 半监督学习 相似度 不平衡学习 不平衡数据分类
在线阅读 下载PDF
基于加权聚类质心的SVM不平衡分类方法 被引量:4
17
作者 胡小生 钟勇 《智能系统学报》 CSCD 北大核心 2013年第3期261-265,共5页
不平衡数据分类是机器学习研究的热点问题,传统分类算法假定不同类别具有平衡分布或误分代价相同,难以得到理想的分类结果.提出一种基于加权聚类质心的SVM分类方法,在正负类样本上分别进行聚类,对每个聚类,用聚类质心和权重因子代表聚... 不平衡数据分类是机器学习研究的热点问题,传统分类算法假定不同类别具有平衡分布或误分代价相同,难以得到理想的分类结果.提出一种基于加权聚类质心的SVM分类方法,在正负类样本上分别进行聚类,对每个聚类,用聚类质心和权重因子代表聚类内样本分布和数量,相等类别数量的质心和权重因子参与SVM模型训练.实验结果表明,该方法使模型的训练样本具有较高的代表性,分类性能与其他采样方法相比得到了提升. 展开更多
关键词 机器学习 不平衡数据分类 聚类质心 支持向量机
在线阅读 下载PDF
面向不平衡数据的配电网故障停电预测方法 被引量:16
18
作者 范敏 杨青 +3 位作者 郭祥富 刘昊 夏嘉璐 彭屿雯 《电力系统保护与控制》 EI CSCD 北大核心 2023年第8期96-106,共11页
配电网故障停电事件会严重影响正常的社会经济生活。因此,迫切需要有效的配电网故障停电预测方法。采用人工智能方法分析配电网故障停电数据,发现存在配电网故障停电次数较少和引发配电网故障停电的原因分布不均等数据不平衡情况。为了... 配电网故障停电事件会严重影响正常的社会经济生活。因此,迫切需要有效的配电网故障停电预测方法。采用人工智能方法分析配电网故障停电数据,发现存在配电网故障停电次数较少和引发配电网故障停电的原因分布不均等数据不平衡情况。为了及时、准确地预测配电网故障停电情况,从数据集质量和防止过拟合两方面入手改进故障停电预测模型。首先,设计了基于聚类的对抗神经网络来增强数据集质量。其次,构造了基于随机代价敏感卷积神经网络(Random Cost-CNN)的故障停电预测模型。Random Cost-CNN预测算法中采用有放回随机抽样思想设计了损失函数的随机选择策略,用以解决常规代价敏感过度拟合少数类(故障停电类)而使得大量多数类(正常类)被误报的问题,既保证少数类具有较好召回率与精确度,同时又提高了模型的泛化性能。实验证明所提方法能有效预测配电网故障停电事件发生概率,在配电网运维管理中能够发挥较好的预警作用。 展开更多
关键词 故障停电预测 不平衡数据分类 过拟合 Random Cost-CNN
在线阅读 下载PDF
数据集类别不平衡性对迁移学习的影响分析 被引量:5
19
作者 程磊 吴晓富 张索非 《信号处理》 CSCD 北大核心 2020年第1期110-117,共8页
数据集类别不平衡性是机器学习领域的常见问题,对迁移学习也不例外。本文针对迁移学习下数据集类别不平衡性的影响研究不足的问题,重点研究了以下几种不平衡性处理方法对迁移学习的影响效果分析:过采样、欠采样、加权随机采样、加权交... 数据集类别不平衡性是机器学习领域的常见问题,对迁移学习也不例外。本文针对迁移学习下数据集类别不平衡性的影响研究不足的问题,重点研究了以下几种不平衡性处理方法对迁移学习的影响效果分析:过采样、欠采样、加权随机采样、加权交叉熵损失函数、Focal Loss函数和基于元学习的L2RW(Learning to Reweight)算法。其中,前三种方法通过随机采样消除数据集的不平衡性,加权交叉熵损失函数和Focal Loss函数通过调整传统分类算法的损失函数以适应不平衡数据集的训练,L2RW算法则采用元学习机制动态调整样本权重以实现更好的泛化能力。大量实验结果表明,在上述各种不平衡性处理方法中,过采样处理和加权随机采样处理更适合迁移学习。 展开更多
关键词 迁移学习 不平衡数据分类 深度神经网络 重采样
在线阅读 下载PDF
改进的超限学习机及其在不平衡数据中的应用 被引量:2
20
作者 李晗缦 王丽丹 段书凯 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第6期140-148,共9页
超限学习机(ELM)作为一种简单高效的学习算法被广泛应用于分类和拟合问题中.但是ELM在训练过程中逼近所有的样本容易造成过拟合,并且单个的ELM在不平衡数据分类上效果欠佳.因此,本文提出了一种新的基于分层交叉验证的集成超限学习机,该... 超限学习机(ELM)作为一种简单高效的学习算法被广泛应用于分类和拟合问题中.但是ELM在训练过程中逼近所有的样本容易造成过拟合,并且单个的ELM在不平衡数据分类上效果欠佳.因此,本文提出了一种新的基于分层交叉验证的集成超限学习机,该算法在训练阶段将集成学习和分层交叉验证相结合:①集成学习通过将若干个网络组合大大提高分类性能;②分层交叉验证最大程度学习样本的分布特点.基于KEEL数据库的不平衡数据分类问题的实验表明,新提出的算法更加稳定并且有更高的分类性能. 展开更多
关键词 分层交叉验证 集成学习 超限学习机 不平衡数据分类
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部