期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:20
1
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 非平衡数据集 少数样本合成过采样技术 采样倍率 遗传算法
在线阅读 下载PDF
针对样本类不平衡的深度残差网络电力系统暂态稳定评估方法 被引量:5
2
作者 刘颂凯 党喜 +3 位作者 崔梓琪 杨超 阮肇华 袁铭洋 《智慧电力》 北大核心 2024年第1期116-123,共8页
系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造... 系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造所需的新样本,改善样本类不平衡问题,并减少噪声的影响;然后,基于深度残差网络构建电力系统暂态稳定评估模型,解决梯度消失导致的模型性能退化问题,提高模型的鲁棒性和准确性;最后,在新英格兰10机39节点和47机140节点系统上的仿真结果表明,所提方法能减小噪声干扰、降低不平衡数据集所带来的影响和减少计算复杂度。 展开更多
关键词 暂态稳定评估 噪声问题 样本分布不平衡 改进合成少数过采样技术 深度残差网络
在线阅读 下载PDF
基于BSMOTE和逆转欠抽样的不均衡数据分类算法 被引量:4
3
作者 陈睿 张亮 +1 位作者 杨静 胡荣贵 《计算机应用研究》 CSCD 北大核心 2014年第11期3299-3303,共5页
针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类... 针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类样本的数量,然后通过优先去除样本中的冗余和噪声样本,使用逆转欠抽样方法逆转少数类样本和多数类样本的比例。通过多次进行上述抽样形成多个训练集合,使用Bagging方法集成在多个训练集合上获得的分类器来提高有效信息的利用率。实验表明,该算法较几种现有算法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类准确度。 展开更多
关键词 不均衡数据集 边界少数类样本合成过抽样技术 逆转欠抽样技术 多分器集成
在线阅读 下载PDF
类别不均衡学习中的抽样策略研究 被引量:8
4
作者 刘树栋 张可 《计算机工程与应用》 CSCD 北大核心 2019年第21期1-17,共17页
类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方... 类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方法:数据级解决方法、算法级解决方法和集成解决方法。侧重于对近年来类别不均衡学习中的抽样策略研究进展进行综述,介绍类别不均衡学习的基本框架,对类别不均衡学习中三种主要的抽样策略(过抽样、欠抽样和混合抽样)相关研究进展进行前沿概括、比较和分析,对类别不均衡学习的抽样策略中有待研究的难点、热点及发展趋势进行展望。 展开更多
关键词 不均衡学习 集成学习 抽样 特征选择 支持向量机 合成少数过抽样技术 混合抽样
在线阅读 下载PDF
滑坡易发性评价中样本不均衡问题处理研究 被引量:4
5
作者 田尤 高波 +4 位作者 殷红 李元灵 张佳佳 陈龙 李洪梁 《水文地质工程地质》 CAS CSCD 北大核心 2024年第6期171-181,共11页
滑坡易发性评价中,样本不均衡问题的不同处理方案通常会带来评价结果的大量不确定性。针对这一问题,以藏东昌都市部分县(区)为研究区,构建滑坡/非滑坡样本不均衡数据集,采用不处理、下采样和合成少数类过采样(synthetic minority oversa... 滑坡易发性评价中,样本不均衡问题的不同处理方案通常会带来评价结果的大量不确定性。针对这一问题,以藏东昌都市部分县(区)为研究区,构建滑坡/非滑坡样本不均衡数据集,采用不处理、下采样和合成少数类过采样(synthetic minority oversampling technique,SMOTE)3种处置方案,运用逻辑回归方法分别构建滑坡易发性评价模型。基于ROC曲线、准确度、精确率、召回率、漏检率等评价指标,采用综合评价指标F_(1)′同数对模型分类的精度进行验证。结果表明:数据处理成均衡数据集(过采样/下采样)建立的模型效果较不处理数据建立的模型效果有了大幅提升,F_(1)′同数的值最大提高了53.17%;在下采样、过采样两种数据处理方案中,过采样方法比下采样方法F_(1)′分数的值提高了16.30%,表明过采样方法对处理样本不均衡数据问题方面具有较好效果。研究成果可为滑坡预测和地质灾害预测前的数据集处理提供参考,为进一步提高区域防灾减灾水平提供理论与技术支持。 展开更多
关键词 滑坡易发性 合成少数过采样技术 评价模型 昌都市 样本不均衡数据
在线阅读 下载PDF
基于主动学习SMOTE的非均衡数据分类 被引量:23
6
作者 张永 李卓然 刘小丹 《计算机应用与软件》 CSCD 北大核心 2012年第3期91-93,162,共4页
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALS... 少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。 展开更多
关键词 主动学习 不平衡数据集 少数样本合成过采样技术 支持向量机
在线阅读 下载PDF
基于不平衡数据集的主动学习分类算法 被引量:8
7
作者 赵小强 刘梦依 《控制工程》 CSCD 北大核心 2019年第2期314-319,共6页
针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法。该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标... 针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法。该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标准划分超平面,在分类超平面两侧选择最近距离的等量对称的多数类样本,组成平衡采样数据集,利用支持向量机(SVM)进行分类得到优化分类器,再用主动学习对去除了训练样本的不平衡数据集利用优化分类器进行分类循环,直到剩余样本为零。利用UCI数据集中的数据实验表明,该算法有效地减少了噪声数据对分类的影响,并有效改善不平衡数据集的分类精度。 展开更多
关键词 数据挖掘 不平衡数据集 少数样本合成过采样技术
在线阅读 下载PDF
面向不均衡数据集的过抽样算法 被引量:11
8
作者 崔鑫 徐华 宿晨 《计算机应用》 CSCD 北大核心 2020年第6期1662-1667,共6页
合成少数类过抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线... 合成少数类过抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线性插值合成新样本,并且对参与合成的样本进行了筛选,降低了噪声样本参与合成的可能。在六个实际数据集上,将CSMOTE算法与四个SMOTE的改进算法以及两种欠抽样算法进行了多次的对比实验,CSMOTE算法在所有数据集上均获得了最高的AUC值。实验结果表明,CSMOTE算法具有更高的分类性能,可以有效解决数据集中样本分布不均衡的问题。 展开更多
关键词 簇心 不均衡数据集 合成少数过抽样技术 过采样
在线阅读 下载PDF
不平衡数据集异常检测和分类算法 被引量:3
9
作者 樊芮 陈湘媛 +1 位作者 王冠男 崔艳辉 《电力系统及其自动化学报》 CSCD 北大核心 2023年第9期112-119,共8页
针对传统异常检测模型在面对不平衡样本集时存在参数优化困难、少数类识别效果差等问题,提出一种组合模型以实现不平衡数据集的异常检测和分类。首先利用支撑向量数据描述构造闭合曲面实现“异常”检测,然后提出改进少数样本合成技术对... 针对传统异常检测模型在面对不平衡样本集时存在参数优化困难、少数类识别效果差等问题,提出一种组合模型以实现不平衡数据集的异常检测和分类。首先利用支撑向量数据描述构造闭合曲面实现“异常”检测,然后提出改进少数样本合成技术对“异常”数据进行过采样以构建平衡数据集,最后利用所提最大类间-类内距K-均值聚类进行自动聚类,实现3种异常数据的分类判决。结果表明,所提方法能够获得较高的异常检测和分类性能,并且具有较强的泛化能力。 展开更多
关键词 异常检测及分 不平衡数据 最大间-内距K-均值聚 少数样本合成技术 过采样
在线阅读 下载PDF
基于电机数据图像化的多时序变量间接卡车误吊起检测
10
作者 刘嘉杰 刘国平 胡文山 《计算机工程》 CAS CSCD 北大核心 2024年第10期370-380,共11页
自动化集装箱码头的装卸作业中经常发生集装箱与卡车同时被吊起的安全事故,导致人员伤亡及货品、车辆的损坏。为解决该问题,提出一种基于电机数据图像化处理的多时序变量间接卡车误吊起检测方法(MEIN)。该方法通过神经网络分析异步电机... 自动化集装箱码头的装卸作业中经常发生集装箱与卡车同时被吊起的安全事故,导致人员伤亡及货品、车辆的损坏。为解决该问题,提出一种基于电机数据图像化处理的多时序变量间接卡车误吊起检测方法(MEIN)。该方法通过神经网络分析异步电机在吊起集装箱和卡车的过程中产生的电流和电压异常,从而判断是否发生了误吊起事故。采集吊机的三相电流和电压数据,并基于物理公式进行特征工程计算出多个相关时序物理量,采用滑动窗口、SMOTE-Tomek综合采样的方式扩大样本总数并平衡类别数量,最后将多时序变量转换为图像的形式以EfficientNet进行分类。实验结果表明,该方法能在复杂的环境下(例如雨雾天气或轮胎被遮挡)保持稳定的检测性能,各测试地区的AUC均在0.997以上。相较于传统的基于激光雷达和计算机视觉的检测方法,MEIN方法具有成本低、精度高、计算量小并且抗环境干扰能力强等优点。该方法已在武汉、青岛、钦州、梅山等多地部署,为提高自动化集装箱码头的作业安全提供一种有效的解决方案。 展开更多
关键词 时间序列分 卷积神经网络 合成少数样本的过采样技术 Tomek Links欠采样技术 卡车误吊起检测
在线阅读 下载PDF
面向不平衡数据集的改进型SMOTE算法 被引量:26
11
作者 王超学 张涛 马春森 《计算机科学与探索》 CSCD 2014年第6期727-734,共8页
针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使... 针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使用交叉、变异算子实现对合成样本质量的控制。结合GA-SMOTE与SVM(support vector machine)算法来处理不平衡数据的分类问题。UCI数据集上的大量实验表明,GA-SMOTE在新样本的整体合成效果上表现出色,有效提高了SVM在不平衡数据集上的分类性能。 展开更多
关键词 不平衡数据集 遗传算子 少数样本合成过采样技术(SMOTE) SYNTHETIC MINORITY OVER-SAMPLING technique (SMOTE)
在线阅读 下载PDF
基于改进深度降噪自编码网络的电网气象防灾方法 被引量:18
12
作者 丛伟 胡亮亮 +3 位作者 孙世军 韩洪 孙梦晨 王安宁 《电力系统自动化》 EI CSCD 北大核心 2019年第2期42-49,共8页
电网运维数据表明电网故障的主要原因已由电气设备制造工艺水平、现场运维水平等因素转向雷电、山火、大风、冰灾等自然气象因素,电网防灾减灾也应重点关注气象致灾。针对气象与电网故障之间的关联特点和规律,提出了一种基于改进深度降... 电网运维数据表明电网故障的主要原因已由电气设备制造工艺水平、现场运维水平等因素转向雷电、山火、大风、冰灾等自然气象因素,电网防灾减灾也应重点关注气象致灾。针对气象与电网故障之间的关联特点和规律,提出了一种基于改进深度降噪自编码(SDAE)网络的电网气象防灾方法。以气象历史数据和电网运维检修数据为基础,利用合成少数类样本过采样技术(SMOTE)降低原始数据集的不平衡度,自编码网络通过非监督自学习和有监督微调完成气象信息特征的提取和气象信息与电网故障映射关系的建立,并通过融入稀疏项限制和加噪编码来改善网络的鲁棒性。算例分析表明,所提出的基于SMOTE和SDAE的网络电网气象防灾方法,能够准确、全面地建立气象信息与电网故障之间的关联映射关系,能够对给定的气象条件是否会导致发生电网灾害事故进行准确的预判。 展开更多
关键词 气象信息 电网防灾减灾 电网故障 合成少数样本过采样技术 深度降噪自编码 深度学习
在线阅读 下载PDF
一种基于SVM的非均衡数据集过采样方法 被引量:17
13
作者 张忠林 冯宜邦 赵中恺 《计算机工程与应用》 CSCD 北大核心 2020年第23期220-228,共9页
针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on... 针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on SVM)。SVMOM通过迭代合成样本。在迭代过程中,通过SVM得到分类超平面;根据每个少数类样本到分类超平面的距离赋予样本距离权重;同时考虑少数类样本的类内平衡,根据样本的分布计算样本的密度,赋予样本密度权重;依据样本的距离权重和密度权重计算每个少数类样本的选择权重,根据样本的选择权重选择样本运用SMOTE合成新样本,达到平衡数据集的目的。实验结果表明,提出的算法在一定程度上解决了分类结果偏向多数类的问题,验证了算法的有效性。 展开更多
关键词 不平衡数据 支持向量机(SVM) 过采样 样本权重 合成少数过采样技术(SMOTE)
在线阅读 下载PDF
基于BSMOTE-SVM算法的溢流风险评价 被引量:3
14
作者 张禾 池紫欣 《控制工程》 CSCD 北大核心 2023年第12期2173-2178,共6页
现今钻井作业中各平台仍然依靠人工坐岗进行溢流预警,溢流风险判断具有主观性导致准确率十分有限。针对目前溢流风险识别能力弱和准确率低的问题,首先,采用了边界样本过采样方法避免了由于溢流发生频率极低导致可获取的样本数量不足的缺... 现今钻井作业中各平台仍然依靠人工坐岗进行溢流预警,溢流风险判断具有主观性导致准确率十分有限。针对目前溢流风险识别能力弱和准确率低的问题,首先,采用了边界样本过采样方法避免了由于溢流发生频率极低导致可获取的样本数量不足的缺陷;其次,引入支持向量机对改善后的样本构造分类器,建立了溢流风险评价模型,并采用已经完钻的油井数据作为测试集进行模型验证。实验结果表明,所提方法将溢流识别准确率提高到了90%,相对于原始不均衡样本训练的分类器准确率,提高了36.67%。同时,此研究成果提高了钻井作业中的溢流识别能力,为安全钻井提供了有力支撑。 展开更多
关键词 不均衡数据集 支持向量机 边界合成少数过采样技术 溢流风险评价
在线阅读 下载PDF
基于数据生成算法的睡眠分期方法 被引量:1
15
作者 刘静博 王蓓 顾吉峰 《计算机工程与设计》 北大核心 2022年第2期406-412,共7页
针对睡眠分期中样本不平衡问题,提出以最短路径为指标选取最优数据进行数据生成的思想,增加少数类样本的数量。基于Border-SMOTE算法,提出改进的iBorder-SMOTE睡眠数据生成算法。用密度峰值聚类算法确定待生成数据的簇类别区域,采用中... 针对睡眠分期中样本不平衡问题,提出以最短路径为指标选取最优数据进行数据生成的思想,增加少数类样本的数量。基于Border-SMOTE算法,提出改进的iBorder-SMOTE睡眠数据生成算法。用密度峰值聚类算法确定待生成数据的簇类别区域,采用中心最短路径选取最优数据点进行数据生成,使用异变扰动方法对生成数据进行修正,保证数据的全局分布。在数据集Sleep-EDF上进行验证,其结果表明,改进后的算法有效提高了少数类样本的识别精度。 展开更多
关键词 睡眠分期 数据生成 边界合成少数过采样技术 多簇中心最短路径 异变扰动
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部