期刊文献+
共找到51篇文章
< 1 2 3 >
每页显示 20 50 100
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:20
1
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 非平衡数据集 少数样本合成过采样技术 采样倍率 遗传算法
在线阅读 下载PDF
类别不均衡学习中的抽样策略研究 被引量:8
2
作者 刘树栋 张可 《计算机工程与应用》 CSCD 北大核心 2019年第21期1-17,共17页
类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方... 类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方法:数据级解决方法、算法级解决方法和集成解决方法。侧重于对近年来类别不均衡学习中的抽样策略研究进展进行综述,介绍类别不均衡学习的基本框架,对类别不均衡学习中三种主要的抽样策略(过抽样、欠抽样和混合抽样)相关研究进展进行前沿概括、比较和分析,对类别不均衡学习的抽样策略中有待研究的难点、热点及发展趋势进行展望。 展开更多
关键词 不均衡学习 集成学习 抽样 特征选择 支持向量机 合成少数类过抽样技术 混合抽样
在线阅读 下载PDF
基于BSMOTE和逆转欠抽样的不均衡数据分类算法 被引量:4
3
作者 陈睿 张亮 +1 位作者 杨静 胡荣贵 《计算机应用研究》 CSCD 北大核心 2014年第11期3299-3303,共5页
针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类... 针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类样本的数量,然后通过优先去除样本中的冗余和噪声样本,使用逆转欠抽样方法逆转少数类样本和多数类样本的比例。通过多次进行上述抽样形成多个训练集合,使用Bagging方法集成在多个训练集合上获得的分类器来提高有效信息的利用率。实验表明,该算法较几种现有算法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类准确度。 展开更多
关键词 不均衡数据集 边界少数样本合成过抽样技术 逆转欠抽样技术 多分器集成
在线阅读 下载PDF
面向非平衡多分类问题的二次合成QSMOTE方法 被引量:3
4
作者 韩明鸣 郭虎升 王文剑 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第1期1-13,共13页
近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善... 近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善数据分布的不平衡情况.此外,若原始样本中不同类别样本分布存在重叠,则新合成的样本会更容易偏离到其他类样本分布中,从而造成过泛化现象,影响少数类样本的分类精度.为解决上述问题,提出一种二次合成的上采样方法(Quadratic Synthetic Minority Over-sampling Technique,QSMOTE).首先通过少数类样本的支持度选择包含重要信息的样本来进行第一次合成,然后通过分析指定少数类样本质心的邻域内样本分布情况来调整第二次样本合成范围,并最终进行第二次合成.在UCI和MNIST数据集上的实验结果表明,QSMOTE不仅可以改善数据分布的不平衡问题,而且可以尽可能地减少过泛化现象,特别是对少数类样本的分类准确率有大幅提升. 展开更多
关键词 非平衡问题 过泛化 重叠 合成少数上采样技术(SMOTE)
在线阅读 下载PDF
针对样本类不平衡的深度残差网络电力系统暂态稳定评估方法 被引量:5
5
作者 刘颂凯 党喜 +3 位作者 崔梓琪 杨超 阮肇华 袁铭洋 《智慧电力》 北大核心 2024年第1期116-123,共8页
系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造... 系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造所需的新样本,改善样本类不平衡问题,并减少噪声的影响;然后,基于深度残差网络构建电力系统暂态稳定评估模型,解决梯度消失导致的模型性能退化问题,提高模型的鲁棒性和准确性;最后,在新英格兰10机39节点和47机140节点系统上的仿真结果表明,所提方法能减小噪声干扰、降低不平衡数据集所带来的影响和减少计算复杂度。 展开更多
关键词 暂态稳定评估 噪声问题 样本分布不平衡 改进合成少数过采样技术 深度残差网络
在线阅读 下载PDF
SMOTE类算法研究综述 被引量:13
6
作者 王晓霞 李雷孝 林浩 《计算机科学与探索》 CSCD 北大核心 2024年第5期1135-1159,共25页
合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细... 合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细阐述了SMOTE方法的基本原理,然后主要从数据级、算法级两个层面系统性地梳理分析SMOTE类算法,并介绍数据级和算法级混合改进的新思路。数据级改进是在预处理时通过不同操作删除或添加数据来平衡数据分布;算法级改进不会改变数据分布,主要通过修改或创建算法来加强对少数类样本的关注度。二者相比,数据级方法应用受限更少,算法级改进的算法鲁棒性普遍更高。为了更全面地提供SMOTE类算法的基础研究材料,最后列出常用数据集、评价指标,给出未来可能尝试进行的研究思路,以更好地应对不平衡数据问题。 展开更多
关键词 不平衡数据 合成少数类过采样技术(SMOTE) 过采样 监督学习
在线阅读 下载PDF
面向不平衡数据集的浓香型白酒基酒等级分类研究 被引量:4
7
作者 王继华 李兆飞 +2 位作者 杨壮 赵娜 张贵宇 《中国酿造》 CAS 北大核心 2024年第1期184-189,共6页
为解决基于气相色谱-质谱联用(GC-MS)仪采集的浓香型白酒基酒等级分类中样本不均衡导致分类模型性能下降的问题,提出了一种面向不平衡数据集的浓香型白酒基酒分类研究。该方法首先采用合成少数类过采样技术(SMOTE)对浓香型基酒样品中少... 为解决基于气相色谱-质谱联用(GC-MS)仪采集的浓香型白酒基酒等级分类中样本不均衡导致分类模型性能下降的问题,提出了一种面向不平衡数据集的浓香型白酒基酒分类研究。该方法首先采用合成少数类过采样技术(SMOTE)对浓香型基酒样品中少数类样本进行扩充,改善样本的不均衡性;然后结合稀疏主成分分析(SPCA)对GC-MS图谱数据进行降维;最后使用深度森林(DF)分类器建立浓香型白酒基酒分类识别模型。结果表明,使用SMOTE算法对基酒数据集进行平衡之后能够有效提高模型分类准确率,所建立的浓香型基酒分类模型正确率达到96.61%,该分类模型的建立对基酒等级分类能起到一定的指导和借鉴作用。 展开更多
关键词 气相色谱-质谱联用 浓香型白酒基酒 合成少数类过采样技术 稀疏主成分分析 基酒分
在线阅读 下载PDF
样本不平衡条件下煤矿突水水源识别——以谢桥煤矿为例
8
作者 王彦彬 闫晓杉 《安全与环境学报》 北大核心 2025年第7期2553-2561,共9页
为了有效识别煤矿突水水源,以保障煤矿安全生产,使用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)补充少数类样本,继而采用支持向量机(Support Vector Machine, SVM)模型对突水水源进行识别。试验选取96条... 为了有效识别煤矿突水水源,以保障煤矿安全生产,使用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)补充少数类样本,继而采用支持向量机(Support Vector Machine, SVM)模型对突水水源进行识别。试验选取96条谢桥煤矿水化学数据进行分析,首先对样本数据进行标准化处理和主成分分析(Principal Component Analysis, PCA),将数据集划分为训练集和测试集,对训练集中少数类样本采用SMOTE法生成新的样本,然后采用改进混沌哈里斯鹰优化(Chaos Harris Hawks Optimization, CHHO)算法结合十折交叉验证优化支持向量机惩罚因子C和径向基函数(Radial Basis Function, RBF)核的参数γ,根据优化结果建立突水水源识别模型,对测试集中突水水源进行识别。将该方法与朴素贝叶斯、随机森林所得结果进行比较,结果显示,采用本方法对测试集识别结果准确性优于其他两种方法,表明该方法在突水水源识别上具有良好的实用性和有效性。 展开更多
关键词 安全工程 突水水源识别 主成分分析 合成少数类过采样技术 混沌哈里斯鹰优化算法 支持向量机
在线阅读 下载PDF
面向不均衡数据集的过抽样算法 被引量:11
9
作者 崔鑫 徐华 宿晨 《计算机应用》 CSCD 北大核心 2020年第6期1662-1667,共6页
合成少数类过抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线... 合成少数类过抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线性插值合成新样本,并且对参与合成的样本进行了筛选,降低了噪声样本参与合成的可能。在六个实际数据集上,将CSMOTE算法与四个SMOTE的改进算法以及两种欠抽样算法进行了多次的对比实验,CSMOTE算法在所有数据集上均获得了最高的AUC值。实验结果表明,CSMOTE算法具有更高的分类性能,可以有效解决数据集中样本分布不均衡的问题。 展开更多
关键词 簇心 不均衡数据集 合成少数类过抽样技术 过采样
在线阅读 下载PDF
基于主动学习SMOTE的非均衡数据分类 被引量:23
10
作者 张永 李卓然 刘小丹 《计算机应用与软件》 CSCD 北大核心 2012年第3期91-93,162,共4页
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALS... 少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。 展开更多
关键词 主动学习 不平衡数据集 少数样本合成过采样技术 支持向量机
在线阅读 下载PDF
利用采样安全系数的多类不平衡过采样算法 被引量:4
11
作者 董明刚 刘明 敬超 《计算机科学与探索》 CSCD 北大核心 2020年第10期1776-1786,共11页
传统的过采样算法在处理多类不平衡问题时容易出现过度泛化和类别重叠,从而降低了分类性能。为了提高多类不平衡学习性能,提出了一种利用采样安全系数的多类不平衡过采样(SSCMIO)算法。首先为了防止过度泛化,采用近邻采样安全系数为那... 传统的过采样算法在处理多类不平衡问题时容易出现过度泛化和类别重叠,从而降低了分类性能。为了提高多类不平衡学习性能,提出了一种利用采样安全系数的多类不平衡过采样(SSCMIO)算法。首先为了防止过度泛化,采用近邻采样安全系数为那些会造成过度泛化的邻域分配一个较小的权重。然后考虑到样本点的全局特性,采用反向近邻采样安全系数防止新合成的样本点侵入到其他类别区域,减轻类别之间的重叠问题。最后以C4.5决策树作为基分类器,将SSCMIO算法与7种典型的过采样算法进行了对比实验。在16个公开的真实数据集上,SSCMIO算法在准确率、召回率、F-measure、MG、MAUC这5个指标上均能取得11个以上的最优值,在5个指标上最大提升分别是0.4818、0.3053、0.3420、0.2664、0.1307。实验结果表明SSCMIO算法相比其他7种算法可以取得更好的分类性能。 展开更多
关键词 采样安全系数 过采样 合成少数技术 不平衡问题
在线阅读 下载PDF
基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测 被引量:7
12
作者 刘博 卢婷婷 +1 位作者 张兆宁 张健斌 《科学技术与工程》 北大核心 2021年第34期14843-14852,共10页
由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(condi... 由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(conditional generative adversarial nets,CGAN)的航班延误预测模型。首先,利用SMOTE算法对原始数据集进行上采样,并融合经过训练的CGAN生成指定样本数据集,缓解原始数据集中某些类别样本量少和数据非平衡等问题;再次,采用XGBoost模型在4种模式训练集上进行训练和超参数寻优;最后,以K近邻、支持向量机和随机森林为基准模型进行性能对比分析。经试验分析,通过分类器在融合样本集的训练,整体上可以在一定程度上提高模型的泛化性,尤其在轻度延误和中度延误类别中提升较为明显,与不采用融合方法比较,宏平均下的Precision、Recall、F_(1)-score值分别提升了0.16、0.29、0.24个百分点。实验结果表明,该方法能够有效地对航班延误非平衡数据进行建模,在保持模型整体性能较高的前提下,能够显著地提升少数类的预测能力,可以为空管、航空公司和机场等提供决策依据。 展开更多
关键词 航班延误 非平衡数据集 合成少数类过采样技术(SMOTE)算法 条件生成对抗网络 XGBoost模型 问题
在线阅读 下载PDF
基于不平衡数据集的主动学习分类算法 被引量:8
13
作者 赵小强 刘梦依 《控制工程》 CSCD 北大核心 2019年第2期314-319,共6页
针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法。该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标... 针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法。该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标准划分超平面,在分类超平面两侧选择最近距离的等量对称的多数类样本,组成平衡采样数据集,利用支持向量机(SVM)进行分类得到优化分类器,再用主动学习对去除了训练样本的不平衡数据集利用优化分类器进行分类循环,直到剩余样本为零。利用UCI数据集中的数据实验表明,该算法有效地减少了噪声数据对分类的影响,并有效改善不平衡数据集的分类精度。 展开更多
关键词 数据挖掘 不平衡数据集 少数样本合成过采样技术
在线阅读 下载PDF
面向不平衡数据的特征子空间增强的异质集成学习
14
作者 陈丽芳 白云 +1 位作者 施永辉 代琪 《计算机工程与科学》 北大核心 2025年第5期940-950,共11页
对于不平衡数据,传统分类器趋向于保证多数类的准确率,而牺牲少数类的准确率,造成算法的整体性能下降。针对这一问题,提出一种面向不平衡数据的特征子空间增强的异质集成学习算法HEL-FSA。首先利用XGBoost算法学习特征的重要性,并选择... 对于不平衡数据,传统分类器趋向于保证多数类的准确率,而牺牲少数类的准确率,造成算法的整体性能下降。针对这一问题,提出一种面向不平衡数据的特征子空间增强的异质集成学习算法HEL-FSA。首先利用XGBoost算法学习特征的重要性,并选择重要的特征,形成数据集的特征子空间;其次使用SMOTE算法在特征子空间中生成新样本,获得更加平衡的训练数据;最后,采用逻辑回归、决策树、多层感知器、支持向量机和XGBoost这5种基模型,并使用if_any算法融合异质基模型。在9个不平衡数据集上的实验结果验证了该算法的可行性,同时,将提出的算法用于宫颈癌风险预测,增强了其对宫颈癌风险的理解和预测能力。 展开更多
关键词 不平衡数据 特征选择 集成学习 合成少数类过采样技术
在线阅读 下载PDF
基于HEOA-XGBoost组合模型的边坡稳定性预测
15
作者 祁云 白晨浩 +3 位作者 秦凯 段宏飞 李绪萍 汪伟 《中国安全科学学报》 北大核心 2025年第9期137-144,共8页
为预防边坡失稳安全事故发生,针对边坡失稳的不确定性及影响因素的复杂性等问题,提出一种基于人类进化优化算法(HEOA)优化极端梯度提升(XGBoost)的组合模型,以预测边坡稳定性。首先分析影响边坡失稳的主控因素,选取边坡岩体的6项影响因... 为预防边坡失稳安全事故发生,针对边坡失稳的不确定性及影响因素的复杂性等问题,提出一种基于人类进化优化算法(HEOA)优化极端梯度提升(XGBoost)的组合模型,以预测边坡稳定性。首先分析影响边坡失稳的主控因素,选取边坡岩体的6项影响因素建立边坡稳定性预测指标体系;其次利用极差标准化统一样本量纲,并采用合成少数类过采样技术(SMOTE)平衡样本等级分布;然后通过HEOA优化XGBoost模型的最大深度、学习率、子样本比例、列样本比例和最小损失;最后利用准确率、精确率、召回率、F_(1)分数和科恩卡帕系数综合评价所建模型的预测结果,并将该模型应用于具体工程实例。结果表明:经HEOA优化后XGBoost模型的最大深度、学习率、子样本比例、列样本比例和最小损失分别为6、0.5838、0.4615、0.5846和0.0244时效果凸显;HEOA-XGBoost组合模型预测边坡稳定性状态相比于其他智能算法优化的XGBoost模型和单一XGBoost模型,其各评价指标均有所提升,表明该模型预测边坡稳定性状态具有较高的精准度和泛化性。 展开更多
关键词 边坡稳定性 进化优化算法(HEOA) 极端梯度提升(XGBoost) 极差标准化 合成少数类过采样技术(SMOTE)
在线阅读 下载PDF
改进SMOTE的不平衡数据集成分类算法 被引量:33
16
作者 王忠震 黄勃 +2 位作者 方志军 高永彬 张娟 《计算机应用》 CSCD 北大核心 2019年第9期2591-2596,共6页
针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目... 针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目,对样本集中的噪声样本进行精确识别并予以滤除;其次,在过采样过程中基于聚类的思想将样本集划分为不同的子簇,根据子簇的簇心及其所包含的样本数目,在簇内样本与簇心之间进行新样本的合成操作。在样本合成过程中充分考虑类间和类内数据不平衡性,对样本及时修正以保证合成样本质量,平衡样本信息;最后,利用AdaBoost算法的优势,采用决策树作为基分类器,对平衡后的样本集进行训练,迭代多次直到满足终止条件,得到最终分类模型。选择G-mean、AUC作为评价指标,通过在6组KEEL数据集进行对比实验。实验结果表明,所提的过采样算法与经典的过采样算法SMOTE、自适应综合过采样技术(ADASYN)相比,G-means和AUC在4组中有3组最高;所提分类模型与现有的不平衡分类模型SMOTE-Boost,CUS-Boost,RUS-Boost相比,6组数据中:G-means均高于CUS-Boost和RUS-Boost,有3组低于SMOTE-Boost;AUC均高于SMOTE-Boost和RUS-Boost,有1组低于CUS-Boost。验证了所提的KSMOTE-AdaBoost具有更好的分类效果,且模型泛化性能更高。 展开更多
关键词 不平衡数据分 合成少数类过采样技术 K近邻 过采样 ADABOOST算法
在线阅读 下载PDF
基于改进SMOTE的制造过程不平衡数据分类策略 被引量:7
17
作者 黎旭 陈家兑 +1 位作者 吴永明 宗文泽 《计算机工程与应用》 CSCD 北大核心 2022年第16期284-291,共8页
不平衡数据分析是智能制造的关键技术之一,其分类问题已成为机器学习和数据挖掘的研究热点。针对目前不平衡数据过采样策略中人工合成数据边缘化且需要降噪处理的问题,提出一种基于改进SMOTE(synthetic minority oversampling technique... 不平衡数据分析是智能制造的关键技术之一,其分类问题已成为机器学习和数据挖掘的研究热点。针对目前不平衡数据过采样策略中人工合成数据边缘化且需要降噪处理的问题,提出一种基于改进SMOTE(synthetic minority oversampling technique)和局部离群因子(local outlier factor,LOF)的过采样算法。首先对整个数据集进行K-means聚类,筛选出高可靠性样本进行改进SMOTE算法过采样,然后采用LOF算法删除误差大的人工合成样本。在4个UCI不平衡数据集上的实验结果表明,该方法对不平衡数据中少数类的分类能力更强,有效地克服了数据边缘化问题,将算法应用于磷酸生产中的不平衡数据,实现了该不平衡数据的准确分类。 展开更多
关键词 不平衡数据 过采样 局部离群因子 合成少数过采样技术(SMOTE)
在线阅读 下载PDF
改进MDSMOTE与PSO-SVM在汽车组合仪表分类预测中的应用 被引量:2
18
作者 肖圳 何彦 +3 位作者 李育锋 吴鹏程 刘德高 杜江 《工程设计学报》 CSCD 北大核心 2022年第1期20-27,共8页
汽车组合仪表生产过程中质检项目多且检测时间长,这在一定程度上制约了其生产效率的进一步提升。为此,提出一种基于改进最远点合成少数类过采样技术(max distance synthetic minority over-sampling technique,MDSMOTE)的支持向量机(sup... 汽车组合仪表生产过程中质检项目多且检测时间长,这在一定程度上制约了其生产效率的进一步提升。为此,提出一种基于改进最远点合成少数类过采样技术(max distance synthetic minority over-sampling technique,MDSMOTE)的支持向量机(support vector machine,SVM)分类预测方法。首先,结合专家经验对汽车组合仪表的原始生产数据进行特征筛选,并在MDSMOTE中引入类不平衡率IR,以对所筛选的特征数据进行扩充;然后,利用粒子群优化(particle swarm optimization,PSO)算法对SVM的误差惩罚因子C和核函数参数γ进行优化;最后,建立优化的SVM分类预测模型,并对汽车组合仪表进行分类。通过与其他分类预测模型在不同数据集上的预测结果进行对比可知,基于改进MDSMOTE的SVM分类预测模型的准确率、F值和几何平均值等评价指标均优于其他模型。所提出方法在汽车仪表产品分类上表现出较强的泛化能力和稳定性,可为仪表制造企业生产效率的提升提供有效参考。 展开更多
关键词 汽车组合仪表 预测 改进最远点合成少数类过采样技术 支持向量机 粒子群优化
在线阅读 下载PDF
基于深度森林和DNA甲基化的癌症分类研究 被引量:8
19
作者 刘超 吴申 +1 位作者 郑一超 侯维岩 《计算机工程与应用》 CSCD 北大核心 2020年第13期189-193,共5页
作为人类基因组重要的表观遗传现象,DNA甲基化对基因的表达发挥着重要的调控作用,与癌症的关系密切。针对癌症基因组图谱(TCGA)庞大数据的类不平衡和高维度,致使假阴率大幅增加的问题,提出了一种混合采样的不平衡数据集成分类算法,使用... 作为人类基因组重要的表观遗传现象,DNA甲基化对基因的表达发挥着重要的调控作用,与癌症的关系密切。针对癌症基因组图谱(TCGA)庞大数据的类不平衡和高维度,致使假阴率大幅增加的问题,提出了一种混合采样的不平衡数据集成分类算法,使用合成少数过采样(SMOTE)算法生成新的少数类样本,得到扩充后的数据集,通过Tomek Link算法剔除样本扩充过程中引入的噪声,得到相对平衡的数据集。在此基础上,利用深度森林(gcForest)算法的级联森林结构,每一层选取两种随机森林结构,以增强模型的泛化能力,得到最终的分类模型。对6种癌症的DNA甲基化数据实验表明混合采样的不平衡数据集成分类算法在保证多数类分类精度的前提下,有效地提高了对于少数类的灵敏度。 展开更多
关键词 DNA甲基化 癌症基因组图谱(TCGA) 合成少数采样技术(SMOTE) Tomek Link算法 gcForest算法
在线阅读 下载PDF
基于旋转平衡森林的不平衡数据分类算法 被引量:5
20
作者 周尔昊 高尚 申震 《计算机工程与设计》 北大核心 2022年第2期458-464,共7页
针对不平衡数据中的分类问题,提出一种基于旋转森林的改进模型——旋转平衡森林(rotation balanced forest,ROBF)。以集成思想为核心,从数据层和算法层相结合的角度出发,针对Safe-Level-Smote方法中存在的模糊类边界问题采取两点改进:... 针对不平衡数据中的分类问题,提出一种基于旋转森林的改进模型——旋转平衡森林(rotation balanced forest,ROBF)。以集成思想为核心,从数据层和算法层相结合的角度出发,针对Safe-Level-Smote方法中存在的模糊类边界问题采取两点改进:安全等级再划分机制;引入约束度不同的控制因子,经改进后得到Hyper-Safe-Level-Smote,将Hyper-Safe-Level-Smote与旋转森林模型相结合得到旋转平衡森林。通过在UCI的6组数据集上将5种算法进行对比,对比结果表明,ROBF算法在保持良好分类准确率的同时,有着更具竞争力的TPR和G-mean。该结果验证了ROBF算法在处理不平衡问题上的有效性。 展开更多
关键词 集成 不平衡数据 旋转森林 合成少数类过采样技术
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部