期刊文献+
共找到81篇文章
< 1 2 5 >
每页显示 20 50 100
改进的邻近加权合成过采样技术
1
作者 邢胜 王晓兰 +3 位作者 沈家星 朱美玲 曹永青 何玉林 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2024年第6期748-755,共8页
针对邻近加权合成过采样技术(proximity weighted synthetic oversampling technique,ProWSyn)在合成样例时未删除噪声样例,且当平滑因子在[0,1]区间取值时,权重比例难以覆盖整个搜索空间的缺陷,提出一种改进的邻近加权合成过采样技术(i... 针对邻近加权合成过采样技术(proximity weighted synthetic oversampling technique,ProWSyn)在合成样例时未删除噪声样例,且当平滑因子在[0,1]区间取值时,权重比例难以覆盖整个搜索空间的缺陷,提出一种改进的邻近加权合成过采样技术(improved proximity weighted synthetic oversampling technique,IProWSyn).改变权重的计算策略,引入底数为(0,1]的普通指数函数,通过动态改变底数令权重覆盖更大范围的搜索空间,进而找到更优的权重.将IProWSyn、ASN-SMOTE和ProWSyn应用在非平衡数据集ada、ecoli1、glass1、haberman、Pima和yeast1上,再使用k近邻(k-nearest neighbors,kNN)分类器和神经网络分类器检验方法的有效性.实验结果表明,在多数数据集上IProWSyn的F1、几何平均值(geometric mean,G-mean)和曲线下面积(area under curve,AUC)指标性能都高于其他过采样方法.IProWSyn过采样技术在这些数据集的综合分类效果更好,有更好的泛化表现. 展开更多
关键词 人工智能 非平衡数据 邻近加权合成过采样技术 过采样方法 K近邻分类器 神经网络
在线阅读 下载PDF
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:19
2
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 非平衡数据集 分类 少数类样本合成过采样技术 采样倍率 遗传算法
在线阅读 下载PDF
基于Tomek链的边界少数类样本合成过采样方法 被引量:5
3
作者 陶佳晴 贺作伟 +2 位作者 冷强奎 翟军昌 孟祥福 《计算机应用研究》 CSCD 北大核心 2023年第2期463-469,共7页
在类别不平衡数据集中,由于靠近类边界的样本更容易被错分,因此准确识别边界样本对分类具有重要意义。现有方法通常采用K近邻来标识边界样本,准确率有待提高。针对上述问题,提出一种基于Tomek链的边界少数类样本合成过采样方法。首先,... 在类别不平衡数据集中,由于靠近类边界的样本更容易被错分,因此准确识别边界样本对分类具有重要意义。现有方法通常采用K近邻来标识边界样本,准确率有待提高。针对上述问题,提出一种基于Tomek链的边界少数类样本合成过采样方法。首先,计算得到类间距离互为最近的样本形成Tomek链;然后,根据Tomek链标识出位于类间边界处的少数类样本;接下来,利用合成少数类过采样技术(SMOTE)中的线性插值机制在边界样本及其少数类近邻间进行过采样,并最终实现数据集的平衡。实验对比了八种采样方法,结果表明所提方法在大部分数据集上均获得了更高的G-mean和F_(1)值。 展开更多
关键词 不平衡数据分类 合成过采样 边界样本 K近邻 Tomek链
在线阅读 下载PDF
基于无噪梯度分布的合成过采样方法
4
作者 胡立彬 张云峰 刘培德 《计算机科学》 2025年第9期220-231,共12页
合成过采样方法(Synthetic Oversampling Method)是解决不平衡分类问题的重要手段,但当前的合成过采样方法在处理高维不平衡分类问题时仍面临诸多挑战。针对当前合成过采样方法未考虑噪声样本造成的误差累积、对样本空间距离过度依赖、... 合成过采样方法(Synthetic Oversampling Method)是解决不平衡分类问题的重要手段,但当前的合成过采样方法在处理高维不平衡分类问题时仍面临诸多挑战。针对当前合成过采样方法未考虑噪声样本造成的误差累积、对样本空间距离过度依赖、合成样本的分布牺牲负类样本识别精度这3个问题,提出一种基于无噪梯度分布的合成过采样方法。首先,利用样本的梯度贡献属性作为度量样本标签置信度的指标并过滤数据集中的噪声标签样本,避免了噪声样本作为根样本造成的误差累积。其次,根据梯度贡献指标和安全梯度阈值将正类样本分配到不同的梯度区间,并选择安全梯度区间内的样本作为根样本,根样本的梯度右近邻作为辅助样本,不仅摆脱了对空间距离度量的依赖,而且保证了决策边界不断往负类样本移动。最后,设计了基于余弦相似度的安全梯度分布近似策略,用于计算每个安全梯度区间内需要生成的样本数量,该策略合成后的样本分布可以使决策边界以安全的方式向负类样本移动,因此不会明显牺牲负类样本的识别精度。在来自KEEL,UCI和Kaggle平台的数据集上的实验表明,所提出的算法在提升分类器Recall值的同时,也可以获得很好的F1-Score,G-Mean和MCC值。 展开更多
关键词 梯度贡献 无噪梯度 梯度右近邻 安全梯度分布近似 合成过采样
在线阅读 下载PDF
基于自组织映射优化k均值聚类合成少数类算法及应用
5
作者 罗博炜 谭家驹 冯纪强 《广西大学学报(自然科学版)》 北大核心 2025年第3期679-689,共11页
针对金融数据高度不平衡使信贷违约预警模型训练和评估的复杂度大大增加的特点,为了改进重采样方法,运用自组织映射(SOM)神经网络来优化k均值聚类合成少数类(k-Means-SMOTE)算法,通过自组织映射神经网络识别和分析不平衡数据集的结构特... 针对金融数据高度不平衡使信贷违约预警模型训练和评估的复杂度大大增加的特点,为了改进重采样方法,运用自组织映射(SOM)神经网络来优化k均值聚类合成少数类(k-Means-SMOTE)算法,通过自组织映射神经网络识别和分析不平衡数据集的结构特征,将高维数据有效地映射至低维空间。在此基础上,结合k-Means算法进行数据聚类,以识别少数类样本的潜在群集,从而更准确地确定过采样的焦点区域。最后运用SMOTE技术对这些焦点区域进行过采样,增加少数类样本数量的同时保持数据的原始特征分布,从而减少过拟合的风险。在Bank marketing、Credit_Fraud等多个经典的真实金融数据集上的实验证明,该方法能够通过增加聚类稳定性来提升传统过采样算法的质量,在提升模型性能的同时降低算法复杂度。 展开更多
关键词 自组织映射神经网络 聚类算法 k均值聚类合成少数类过采样方法 信贷违约预警
在线阅读 下载PDF
面向不平衡图像数据的对抗自编码器过采样算法 被引量:2
6
作者 职为梅 常智 +1 位作者 卢俊华 耿正乾 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第11期4208-4218,共11页
许多适用于低维数据的传统不平衡学习算法在图像数据上的效果并不理想。基于生成对抗网络(GAN)的过采样算法虽然可以生成高质量图像,但在类不平衡情况下容易产生模式崩溃问题。基于自编码器(AE)的过采样算法容易训练,但生成的图像质量... 许多适用于低维数据的传统不平衡学习算法在图像数据上的效果并不理想。基于生成对抗网络(GAN)的过采样算法虽然可以生成高质量图像,但在类不平衡情况下容易产生模式崩溃问题。基于自编码器(AE)的过采样算法容易训练,但生成的图像质量较低。为进一步提高过采样算法在不平衡图像中生成样本的质量和训练的稳定性,该文基于生成对抗网络和自编码器的思想提出一种融合自编码器和生成对抗网络的过采样算法(BAEGAN)。首先在自编码器中引入一个条件嵌入层,使用预训练的条件自编码器初始化GAN以稳定模型训练;然后改进判别器的输出结构,引入一种融合焦点损失和梯度惩罚的损失函数以减轻类不平衡的影响;最后从潜在向量的分布映射中使用合成少数类过采样技术(SMOTE)来生成高质量的图像。在4个图像数据集上的实验结果表明该算法在生成图像质量和过采样后的分类性能上优于具有辅助分类器的条件生成对抗网络(ACGAN)、平衡生成对抗网络(BAGAN)等过采样算法,能有效解决图像数据中的类不平衡问题。 展开更多
关键词 不平衡图像数据 过采样 生成对抗网络 对抗自编码器 合成少数类过采样技术
在线阅读 下载PDF
不平衡数据集的DC-SMOTE过采样方法 被引量:1
7
作者 冀常鹏 尚佳奇 代巍 《智能系统学报》 CSCD 北大核心 2024年第3期525-533,共9页
针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决... 针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决类内不平衡问题。根据集中度的不同,区分出少数类样本的边界,有针对性地合成第二类新样本,达到强化边界的作用;同时,通过自适应生成新样本,有效解决大部分过采样算法没有明确过采样量或者盲目追求样本平衡度相等的问题。最后,在公开的12个不平衡数据集上进行了实验,实验结果表明,本算法在低不平衡数据集与高不平衡数据集上的应用均拥有良好的表现。 展开更多
关键词 不平衡数据集 过采样 高斯核函数 局部引力 高不平衡数据 合成少数类过采样 不平衡度 分类
在线阅读 下载PDF
基于Stacking集成学习的空管危险源数据分类
8
作者 王洁宁 闫思卿 孙禾 《科学技术与工程》 北大核心 2025年第20期8583-8594,共12页
在现代空管系统中,高效准确地识别和分类危险源文本数据对于保障飞行安全至关重要,空管危险源数据指的是那些可能影响航空安全的潜在因素、条件或事件的信息集合,然而现有的文本分类方法难以应对数据类别多样性和类别不平衡问题。当下... 在现代空管系统中,高效准确地识别和分类危险源文本数据对于保障飞行安全至关重要,空管危险源数据指的是那些可能影响航空安全的潜在因素、条件或事件的信息集合,然而现有的文本分类方法难以应对数据类别多样性和类别不平衡问题。当下迫切需要开发适用于空管系统的高效分类方法,以提高飞行安全水平。针对单一学习器用于空管危险源文本分类存在的类别分布较多,难以捕捉类别数据不平衡时的文本特征导致预测精度下降的问题,提出基于Stacking训练思想的、两次加权的改进集成模型。首先,参考双防机制对危险源和安全隐患完成类别划分;再采用词频-逆文档频率(term frequency-inverse document frequency, TF-IDF)算法提取预处理后的危险源文本特征完成向量化,并利用合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE)和自适应合成过采样算法(adaptive synthetic sampling approach, ADASYN)分别随机生成向量化后的少数类文本,使文本数据集的类别分布趋于平衡;再从基学习器每折交叉验证的F1分数加权和基学习器之间敏感性评估机制动态加权两方面改进Stacking集成模型,提高类别不平衡危险源文本的分类性能。在所构建的数据集上的实验结果表明:相较于SMOTE+改进集成模型,ADASYN+改进集成模型的精确率、召回率和F1分数分别提升0.9、1.1和1.0个百分点,较好地抑制处理多数类别过拟合的问题,实验结果验证了所提算法的有效性。 展开更多
关键词 双防机制 空管危险源 文本分类 自适应合成过采样算法(ADASYN) Stacking集成模型
在线阅读 下载PDF
样本不平衡条件下煤矿突水水源识别——以谢桥煤矿为例
9
作者 王彦彬 闫晓杉 《安全与环境学报》 北大核心 2025年第7期2553-2561,共9页
为了有效识别煤矿突水水源,以保障煤矿安全生产,使用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)补充少数类样本,继而采用支持向量机(Support Vector Machine, SVM)模型对突水水源进行识别。试验选取96条... 为了有效识别煤矿突水水源,以保障煤矿安全生产,使用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)补充少数类样本,继而采用支持向量机(Support Vector Machine, SVM)模型对突水水源进行识别。试验选取96条谢桥煤矿水化学数据进行分析,首先对样本数据进行标准化处理和主成分分析(Principal Component Analysis, PCA),将数据集划分为训练集和测试集,对训练集中少数类样本采用SMOTE法生成新的样本,然后采用改进混沌哈里斯鹰优化(Chaos Harris Hawks Optimization, CHHO)算法结合十折交叉验证优化支持向量机惩罚因子C和径向基函数(Radial Basis Function, RBF)核的参数γ,根据优化结果建立突水水源识别模型,对测试集中突水水源进行识别。将该方法与朴素贝叶斯、随机森林所得结果进行比较,结果显示,采用本方法对测试集识别结果准确性优于其他两种方法,表明该方法在突水水源识别上具有良好的实用性和有效性。 展开更多
关键词 安全工程 突水水源识别 主成分分析 合成少数类过采样技术 混沌哈里斯鹰优化算法 支持向量机
在线阅读 下载PDF
基于融合少数类过采样均衡多分类数据的改进极限学习机的变压器故障诊断方法 被引量:16
10
作者 王艳 李伟 +2 位作者 赵洪山 申宗旺 王寅初 《电网技术》 EI CSCD 北大核心 2023年第9期3799-3807,共9页
针对变压器小概率故障事件导致数据集不均衡时,严重影响故障识别能力的问题,提出一种基于融合少数类过采样(synthetic minority over-sampling technique,SMOTE)算法均衡多分类数据的改进麻雀搜索算法(improved sparrow search algorith... 针对变压器小概率故障事件导致数据集不均衡时,严重影响故障识别能力的问题,提出一种基于融合少数类过采样(synthetic minority over-sampling technique,SMOTE)算法均衡多分类数据的改进麻雀搜索算法(improved sparrow search algorithm,ISSA)优化极限学习机(extreme learning machine,ELM)的变压器故障诊断方法。首先,利用K-means算法对样本空间进行聚类,基于不平衡度选择聚类中心,利用SMOTE算法向聚类簇合成新样本以增强类内特征的聚合性;其次,针对边界区的样本,利用基于不同策略的Borderline-SMOTE算法向聚类簇合成新样本以增大类间特征的差异性;最后,利用基于Tent混沌映射的麻雀搜索算法(sparrow search algorithm,SSA)对极限学习机(extreme learning machine,ELM)模型中的输入权值和隐藏层偏置进行优化,以提高算法的全局搜索能力和模型的诊断精度。基于变压器油色谱数据的故障诊断实验结果表明:所提基于融合SMOTE均衡多分类数据的ISSA-ELM变压器故障诊断方法能够有效改善诊断模型对多数类的偏向问题,进一步提升模型的诊断精度、收敛速度和稳定性,适用于变压器非均衡数据集的多分类故障诊断。 展开更多
关键词 变压器 故障诊断 非均衡数据 合成少数类过采样 麻雀搜索算法 极限学习机
在线阅读 下载PDF
基于Lévy分布的不平衡数据过采样方法 被引量:1
11
作者 张扬帆 张海鹏 孙俊 《计算机工程与应用》 CSCD 北大核心 2019年第16期150-156,共7页
针对不平衡数据集上的分类问题,提出了基于Lévy分布的过采样方法,其核心思想是根据初始数据集的分布,利用Lévy分布构造新样本的密度分布。基于Lévy分布的特性,使得从边界样本合成的新样本密度最大,靠近多数类的样本合成... 针对不平衡数据集上的分类问题,提出了基于Lévy分布的过采样方法,其核心思想是根据初始数据集的分布,利用Lévy分布构造新样本的密度分布。基于Lévy分布的特性,使得从边界样本合成的新样本密度最大,靠近多数类的样本合成的新样本密度次之,靠近少数类的样本合成的新样本密度最小。因此,该算法可以增强分类边界,同时可以减小噪声生成。通过在多个数据集上的实验,表明所提算法可以有效改善不平衡数据的分类效果。 展开更多
关键词 不平衡分类 Lévy分布 过采样 人工合成过采样技术(SMOTE)
在线阅读 下载PDF
融合nmODE的术后肺部并发症预测模型
12
作者 熊立鹏 徐修远 +2 位作者 牛颢 陈楠 章毅 《智能系统学报》 北大核心 2025年第1期198-205,共8页
为了准确预测病人肺部手术后并发症的发生,提出了一种融合神经记忆常微分方程(neural memory ordinary differential equation,nmODE)的并发症预测模型。首先,利用极限梯度提升(extreme gradient boosting,XGBoost)树结构对数据进行编码... 为了准确预测病人肺部手术后并发症的发生,提出了一种融合神经记忆常微分方程(neural memory ordinary differential equation,nmODE)的并发症预测模型。首先,利用极限梯度提升(extreme gradient boosting,XGBoost)树结构对数据进行编码,并提取其特征重要性。然后,使用长短时记忆神经网络对数据的相关特征依赖性进行分析,并提取处理后的特征。最后,利用nmODE的记忆和学习能力,对提取的特征进行深入分析,并得出最终的预测结果。通过实验评估,在肺部术后并发症数据集中,证明了提出模型的效果优于现有模型,同时可以为预测肺部手术后并发症的发生提供更准确的结果。 展开更多
关键词 疾病预测 异构表格数据 神经记忆常微分方程 极限梯度提升 长短时记忆神经网络 合成少数过采样技术 类别不平衡 病人预后
在线阅读 下载PDF
构造性覆盖算法的SMOTE过采样方法 被引量:10
13
作者 严远亭 朱原玮 +2 位作者 吴增宝 张以文 张燕平 《计算机科学与探索》 CSCD 北大核心 2020年第6期975-984,共10页
如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数... 如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数类样本进行过采样仍然是一个值得研究的问题。此外,被孤立的少数样本在提高模型性能方面的潜在能力也没有得到足够的重视。针对上述问题,提出了基于构造性覆盖算法(CCA)的过采样技术CMOTE。CMOTE提供了两种不同策略下选择关键样本的方法:基于覆盖内样本个数的方法与基于覆盖密度的方法。在12个典型的不平衡数据集上验证CMOTE算法的性能。实验结果表明,CMOTE算法在总体上优于对比方法,并且通过强化关键样本对模型性能的影响增强了模型的泛化能力。 展开更多
关键词 不平衡数据 过采样技术 合成少数类过采样技术(SMOTE) 构造性覆盖算法(CCA)
在线阅读 下载PDF
一种基于SVM的非均衡数据集过采样方法 被引量:17
14
作者 张忠林 冯宜邦 赵中恺 《计算机工程与应用》 CSCD 北大核心 2020年第23期220-228,共9页
针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on... 针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on SVM)。SVMOM通过迭代合成样本。在迭代过程中,通过SVM得到分类超平面;根据每个少数类样本到分类超平面的距离赋予样本距离权重;同时考虑少数类样本的类内平衡,根据样本的分布计算样本的密度,赋予样本密度权重;依据样本的距离权重和密度权重计算每个少数类样本的选择权重,根据样本的选择权重选择样本运用SMOTE合成新样本,达到平衡数据集的目的。实验结果表明,提出的算法在一定程度上解决了分类结果偏向多数类的问题,验证了算法的有效性。 展开更多
关键词 不平衡数据 支持向量机(SVM) 过采样 样本权重 合成少数类过采样技术(SMOTE)
在线阅读 下载PDF
基于SMOTE策略的数据不完整时滑坡易发性评价
15
作者 孟金浩 孙奔博 +1 位作者 王娟 黄承芳 《人民黄河》 北大核心 2025年第7期50-58,共9页
滑坡易发性评价是地质灾害防治的重要基础,但滑坡样本数据常存在缺失或不完整的情况,导致机器学习模型难以进行准确可靠的易发性建模。基于随机森林(RF)和人工神经网络(ANN)模型,探讨了不同缺失比例(10%~50%)和区域性缺失条件下,滑坡易... 滑坡易发性评价是地质灾害防治的重要基础,但滑坡样本数据常存在缺失或不完整的情况,导致机器学习模型难以进行准确可靠的易发性建模。基于随机森林(RF)和人工神经网络(ANN)模型,探讨了不同缺失比例(10%~50%)和区域性缺失条件下,滑坡易发性评价结果的精度变化及易发性分区特征。通过合成少数过采样技术(SMOTE)扩充样本后,进行预测结果对比分析来验证样本扩充的有效性。结果表明:随着样本缺失比例的增大,模型精度逐渐下降,但下降幅度有限,RF与ANN模型在较高等级以上易发区的预测面积最大分别缩小7.0%与5.5%;区域性缺失条件下,精度差异较大,RF与ANN模型在较高等级以上易发区的预测面积最大分别缩小11.1%与11.2%。扩充样本后,精度随扩充比例的增大略有下降。当扩充50%样本时,RF与ANN模型在较高易发区预测面积分别缩小14.0%与19.5%。基于SMOTE策略生成的滑坡样本可用于滑坡数据缺失地区易发性评价建模。 展开更多
关键词 滑坡易发性 不完整滑坡数据 随机森林 神经网络 合成少数过采样 黄河上游
在线阅读 下载PDF
基于密度峰值聚类和局部稀疏度的过采样算法 被引量:2
16
作者 吕佳 郭铭 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第3期483-494,共12页
现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部... 现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部稀疏度的过采样算法.首先利用改进的密度峰值聚类算法对全部样本自适应地划分出多个簇,根据簇内样本的不平衡比过滤掉不平衡比过高的簇,然后在筛选出的簇中根据少数类样本的分布情况对各簇的过采样个数进行分配,最后通过样本密度计算出各簇少数类样本的局部稀疏度,从中选择出稀疏度较高的少数类样本参与到最终的合成少数过采样.将提出的过采样算法与八种常用的过采样算法分别与三种基分类器相结合,在18个不平衡数据集上进行对比实验.实验结果表明,提出的算法总体上表现更优,能得到更好的分类性能. 展开更多
关键词 不平衡数据 密度峰值聚类 过采样 局部稀疏度 合成少数过采样
在线阅读 下载PDF
面向不平衡数据的特征子空间增强的异质集成学习
17
作者 陈丽芳 白云 +1 位作者 施永辉 代琪 《计算机工程与科学》 北大核心 2025年第5期940-950,共11页
对于不平衡数据,传统分类器趋向于保证多数类的准确率,而牺牲少数类的准确率,造成算法的整体性能下降。针对这一问题,提出一种面向不平衡数据的特征子空间增强的异质集成学习算法HEL-FSA。首先利用XGBoost算法学习特征的重要性,并选择... 对于不平衡数据,传统分类器趋向于保证多数类的准确率,而牺牲少数类的准确率,造成算法的整体性能下降。针对这一问题,提出一种面向不平衡数据的特征子空间增强的异质集成学习算法HEL-FSA。首先利用XGBoost算法学习特征的重要性,并选择重要的特征,形成数据集的特征子空间;其次使用SMOTE算法在特征子空间中生成新样本,获得更加平衡的训练数据;最后,采用逻辑回归、决策树、多层感知器、支持向量机和XGBoost这5种基模型,并使用if_any算法融合异质基模型。在9个不平衡数据集上的实验结果验证了该算法的可行性,同时,将提出的算法用于宫颈癌风险预测,增强了其对宫颈癌风险的理解和预测能力。 展开更多
关键词 不平衡数据 特征选择 集成学习 合成少数类过采样技术
在线阅读 下载PDF
针对不平衡数据的过采样和随机森林改进算法 被引量:39
18
作者 张家伟 郭林明 杨晓梅 《计算机工程与应用》 CSCD 北大核心 2020年第11期39-45,共7页
针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampl... 针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)降低数据不平衡度,每个少数类样本根据其相对于剩余样本的欧氏距离分配权重,使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果,并赋予每棵树相应的权重,使分类能力更好的树在投票阶段有更大的投票权,提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明,与未改进算法相比,改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。 展开更多
关键词 数据不平衡 合成少数类过采样技术(SMOTE) Kappa系数 随机森林
在线阅读 下载PDF
考虑过采样器与分类器参数优化的变压器故障诊断策略 被引量:19
19
作者 栗磊 王廷涛 +3 位作者 赫嘉楠 牛健 梁亚波 苗世洪 《电力自动化设备》 EI CSCD 北大核心 2023年第1期209-217,共9页
变压器故障样本的不平衡性使得故障诊断分类准确率低,且容易弱化少数类故障样本的分类效果。对此,采用过采样方法实现故障样本的均衡化,并提出一种考虑过采样器与分类器参数优化的变压器故障诊断策略。首先,搭建变压器故障诊断模型的整... 变压器故障样本的不平衡性使得故障诊断分类准确率低,且容易弱化少数类故障样本的分类效果。对此,采用过采样方法实现故障样本的均衡化,并提出一种考虑过采样器与分类器参数优化的变压器故障诊断策略。首先,搭建变压器故障诊断模型的整体结构,阐述故障诊断的实现过程。在此基础上,提出诊断模型中过采样器、分类器、参数优化器3种主要环节的算法实现:针对过采样器,提出一种基于近邻分布特性的改进合成少数过采样算法实现故障样本的均衡化;针对分类器,采用层次式有向无环图支持向量机算法实现故障样本的多标签分类;针对参数优化器,提出一种双层参数优化方法,上层采用层次搜索算法对过采样倍率寻优,下层采用改进哈里斯鹰算法对支持向量机参数寻优。最后,对所提策略进行算例分析,结果表明,所提策略能够合成质量更高的少数类故障样本,实现故障样本的准确分类。 展开更多
关键词 电力变压器 故障诊断 不平衡样本 过采样 基于近邻分布特性的改进合成少数过采样 层次搜索-改进哈里斯鹰算法
在线阅读 下载PDF
基于少数类过采样的倾向得分匹配插补法 被引量:4
20
作者 杨贵军 杜飞 孙玲莉 《统计与信息论坛》 CSSCI 北大核心 2021年第1期3-12,共10页
无回答在大数据应用中频繁发生。通常,实际数据的无回答率较低,在这样的情况下,采用倾向得分模型对无回答单元与回答单元进行匹配,易导致倾向得分匹配插补法的插补效果显著下降。为此,将合成少数类过采样算法的思想融入到倾向得分匹配... 无回答在大数据应用中频繁发生。通常,实际数据的无回答率较低,在这样的情况下,采用倾向得分模型对无回答单元与回答单元进行匹配,易导致倾向得分匹配插补法的插补效果显著下降。为此,将合成少数类过采样算法的思想融入到倾向得分匹配插补法中,提出基于少数类过采样的倾向得分匹配插补法。利用统计模拟与实证研究,在不同无回答率、插补重数和误差分布情形下,演示新插补法的统计性质和应用效果。统计模拟显示,新插补法具有明显高于倾向得分匹配插补法的精度,统计性质受无回答率、插补重数和误差分布的影响小。实证结果显示,新插补法在实际数据中具有较好的应用性。基于少数类过采样的倾向得分匹配插补法提供了处理无回答问题的新思路,并具有较好的扩展性。 展开更多
关键词 倾向得分匹配插补法 合成少数类过采样算法 无回答率 无回答机制
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部