期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
改进的邻近加权合成过采样技术 被引量:1
1
作者 邢胜 王晓兰 +3 位作者 沈家星 朱美玲 曹永青 何玉林 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2024年第6期748-755,共8页
针对邻近加权合成过采样技术(proximity weighted synthetic oversampling technique,ProWSyn)在合成样例时未删除噪声样例,且当平滑因子在[0,1]区间取值时,权重比例难以覆盖整个搜索空间的缺陷,提出一种改进的邻近加权合成过采样技术(i... 针对邻近加权合成过采样技术(proximity weighted synthetic oversampling technique,ProWSyn)在合成样例时未删除噪声样例,且当平滑因子在[0,1]区间取值时,权重比例难以覆盖整个搜索空间的缺陷,提出一种改进的邻近加权合成过采样技术(improved proximity weighted synthetic oversampling technique,IProWSyn).改变权重的计算策略,引入底数为(0,1]的普通指数函数,通过动态改变底数令权重覆盖更大范围的搜索空间,进而找到更优的权重.将IProWSyn、ASN-SMOTE和ProWSyn应用在非平衡数据集ada、ecoli1、glass1、haberman、Pima和yeast1上,再使用k近邻(k-nearest neighbors,kNN)分类器和神经网络分类器检验方法的有效性.实验结果表明,在多数数据集上IProWSyn的F1、几何平均值(geometric mean,G-mean)和曲线下面积(area under curve,AUC)指标性能都高于其他过采样方法.IProWSyn过采样技术在这些数据集的综合分类效果更好,有更好的泛化表现. 展开更多
关键词 人工智能 非平衡数据 邻近加权合成过采样技术 过采样方法 K近邻分类器 神经网络
在线阅读 下载PDF
基于过采样技术和随机森林的不平衡微阵列数据分类方法研究 被引量:9
2
作者 于化龙 高尚 +1 位作者 赵靖 秦斌 《计算机科学》 CSCD 北大核心 2012年第5期190-194,共5页
近年来,应用DNA微阵列技术对疾病,尤其是癌症进行诊断,已逐渐成为生物信息学领域的研究热点之一。对比其它的数据载体,微阵列数据通常具有一些独有的特点。针对微阵列数据样本分布不平衡这一特点,提出了一种基于概率分布的过采样技术,... 近年来,应用DNA微阵列技术对疾病,尤其是癌症进行诊断,已逐渐成为生物信息学领域的研究热点之一。对比其它的数据载体,微阵列数据通常具有一些独有的特点。针对微阵列数据样本分布不平衡这一特点,提出了一种基于概率分布的过采样技术,通过该技术可以为少数类建立一些合理的伪样本,从而使各类的样本数达到均衡,然后使用随机森林分类器对其进行分类。该方法的有效性和可行性已经在两个标准的微阵列数据集上得到了验证。实验结果显示,与传统的方法相比,该方法可以获得更好的分类性能。 展开更多
关键词 微阵列数据 样本分布不平衡 过采样技术 概率分布 随机森林
在线阅读 下载PDF
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:20
3
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 非平衡数据集 分类 少数类样本合成过采样技术 采样倍率 遗传算法
在线阅读 下载PDF
基于带多数类权重的少数类过采样技术和随机森林的信用评估方法 被引量:13
4
作者 田臣 周丽娟 《计算机应用》 CSCD 北大核心 2019年第6期1707-1712,共6页
针对信用评估中最为常见的不均衡数据集问题以及单个分类器在不平衡数据上分类效果有限的问题,提出了一种基于带多数类权重的少数类过采样技术和随机森林(MWMOTE-RF)结合的信用评估方法。首先,在数据预处理过程中利用MWMOTE技术增加少... 针对信用评估中最为常见的不均衡数据集问题以及单个分类器在不平衡数据上分类效果有限的问题,提出了一种基于带多数类权重的少数类过采样技术和随机森林(MWMOTE-RF)结合的信用评估方法。首先,在数据预处理过程中利用MWMOTE技术增加少数类别样本的样本数;然后,在预处理后的较平衡的新数据集上利用监督式机器学习算法中的随机森林算法对数据进行分类预测。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在UCI机器学习数据库中的德国信用卡数据集和某公司的汽车违约贷款数据集上的仿真实验表明,在相同数据集上,MWMOTE-RF方法与随机森林方法和朴素贝叶斯方法相比,AUC值分别提高了18%和20%。与此同时,随机森林方法分别与合成少数类过采样技术(SMOTE)方法和自适应综合过采样(ADASYN)方法结合,MWMOTE-RF方法与它们相比,AUC值分别提高了1.47%和2.34%,从而验证了所提方法的有效性及其对分类器性能的优化。 展开更多
关键词 不平衡数据集 机器学习 带多数类权重的少数类过采样技术 随机森林 信用评估
在线阅读 下载PDF
通过分区变步长和过采样技术提高MPPT算法的控制性能
5
作者 王俊平 曾国宏 《电源学报》 CSCD 2014年第6期42-47,72,共7页
扰动观察法由于具有控制成本低且易于实现的特点,因此被普遍应用于实际光伏系统MPPT控制。光照条件迅速变化时,扰动观察法可能会导致误判,增大功率损失,降低算法的跟踪速度,为此提出了一种基于过采样技术的分区变步长的MPPT算法,过采样... 扰动观察法由于具有控制成本低且易于实现的特点,因此被普遍应用于实际光伏系统MPPT控制。光照条件迅速变化时,扰动观察法可能会导致误判,增大功率损失,降低算法的跟踪速度,为此提出了一种基于过采样技术的分区变步长的MPPT算法,过采样技术是通过增加一次电压、电流采样,利用平滑算法来计算下一光照条件的功率,以此解决光照突变时出现的的误判问题;分区变步长是基于曲线分区,根据功率变化率的大小,将整个电压区域分为3个部分,不同的部分采用不同的占空比进行扰动,并且将二级步长与变步长相结合,以解决扰动观察法存在的跟踪精度和速度的矛盾问题,仿真结果验证了算法的有效性。 展开更多
关键词 扰动观察法 误判 过采样技术 曲线分区 变步长
在线阅读 下载PDF
基于迁移学习和过采样技术的跨项目克隆代码一致性维护需求预测
6
作者 欧阳鹏 陆璐 +1 位作者 张凡龙 邱少健 《计算机科学》 CSCD 北大核心 2020年第9期10-16,共7页
近年来,随着软件需求的不断增加,开发人员通过复用已有的代码向项目中引入了大量的克隆代码。随着软件版本的迭代和更新,克隆代码会发生变化,而克隆代码变化会导致额外的维护代价,并逐渐成为软件维护的负担。研究人员尝试利用机器学习... 近年来,随着软件需求的不断增加,开发人员通过复用已有的代码向项目中引入了大量的克隆代码。随着软件版本的迭代和更新,克隆代码会发生变化,而克隆代码变化会导致额外的维护代价,并逐渐成为软件维护的负担。研究人员尝试利用机器学习方法开展克隆代码一致性维护需求预测研究,通过预测克隆代码的变化是否会导致额外的维护代价,来帮助软件质量保障团队更有效地分配维护资源,从而提高工作效率并降低运维成本。然而,在软件开发的初期阶段,软件项目往往没有经过充分的演化,缺少历史数据用于构建有效的预测模型,因此跨项目克隆代码一致性维护需求预测方法被提出。文中以减少跨项目数据分布差异为切入点,提出了基于迁移学习和过采样技术的跨项目克隆代码一致性维护需求预测方法CPCCP+,旨在将测试集与数据集映射到核空间中,通过迁移主成分分析方法减小跨项目数据的分布差异,并对数据集的类不平衡问题进行处理,从而提高跨项目预测模型的性能。在实验数据集方面,选取了7个开源数据集,合计形成42组跨项目克隆代码一致性维护需求预测任务。将提出的方法与使用基分类器的方法进行比较,评估指标包含Precision,Recall和F-Measure。实验结果表明,CPCCP+能更有效地进行跨项目克隆代码一致性维护需求的预测。 展开更多
关键词 克隆代码 跨项目预测 一致性变化 迁移学习 过采样技术
在线阅读 下载PDF
基于最大安全近邻与局部密度的自适应过采样方法
7
作者 赵小强 何嘉琦 《电子与信息学报》 北大核心 2025年第4期1140-1149,共10页
针对不平衡数据过采样的过程中如何合成有效新样本的问题,该文提出一种基于最大安全近邻与局部密度的自适应过采样方法。该方法利用最大安全近邻和局部密度将少数类样本划分为安全样本、边界样本和离群点;在此基础上,通过组合加权设置... 针对不平衡数据过采样的过程中如何合成有效新样本的问题,该文提出一种基于最大安全近邻与局部密度的自适应过采样方法。该方法利用最大安全近邻和局部密度将少数类样本划分为安全样本、边界样本和离群点;在此基础上,通过组合加权设置样本的采样概率,使得靠近边界的“次边界样本”更容易被选择为根样本,并且自适应地调整K近邻的参数K,选择最优合成区域;针对离群点,采用超球面内的随机过采样策略,进一步增加少数类样本的多样性。最后,将所提方法与合成少数类过采样技术(SMOTE)、自适应合成采样方法(ADASYN)等6种过采样方法在13个公开数据集上进行实验分析,结果表明,所提方法相对于对比方法在F1分数(F1-score)指标上分别平均提高了6.9%,8.8%,8.2%,5.8%,7.2%和12.5%,在几何平均值(G-mean)指标上分别平均提高了3.0%,2.5%,3.0%,3.2%,5.3%和8.6%,证明所提方法可以有效解决不平衡数据分类问题。 展开更多
关键词 不平衡数据 过采样技术 最大安全近邻 次边界样本
在线阅读 下载PDF
面向不平衡图像数据的对抗自编码器过采样算法 被引量:2
8
作者 职为梅 常智 +1 位作者 卢俊华 耿正乾 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第11期4208-4218,共11页
许多适用于低维数据的传统不平衡学习算法在图像数据上的效果并不理想。基于生成对抗网络(GAN)的过采样算法虽然可以生成高质量图像,但在类不平衡情况下容易产生模式崩溃问题。基于自编码器(AE)的过采样算法容易训练,但生成的图像质量... 许多适用于低维数据的传统不平衡学习算法在图像数据上的效果并不理想。基于生成对抗网络(GAN)的过采样算法虽然可以生成高质量图像,但在类不平衡情况下容易产生模式崩溃问题。基于自编码器(AE)的过采样算法容易训练,但生成的图像质量较低。为进一步提高过采样算法在不平衡图像中生成样本的质量和训练的稳定性,该文基于生成对抗网络和自编码器的思想提出一种融合自编码器和生成对抗网络的过采样算法(BAEGAN)。首先在自编码器中引入一个条件嵌入层,使用预训练的条件自编码器初始化GAN以稳定模型训练;然后改进判别器的输出结构,引入一种融合焦点损失和梯度惩罚的损失函数以减轻类不平衡的影响;最后从潜在向量的分布映射中使用合成少数类过采样技术(SMOTE)来生成高质量的图像。在4个图像数据集上的实验结果表明该算法在生成图像质量和过采样后的分类性能上优于具有辅助分类器的条件生成对抗网络(ACGAN)、平衡生成对抗网络(BAGAN)等过采样算法,能有效解决图像数据中的类不平衡问题。 展开更多
关键词 不平衡图像数据 过采样 生成对抗网络 对抗自编码器 合成少数类过采样技术
在线阅读 下载PDF
构造性覆盖算法的SMOTE过采样方法 被引量:11
9
作者 严远亭 朱原玮 +2 位作者 吴增宝 张以文 张燕平 《计算机科学与探索》 CSCD 北大核心 2020年第6期975-984,共10页
如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数... 如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数类样本进行过采样仍然是一个值得研究的问题。此外,被孤立的少数样本在提高模型性能方面的潜在能力也没有得到足够的重视。针对上述问题,提出了基于构造性覆盖算法(CCA)的过采样技术CMOTE。CMOTE提供了两种不同策略下选择关键样本的方法:基于覆盖内样本个数的方法与基于覆盖密度的方法。在12个典型的不平衡数据集上验证CMOTE算法的性能。实验结果表明,CMOTE算法在总体上优于对比方法,并且通过强化关键样本对模型性能的影响增强了模型的泛化能力。 展开更多
关键词 不平衡数据 过采样技术 合成少数类过采样技术(SMOTE) 构造性覆盖算法(CCA)
在线阅读 下载PDF
样本不平衡条件下煤矿突水水源识别——以谢桥煤矿为例
10
作者 王彦彬 闫晓杉 《安全与环境学报》 北大核心 2025年第7期2553-2561,共9页
为了有效识别煤矿突水水源,以保障煤矿安全生产,使用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)补充少数类样本,继而采用支持向量机(Support Vector Machine, SVM)模型对突水水源进行识别。试验选取96条... 为了有效识别煤矿突水水源,以保障煤矿安全生产,使用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)补充少数类样本,继而采用支持向量机(Support Vector Machine, SVM)模型对突水水源进行识别。试验选取96条谢桥煤矿水化学数据进行分析,首先对样本数据进行标准化处理和主成分分析(Principal Component Analysis, PCA),将数据集划分为训练集和测试集,对训练集中少数类样本采用SMOTE法生成新的样本,然后采用改进混沌哈里斯鹰优化(Chaos Harris Hawks Optimization, CHHO)算法结合十折交叉验证优化支持向量机惩罚因子C和径向基函数(Radial Basis Function, RBF)核的参数γ,根据优化结果建立突水水源识别模型,对测试集中突水水源进行识别。将该方法与朴素贝叶斯、随机森林所得结果进行比较,结果显示,采用本方法对测试集识别结果准确性优于其他两种方法,表明该方法在突水水源识别上具有良好的实用性和有效性。 展开更多
关键词 安全工程 突水水源识别 主成分分析 合成少数类过采样技术 混沌哈里斯鹰优化算法 支持向量机
在线阅读 下载PDF
红外光电成像系统MTF测试技术分析 被引量:12
11
作者 卞江 马冬梅 +1 位作者 孙鸽 邵晶 《应用光学》 CAS CSCD 北大核心 2013年第5期748-753,共6页
调制传递函数是评价红外光电成像系统整机成像质量的重要指标之一。通常MTF的测试方法有狭缝法和刀口法等。详述了倾斜目标靶(斜狭缝和斜刀口)测试MTF的测试原理,并且对该两种方法进行了比对实验。提出一种改进刀口法,将多行数据刃边对... 调制传递函数是评价红外光电成像系统整机成像质量的重要指标之一。通常MTF的测试方法有狭缝法和刀口法等。详述了倾斜目标靶(斜狭缝和斜刀口)测试MTF的测试原理,并且对该两种方法进行了比对实验。提出一种改进刀口法,将多行数据刃边对齐并排列成一行数据作为刀口扩散函数,能增加采样点数和采样率并提高测试分辨率,进而得到刀口图像,对每行数据先微分得到各行LSF(线扩散函数),再对LSF多行数据构成的新图像按照斜缝法处理过程计算MTF。实验验证表明,该方法数据能够有效地降低在MTF测试过程中的噪声影响,与斜缝法MTF测试结果差值最大不超过7.5%。 展开更多
关键词 光电成像系统评价 调制传递函数 过采样技术
在线阅读 下载PDF
融合nmODE的术后肺部并发症预测模型
12
作者 熊立鹏 徐修远 +2 位作者 牛颢 陈楠 章毅 《智能系统学报》 北大核心 2025年第1期198-205,共8页
为了准确预测病人肺部手术后并发症的发生,提出了一种融合神经记忆常微分方程(neural memory ordinary differential equation,nmODE)的并发症预测模型。首先,利用极限梯度提升(extreme gradient boosting,XGBoost)树结构对数据进行编码... 为了准确预测病人肺部手术后并发症的发生,提出了一种融合神经记忆常微分方程(neural memory ordinary differential equation,nmODE)的并发症预测模型。首先,利用极限梯度提升(extreme gradient boosting,XGBoost)树结构对数据进行编码,并提取其特征重要性。然后,使用长短时记忆神经网络对数据的相关特征依赖性进行分析,并提取处理后的特征。最后,利用nmODE的记忆和学习能力,对提取的特征进行深入分析,并得出最终的预测结果。通过实验评估,在肺部术后并发症数据集中,证明了提出模型的效果优于现有模型,同时可以为预测肺部手术后并发症的发生提供更准确的结果。 展开更多
关键词 疾病预测 异构表格数据 神经记忆常微分方程 极限梯度提升 长短时记忆神经网络 合成少数过采样技术 类别不平衡 病人预后
在线阅读 下载PDF
非平衡技术在高速网络入侵检测中的应用 被引量:3
13
作者 赵月爱 陈俊杰 穆晓芳 《计算机应用》 CSCD 北大核心 2009年第7期1806-1808,1812,共4页
针对现有的高速网络入侵检测系统丢包率高、检测速度慢以及检测算法对不同类型攻击检测的非平衡性等问题,提出了采用两阶段的负载均衡策略的检测模型。在线检测阶段对网络数据包按协议类型进行分流的检测,离线建模阶段对不同协议类型的... 针对现有的高速网络入侵检测系统丢包率高、检测速度慢以及检测算法对不同类型攻击检测的非平衡性等问题,提出了采用两阶段的负载均衡策略的检测模型。在线检测阶段对网络数据包按协议类型进行分流的检测,离线建模阶段对不同协议类型的数据进行学习建模,供在线部分检测。在讨论非平衡数据处理的各种采样技术基础上,采用改进后的过抽样少数样本合成过采样技术(SMOTE)对网络数据进行预处理,采用AdaBoost、随机森林算法等进行分类。另外对特征选取等方面进行了实验,结果表明SMOTE过抽样可提高各少数类的检测,随机森林算法分类效果好而且建模所用的时间稳定。 展开更多
关键词 高速网络 入侵检测 非平衡数据 少数样本合成过采样技术 集成学习 ADABOOST算法 随机森林算法
在线阅读 下载PDF
概率密度函数的自适应过采样算法研究 被引量:5
14
作者 张忠林 傅添翼 闫光辉 《小型微型计算机系统》 CSCD 北大核心 2022年第3期514-519,共6页
针对传统的过采样算法中决策边界模糊以及噪声样本分布问题,本文提出一种基于概率密度函数与自适应过采样算法.首先将少数类样本分为安全样本、边界样本、噪声样本;然后采用瑞利分布(Rayleigh Distribution),对安全样本及边界样本进行... 针对传统的过采样算法中决策边界模糊以及噪声样本分布问题,本文提出一种基于概率密度函数与自适应过采样算法.首先将少数类样本分为安全样本、边界样本、噪声样本;然后采用瑞利分布(Rayleigh Distribution),对安全样本及边界样本进行采样操作,利用其概率密度函数对新样本的分布密度进行构造,以此达到平衡数据集的目的;最后使用随机森林作为分类器,并进行网格搜索(Gridsearch)进行参数寻优.实验结果将所提出的方法与4种代表性算法在10个不均衡数据集上进行了比较,验证了该算法的有效性. 展开更多
关键词 不均衡数据 过采样技术 瑞利分布 随机森林 分类
在线阅读 下载PDF
一种基于SVM的非均衡数据集过采样方法 被引量:17
15
作者 张忠林 冯宜邦 赵中恺 《计算机工程与应用》 CSCD 北大核心 2020年第23期220-228,共9页
针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on... 针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on SVM)。SVMOM通过迭代合成样本。在迭代过程中,通过SVM得到分类超平面;根据每个少数类样本到分类超平面的距离赋予样本距离权重;同时考虑少数类样本的类内平衡,根据样本的分布计算样本的密度,赋予样本密度权重;依据样本的距离权重和密度权重计算每个少数类样本的选择权重,根据样本的选择权重选择样本运用SMOTE合成新样本,达到平衡数据集的目的。实验结果表明,提出的算法在一定程度上解决了分类结果偏向多数类的问题,验证了算法的有效性。 展开更多
关键词 不平衡数据 支持向量机(SVM) 过采样 样本权重 合成少数类过采样技术(SMOTE)
在线阅读 下载PDF
基于过采样的归一化累积量盲均衡算法
16
作者 张晓琴 胡永生 张立毅 《计算机应用》 CSCD 北大核心 2013年第9期2463-2466,共4页
传统的波特间隔均衡器只能补偿接收信号混叠的频率响应特性,并不能补偿信道畸变。针对这一问题提出一种基于过采样的归一化累积量算法,先对接收信号进行过采样,再利用变步长自适应调整均衡器的抽头系数,不仅能避免算法陷入局部最优,而... 传统的波特间隔均衡器只能补偿接收信号混叠的频率响应特性,并不能补偿信道畸变。针对这一问题提出一种基于过采样的归一化累积量算法,先对接收信号进行过采样,再利用变步长自适应调整均衡器的抽头系数,不仅能避免算法陷入局部最优,而且还能有效补偿信道畸变。仿真表明:引入过采样和变步长的盲均衡算法,有效地提高了收敛速度,降低了稳态剩余误差。 展开更多
关键词 盲均衡 过采样技术 归一化 累积量
在线阅读 下载PDF
面向不平衡数据的特征子空间增强的异质集成学习
17
作者 陈丽芳 白云 +1 位作者 施永辉 代琪 《计算机工程与科学》 北大核心 2025年第5期940-950,共11页
对于不平衡数据,传统分类器趋向于保证多数类的准确率,而牺牲少数类的准确率,造成算法的整体性能下降。针对这一问题,提出一种面向不平衡数据的特征子空间增强的异质集成学习算法HEL-FSA。首先利用XGBoost算法学习特征的重要性,并选择... 对于不平衡数据,传统分类器趋向于保证多数类的准确率,而牺牲少数类的准确率,造成算法的整体性能下降。针对这一问题,提出一种面向不平衡数据的特征子空间增强的异质集成学习算法HEL-FSA。首先利用XGBoost算法学习特征的重要性,并选择重要的特征,形成数据集的特征子空间;其次使用SMOTE算法在特征子空间中生成新样本,获得更加平衡的训练数据;最后,采用逻辑回归、决策树、多层感知器、支持向量机和XGBoost这5种基模型,并使用if_any算法融合异质基模型。在9个不平衡数据集上的实验结果验证了该算法的可行性,同时,将提出的算法用于宫颈癌风险预测,增强了其对宫颈癌风险的理解和预测能力。 展开更多
关键词 不平衡数据 特征选择 集成学习 合成少数类过采样技术
在线阅读 下载PDF
基于HEOA-XGBoost组合模型的边坡稳定性预测
18
作者 祁云 白晨浩 +3 位作者 秦凯 段宏飞 李绪萍 汪伟 《中国安全科学学报》 北大核心 2025年第9期137-144,共8页
为预防边坡失稳安全事故发生,针对边坡失稳的不确定性及影响因素的复杂性等问题,提出一种基于人类进化优化算法(HEOA)优化极端梯度提升(XGBoost)的组合模型,以预测边坡稳定性。首先分析影响边坡失稳的主控因素,选取边坡岩体的6项影响因... 为预防边坡失稳安全事故发生,针对边坡失稳的不确定性及影响因素的复杂性等问题,提出一种基于人类进化优化算法(HEOA)优化极端梯度提升(XGBoost)的组合模型,以预测边坡稳定性。首先分析影响边坡失稳的主控因素,选取边坡岩体的6项影响因素建立边坡稳定性预测指标体系;其次利用极差标准化统一样本量纲,并采用合成少数类过采样技术(SMOTE)平衡样本等级分布;然后通过HEOA优化XGBoost模型的最大深度、学习率、子样本比例、列样本比例和最小损失;最后利用准确率、精确率、召回率、F_(1)分数和科恩卡帕系数综合评价所建模型的预测结果,并将该模型应用于具体工程实例。结果表明:经HEOA优化后XGBoost模型的最大深度、学习率、子样本比例、列样本比例和最小损失分别为6、0.5838、0.4615、0.5846和0.0244时效果凸显;HEOA-XGBoost组合模型预测边坡稳定性状态相比于其他智能算法优化的XGBoost模型和单一XGBoost模型,其各评价指标均有所提升,表明该模型预测边坡稳定性状态具有较高的精准度和泛化性。 展开更多
关键词 边坡稳定性 人类进化优化算法(HEOA) 极端梯度提升(XGBoost) 极差标准化 合成少数类过采样技术(SMOTE)
在线阅读 下载PDF
基于混合采样的非平衡数据分类算法 被引量:20
19
作者 吴艺凡 梁吉业 王俊红 《计算机科学与探索》 CSCD 北大核心 2019年第2期342-349,共8页
过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector mac... 过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector machine),旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。该算法首先利用SVM算法得到分类超平面。然后迭代进行混合采样,主要包括:(1)删除离分类超平面较远的一些多数类样本;(2)对靠近真实类边界的少数类样本用SMOTE(synthetic minority oversampling technique)过采样,使分类超平面向着真实类边界方向偏移。实验结果表明相比其他相关算法,该算法的F-value值和G-mean值均有较大提高。 展开更多
关键词 非平衡 支持向量机(SVM) 少数类样本过采样技术(SMOTE) 分类超平面 混合采样
在线阅读 下载PDF
针对不平衡数据的过采样和随机森林改进算法 被引量:39
20
作者 张家伟 郭林明 杨晓梅 《计算机工程与应用》 CSCD 北大核心 2020年第11期39-45,共7页
针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampl... 针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)降低数据不平衡度,每个少数类样本根据其相对于剩余样本的欧氏距离分配权重,使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果,并赋予每棵树相应的权重,使分类能力更好的树在投票阶段有更大的投票权,提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明,与未改进算法相比,改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。 展开更多
关键词 数据不平衡 合成少数类过采样技术(SMOTE) Kappa系数 随机森林
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部