期刊文献+
共找到434篇文章
< 1 2 22 >
每页显示 20 50 100
基于边界信息的自适应过采样算法
1
作者 杜睿山 靳明洋 +1 位作者 孟令东 宋健辉 《郑州大学学报(理学版)》 CAS 北大核心 2025年第1期23-30,共8页
针对人工少数类过采样(synthetic minority over-sampling technique,SMOTE)算法存在样本合成区域狭小,容易将少数类泛化到多数类及引入噪声的问题,提出一种基于噪声过滤、边界点自适应采样的过采样算法。首先,该算法使用K近邻算法进行... 针对人工少数类过采样(synthetic minority over-sampling technique,SMOTE)算法存在样本合成区域狭小,容易将少数类泛化到多数类及引入噪声的问题,提出一种基于噪声过滤、边界点自适应采样的过采样算法。首先,该算法使用K近邻算法进行噪声过滤,接着确定边界点并在边界点中寻找合适的点作为根样本点,并以其K近邻点中与其同类且欧氏距离最远的点作为候选样本点。然后,根据根样本点所携带的边界信息确定该点所合成的样本数量,并根据根样本点和候选样本点生成一个N维球体作为样本的合成区间。最后,对合成样本进行判断以确定其是否满足条件。通过实验证明,该算法生成的样本质量要优于SMOTE及其常见变种算法。 展开更多
关键词 SMOTE KNN 过采样算法 数据不均衡 ISMOTE
在线阅读 下载PDF
基于最大安全近邻与局部密度的自适应过采样方法
2
作者 赵小强 何嘉琦 《电子与信息学报》 北大核心 2025年第4期1140-1149,共10页
针对不平衡数据过采样的过程中如何合成有效新样本的问题,该文提出一种基于最大安全近邻与局部密度的自适应过采样方法。该方法利用最大安全近邻和局部密度将少数类样本划分为安全样本、边界样本和离群点;在此基础上,通过组合加权设置... 针对不平衡数据过采样的过程中如何合成有效新样本的问题,该文提出一种基于最大安全近邻与局部密度的自适应过采样方法。该方法利用最大安全近邻和局部密度将少数类样本划分为安全样本、边界样本和离群点;在此基础上,通过组合加权设置样本的采样概率,使得靠近边界的“次边界样本”更容易被选择为根样本,并且自适应地调整K近邻的参数K,选择最优合成区域;针对离群点,采用超球面内的随机过采样策略,进一步增加少数类样本的多样性。最后,将所提方法与合成少数类过采样技术(SMOTE)、自适应合成采样方法(ADASYN)等6种过采样方法在13个公开数据集上进行实验分析,结果表明,所提方法相对于对比方法在F1分数(F1-score)指标上分别平均提高了6.9%,8.8%,8.2%,5.8%,7.2%和12.5%,在几何平均值(G-mean)指标上分别平均提高了3.0%,2.5%,3.0%,3.2%,5.3%和8.6%,证明所提方法可以有效解决不平衡数据分类问题。 展开更多
关键词 不平衡数据 过采样技术 最大安全近邻 次边界样本
在线阅读 下载PDF
一种基于KNN和随机仿射的边界样本合成过采样方法 被引量:1
3
作者 冷强奎 孙薛梓 孟祥福 《智能系统学报》 北大核心 2025年第2期329-343,共15页
过采样是处理不平衡数据分类问题的有效策略。本文提出了一种基于K近邻(K-nearest neighbor,KNN)和随机仿射的边界样本合成过采样方法,用于改进现有过采样方法的种子样本选择阶段和合成样本生成阶段。首先,引入三近邻理论,建立样本间有... 过采样是处理不平衡数据分类问题的有效策略。本文提出了一种基于K近邻(K-nearest neighbor,KNN)和随机仿射的边界样本合成过采样方法,用于改进现有过采样方法的种子样本选择阶段和合成样本生成阶段。首先,引入三近邻理论,建立样本间有效的内在近邻关系,并去除数据集中的噪声,以降低后续分类器的过拟合风险。其次,准确识别那些难以学习且包含丰富信息的少数类边界样本,并将其用作采样种子。最后,利用局部随机仿射代替线性插值机制,在原始数据的近似流形中均匀地生成合成样本。相比于传统过采样方法,本文方法能更充分挖掘数据集中的重要边界信息,从而为分类器提供更多辅助以改善其分类性能。在18个基准数据集上,与8种经典采样方法(结合4种不同分类器)进行了大量对比实验。结果表明,本文所提方法获得了更高的F1分数和几何均值(G-mean),可以更为有效地解决不平衡数据分类问题。此外,统计分析也证实该方法具有更高的弗里德曼排名(Friedman ranking)。 展开更多
关键词 K近邻 线性插值 边界样本 自然分布 过采样 三近邻理论 随机仿射变换 不平衡分类
在线阅读 下载PDF
基于超球体密度聚类的自适应不均衡数据过采样算法
4
作者 陶新民 李俊轩 +3 位作者 郭心悦 史丽航 徐安南 张艳萍 《电子与信息学报》 北大核心 2025年第7期2347-2360,共14页
不平衡数据分类是机器学习中的常见问题,过采样是解决方案之一。但现有过采样方法在处理复杂不均衡数据集时容易引入噪声样本导致类重叠,且无法有效解决低密度、小析取等子概念引起的类内不平衡问题。为此,该文提出一种基于超球体密度... 不平衡数据分类是机器学习中的常见问题,过采样是解决方案之一。但现有过采样方法在处理复杂不均衡数据集时容易引入噪声样本导致类重叠,且无法有效解决低密度、小析取等子概念引起的类内不平衡问题。为此,该文提出一种基于超球体密度聚类的自适应过采样算法(DCHO),该算法通过计算少数类样本密度动态确定聚类中心,构建超球体并将超球体内少数类样本归入相应簇,再按照不均衡比调整超球体半径。同时,根据超球体内样本局部密度和半径大小自适应分配过采样权重,进而解决类内不平衡问题。为防止类重叠,过采样过程均在每个超球体内部进行。此外,为进一步增强少数类边界以及探索未知区域,该文还构建一种新的边界偏好随机过采样策略。实验结果表明,所提算法在避免类重叠的同时,强化了低密度子概念的表达,有效解决了类间与类内不平衡问题。 展开更多
关键词 不均衡数据集 分类 过采样 类内不平衡 超球体
在线阅读 下载PDF
基于凝聚式层次聚类的微调筛选过采样方法
5
作者 谷铮 陈学斌 +1 位作者 张宏扬 李雨欣 《计算机应用》 北大核心 2025年第7期2138-2144,共7页
针对不平衡数据集分类效果差的问题,提出一种基于凝聚式层次聚类(AHC)的微调筛选过采样方法,该方法可适用于不平衡数据的多分类情况。首先,在不平衡数据集的聚类过程中应用AHC算法,分别聚类多数类与少数类,从而在考虑类别间关系的同时... 针对不平衡数据集分类效果差的问题,提出一种基于凝聚式层次聚类(AHC)的微调筛选过采样方法,该方法可适用于不平衡数据的多分类情况。首先,在不平衡数据集的聚类过程中应用AHC算法,分别聚类多数类与少数类,从而在考虑类别间关系的同时有效避免类重叠问题;其次,为了平衡数据集并保留原始数据的特征,设计一种微调过采样算法;再次,为了提升生成样本的分类准确率,提出一种基于倾向评分匹配的标签倾向评估与筛选方法;最后,通过实验对所提出的方法进行验证,并将该方法与MDO(Mahalanobis Distance-based Over-sampling technique)、AND-SMOTE(Automatic Neighborhood size Determination method for Synthetic Minority Over-sampling TEchnique)和K-means SMOTE这3种方法进行比较。实验结果表明,在Abalone、Contraceptive和Yeast等6个不同的数据集上,所提方法展现出了良好的性能,验证了它的有效性。 展开更多
关键词 不平衡数据 多分类 过采样 凝聚式层次聚类 标签倾向评估
在线阅读 下载PDF
基于确定性过采样的不平衡航空通信信号调制识别
6
作者 李浩然 王艺然 +1 位作者 白静 肖竹 《空军工程大学学报》 北大核心 2025年第3期18-25,共8页
针对航空通信中,复杂电磁环境下的调制信号分类任务数据不平衡以及少数类信号样本的缺乏导致分类器的性能下降的问题,提出了一种基于确定性过采样技术的不平衡航空通信调制信号分类方法。该方法通过合成少数类信号样本,平衡数据集,从而... 针对航空通信中,复杂电磁环境下的调制信号分类任务数据不平衡以及少数类信号样本的缺乏导致分类器的性能下降的问题,提出了一种基于确定性过采样技术的不平衡航空通信调制信号分类方法。该方法通过合成少数类信号样本,平衡数据集,从而减少数据不平衡对分类器的负面影响。基于RadioML 2016.10a数据集,选择11种调制方式,在-8 dB、-4 dB、0 dB、4 dB、8 dB信噪比下构建了4种不平衡场景进行验证。实验结果表明,相较于不平衡数据集,文中所提方法在MsmcNet、ResNet50和DenseNet1213种网络模型上,分类准确率分别提高了2.78%、0.92%、3.45%。与传统的SMOTE方法相比,所提方法在处理多类不平衡问题上表现出更好的分类性能。该方法能够有效提高调制信号分类任务中的准确率,尤其是在复杂电磁环境下的航空通信场景中。 展开更多
关键词 信号调制分类 多类不平衡信号 过采样 确定性合成 数据分布
在线阅读 下载PDF
面向不平衡图像数据的对抗自编码器过采样算法 被引量:2
7
作者 职为梅 常智 +1 位作者 卢俊华 耿正乾 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第11期4208-4218,共11页
许多适用于低维数据的传统不平衡学习算法在图像数据上的效果并不理想。基于生成对抗网络(GAN)的过采样算法虽然可以生成高质量图像,但在类不平衡情况下容易产生模式崩溃问题。基于自编码器(AE)的过采样算法容易训练,但生成的图像质量... 许多适用于低维数据的传统不平衡学习算法在图像数据上的效果并不理想。基于生成对抗网络(GAN)的过采样算法虽然可以生成高质量图像,但在类不平衡情况下容易产生模式崩溃问题。基于自编码器(AE)的过采样算法容易训练,但生成的图像质量较低。为进一步提高过采样算法在不平衡图像中生成样本的质量和训练的稳定性,该文基于生成对抗网络和自编码器的思想提出一种融合自编码器和生成对抗网络的过采样算法(BAEGAN)。首先在自编码器中引入一个条件嵌入层,使用预训练的条件自编码器初始化GAN以稳定模型训练;然后改进判别器的输出结构,引入一种融合焦点损失和梯度惩罚的损失函数以减轻类不平衡的影响;最后从潜在向量的分布映射中使用合成少数类过采样技术(SMOTE)来生成高质量的图像。在4个图像数据集上的实验结果表明该算法在生成图像质量和过采样后的分类性能上优于具有辅助分类器的条件生成对抗网络(ACGAN)、平衡生成对抗网络(BAGAN)等过采样算法,能有效解决图像数据中的类不平衡问题。 展开更多
关键词 不平衡图像数据 过采样 生成对抗网络 对抗自编码器 合成少数类过采样技术
在线阅读 下载PDF
不平衡数据集的DC-SMOTE过采样方法 被引量:1
8
作者 冀常鹏 尚佳奇 代巍 《智能系统学报》 CSCD 北大核心 2024年第3期525-533,共9页
针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决... 针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决类内不平衡问题。根据集中度的不同,区分出少数类样本的边界,有针对性地合成第二类新样本,达到强化边界的作用;同时,通过自适应生成新样本,有效解决大部分过采样算法没有明确过采样量或者盲目追求样本平衡度相等的问题。最后,在公开的12个不平衡数据集上进行了实验,实验结果表明,本算法在低不平衡数据集与高不平衡数据集上的应用均拥有良好的表现。 展开更多
关键词 不平衡数据集 过采样 高斯核函数 局部引力 高不平衡数据 合成少数类过采样 不平衡度 分类
在线阅读 下载PDF
基于高倍过采样与加窗插值FFT的电力谐波分析 被引量:5
9
作者 张鸿博 熊军华 蔡晓峰 《电力系统保护与控制》 EI CSCD 北大核心 2024年第5期105-115,共11页
为提高谐波分析精度,分析了信号加窗引起的信噪比损失以及AD转换产生的量化误差,阐述了过采样技术提高信噪比的原理。在此基础上,提出了基于高倍过采样和加窗插值快速傅里叶变换(fast Fourier transform, FFT)的谐波分析方法。该方法充... 为提高谐波分析精度,分析了信号加窗引起的信噪比损失以及AD转换产生的量化误差,阐述了过采样技术提高信噪比的原理。在此基础上,提出了基于高倍过采样和加窗插值快速傅里叶变换(fast Fourier transform, FFT)的谐波分析方法。该方法充分利用AD转换器的潜力,以尽量高的采样速率进行AD采样,同时通过均值滤波避免高倍过采样引起的采样数据量激增问题。详细研究了所提谐波分析方法对信号中谐波分量幅值和相位的影响,并给出了简洁实用的谐波幅值和相位校正方法。仿真表明,所提方法可在不增加系统成本的前提下改善加窗插值FFT的抗噪声能力,提高谐波分析精度。 展开更多
关键词 插值FFT 窗函数 谐波分析 量化误差 过采样 校正
在线阅读 下载PDF
基于批数据过采样的中医临床记录四诊描述抽取方法 被引量:1
10
作者 王亚强 李凯伦 +1 位作者 舒红平 蒋永光 《中文信息学报》 CSCD 北大核心 2024年第2期121-131,共11页
中医临床记录四诊描述抽取对中医临床辨证论治的提质增效具有重要的应用价值,然而该任务尚有待探索,类别分布不均衡是该任务面临的关键挑战之一。该文围绕中医临床记录四诊描述抽取任务展开研究,首先构建了中医临床四诊描述抽取语料库;... 中医临床记录四诊描述抽取对中医临床辨证论治的提质增效具有重要的应用价值,然而该任务尚有待探索,类别分布不均衡是该任务面临的关键挑战之一。该文围绕中医临床记录四诊描述抽取任务展开研究,首先构建了中医临床四诊描述抽取语料库;然后基于无标注的中医临床记录微调通用预训练语言模型实现该模型的领域适应;最后利用小规模标注数据,采用批数据过采样算法,完成中医临床记录四诊描述抽取模型的训练。实验结果表明,该文提出的抽取方法的总体性能均优于对比方法,并且与对比方法的最优结果相比,该文方法将少见类别的抽取性能F1值平均提升了2.13%。 展开更多
关键词 中医临床记录 四诊描述抽取 类别分布不均衡 批数据过采样
在线阅读 下载PDF
一种基于数据分布的不平衡数据过采样方法 被引量:1
11
作者 陈丽萍 王洪海 何舒平 《安徽大学学报(自然科学版)》 CAS 北大核心 2024年第5期26-36,共11页
针对现有不平衡数据过采样方法生成重叠样本、潜在价值不高样本以及过拟合等问题,提出了一种基于数据分布的过采样方法.该方法首先将少数类样本划分成不同子簇,根据样本的空间分布位置识别噪声样本和少数类边界样本,并删除噪声样本;进... 针对现有不平衡数据过采样方法生成重叠样本、潜在价值不高样本以及过拟合等问题,提出了一种基于数据分布的过采样方法.该方法首先将少数类样本划分成不同子簇,根据样本的空间分布位置识别噪声样本和少数类边界样本,并删除噪声样本;进而将对分类边界决策影响大的少数类边界样本作为种子样本,并结合种子样本所在子簇的稀疏因子及其识别的难易程度确定采样权重;最后在种子样本所在的子簇中生成新样本.为了验证所设计采样方法的有效性,分别使用AdaBoost(adaptive boosting)和SVM(support vector machine)算法对12个数据集进行分类实验,结果表明,与传统的过采样算法相比,所设计的过采样方法在保证了整体分类性能下,提高了不平衡数据中对少数类的分类效果. 展开更多
关键词 不平衡数据 数据分布 过采样 稀疏因子 重叠样本
在线阅读 下载PDF
不平衡数据集的自然邻域超球面过采样方法 被引量:1
12
作者 周玉 岳学震 +1 位作者 刘星 王培崇 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第12期81-95,共15页
为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻... 为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻居直至形成稳定的自然邻域;接着,根据每个样本点自然邻居的标签特点,将所有样本点划分为异常点、噪声点、多数类安全点、少数类安全点和少数类边界点5个区域;然后,对每个少数类边界点构建超球面,合并完全处于大超球面中的小超球面,形成一个超球面集合;最后,根据超球面半径大小自适应地为每个超球面分配采样比例,在超球面内生成指定个数的新样本点得到平衡数据集。结果表明,利用该方法在人工数据集和真实数据集上进行过采样形成新的样本集,以CART,SVM和KNN 3个分类器进行实验,并与其他8种常用方法进行对比分析。同时,以AUC值、F_(1)和G_(m)作为评价指标,进一步证明了该方法可以更好的对不平衡数据集进行分类。 展开更多
关键词 不平衡数据集 过采样 自然邻居 超球面 分类
在线阅读 下载PDF
改进的邻近加权合成过采样技术
13
作者 邢胜 王晓兰 +3 位作者 沈家星 朱美玲 曹永青 何玉林 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2024年第6期748-755,共8页
针对邻近加权合成过采样技术(proximity weighted synthetic oversampling technique,ProWSyn)在合成样例时未删除噪声样例,且当平滑因子在[0,1]区间取值时,权重比例难以覆盖整个搜索空间的缺陷,提出一种改进的邻近加权合成过采样技术(i... 针对邻近加权合成过采样技术(proximity weighted synthetic oversampling technique,ProWSyn)在合成样例时未删除噪声样例,且当平滑因子在[0,1]区间取值时,权重比例难以覆盖整个搜索空间的缺陷,提出一种改进的邻近加权合成过采样技术(improved proximity weighted synthetic oversampling technique,IProWSyn).改变权重的计算策略,引入底数为(0,1]的普通指数函数,通过动态改变底数令权重覆盖更大范围的搜索空间,进而找到更优的权重.将IProWSyn、ASN-SMOTE和ProWSyn应用在非平衡数据集ada、ecoli1、glass1、haberman、Pima和yeast1上,再使用k近邻(k-nearest neighbors,kNN)分类器和神经网络分类器检验方法的有效性.实验结果表明,在多数数据集上IProWSyn的F1、几何平均值(geometric mean,G-mean)和曲线下面积(area under curve,AUC)指标性能都高于其他过采样方法.IProWSyn过采样技术在这些数据集的综合分类效果更好,有更好的泛化表现. 展开更多
关键词 人工智能 非平衡数据 邻近加权合成过采样技术 过采样方法 K近邻分类器 神经网络
在线阅读 下载PDF
基于SMOTETomek过采样方法与领域自适应迁移学习的风电机组故障诊断 被引量:1
14
作者 张伊杰 刘宝良 +2 位作者 王承民 杨镜非 谢宁 《太阳能学报》 EI CAS CSCD 北大核心 2024年第10期635-644,共10页
为在不平衡数据上得到准确分类的故障诊断模型,提出将SMOTETomek过采样方法与领域自适应迁移学习相结合的故障诊断算法框架。首先利用滑动窗口采样技术将数据采样成二维时空窗口数据,然后执行SMOTETomek过采样操作,可保留并丰富完整的... 为在不平衡数据上得到准确分类的故障诊断模型,提出将SMOTETomek过采样方法与领域自适应迁移学习相结合的故障诊断算法框架。首先利用滑动窗口采样技术将数据采样成二维时空窗口数据,然后执行SMOTETomek过采样操作,可保留并丰富完整的时序故障特征。针对过采样算法引入噪声信息的问题,引入领域自适应迁移学习算法在原始数据与过采样后的数据之间提取不变特征,使得过采样算法的引入的噪声信息可被过滤掉。在中国某实际风电场的实验结果显示,所提方法可在高度不平衡的数据上完成模型训练,准确识别各类型故障并精确辨识故障过程对应的时间窗口,诊断性能显著优于基于先前用于应对数据不平衡所普遍使用的过采样方法得到的模型。 展开更多
关键词 风电机组 故障诊断 监督控制和数据采集系统 深度学习 SMOTE过采样方法 领域自适应
在线阅读 下载PDF
基于样本势和噪声进化的不平衡数据过采样方法 被引量:3
15
作者 冷强奎 孙薛梓 孟祥福 《计算机应用》 CSCD 北大核心 2024年第8期2466-2475,共10页
在处理不平衡数据分类问题中,过采样方法是一种有效的策略。现有方法大多采用K近邻(KNN)技术选取采样种子样本,但KNN参数值的改变会导致多数过采样方法表现出明显的不适定性。径向基过采样(RBO)方法能解决这个问题,但在采样后易出现大... 在处理不平衡数据分类问题中,过采样方法是一种有效的策略。现有方法大多采用K近邻(KNN)技术选取采样种子样本,但KNN参数值的改变会导致多数过采样方法表现出明显的不适定性。径向基过采样(RBO)方法能解决这个问题,但在采样后易出现大量噪声。基于此,提出一种基于样本势和噪声进化的不平衡数据过采样方法,进一步对采样后的数据集迭代进化。首先,使用RBO方法通过计算样本势合成少数类样本,并改善原始数据的不平衡;其次,使用自然近邻(NaN)作为错误检测技术检测过采样后数据集中存在的疑似噪声样本;最后,利用改进的差分进化(DE)方法对检测出的疑似噪声样本迭代进化。相较于传统过采样方法,所提方法能更充分挖掘数据集中的重要边界信息,从而为分类器提供更多辅助以改善其分类性能。在22个基准数据集上,与7种经典采样方法(结合3种不同分类器)进行了大量对比实验。实验结果表明,所提方法具有更高的F1值和G-mean值,并且在噪声处理方面也优于带有后置过滤器的采样方法,可以更有效地解决不平衡数据分类问题。此外,统计分析也表明它的弗里德曼排名更高。 展开更多
关键词 K近邻 径向基过采样 样本势 自然近邻 差分进化 不平衡数据分类
在线阅读 下载PDF
SMOGN过采样下导水裂隙带高度的MPSO-BP预测模型 被引量:2
16
作者 刘奇 梁智昊 訾建潇 《煤田地质与勘探》 EI CAS CSCD 北大核心 2024年第11期72-85,共14页
【目的】导水裂隙带高度是顶板(涌)突水、地下水资源流失的重要影响因素之一,是矿井防治水研究的重点。【方法】为了准确地预测煤层顶板导水裂隙带高度,选取开采深度、采高、煤层倾角、工作面斜长、硬岩岩性比例系数和开采方法作为导水... 【目的】导水裂隙带高度是顶板(涌)突水、地下水资源流失的重要影响因素之一,是矿井防治水研究的重点。【方法】为了准确地预测煤层顶板导水裂隙带高度,选取开采深度、采高、煤层倾角、工作面斜长、硬岩岩性比例系数和开采方法作为导水裂隙带高度的主要影响因素,搜集200例导水裂隙带高度实测样本作为模型数据集。首先,采用自适应高斯噪声过采样方法(synthetic minority over-sampling technique for regression with Gaussian noise,SMOGN)对原始数据集进行过采样,结合8折交叉验证,将平均绝对误差(EMA)、均方根误差(ERMS)和决定系数(R2)作为回归模型评价指标,确定最优的BP神经网络结构,然后采用变异粒子群优化算法(mutation particle swarm optimization,MPSO),对神经网络的初始权值和阈值进行优化,最后将优化后的预测模型进行工程现场应用。【结果和结论】结果表明:该数据集下,BP神经网络采用Huber loss和Adam一阶优化算法,训练速度和稳定性均得到提升,最优激活函数为Tanh,最优隐藏层节点数为12。当MPSO种群数量为50时,模型性能最好,经过SMOGN过采样和MPSO超参数优化,最终训练集的EMA为0.163,ERMS为0.216,R2为0.948,验证集的EMA为0.260,ERMS为0.341,R2为0.901。在现场应用中模型预测的相对误差均在9%以下。结果表明结合SMOGN技术和MPSO超参数优化技术,显著提高了模型的稳定性和泛化性能,改善了样本分布特征,提高了样本利用效率和模型预测效果,对导水裂隙带高度模型的训练和预测具有重要的借鉴意义。 展开更多
关键词 煤矿防治水 回归过采样 导水裂隙带 高度预测 变异粒子群算法 模型优化
在线阅读 下载PDF
基于边界过采样的图节点不平衡分类算法 被引量:1
17
作者 武天昊 董明刚 谭若琦 《计算机工程与应用》 CSCD 北大核心 2024年第13期92-101,共10页
在现实世界中,金融欺诈检测和疾病诊断是典型的图不平衡问题,基于过采样的图神经网络是解决此类问题的常用方法之一。然而,该方法难以保证生成边界样本的多样性,易导致分类性能下降。提出一种基于边界过采样的图节点不平衡分类算法(ImBS... 在现实世界中,金融欺诈检测和疾病诊断是典型的图不平衡问题,基于过采样的图神经网络是解决此类问题的常用方法之一。然而,该方法难以保证生成边界样本的多样性,易导致分类性能下降。提出一种基于边界过采样的图节点不平衡分类算法(ImBS)来提升生成样本的多样性。ImBS通过双层图神经分类网络选择出每个类别中高置信度样本作为采样锚点,提高锚点的代表性。为了使生成样本分布更加合理,利用上一步得到的混淆矩阵,计算少数类误判的分布比例。并基于该分布比例,自适应计算不同类间生成的样本数量。在此基础上,提出基于锚点的混合过采样方法。通过混合异类锚点特征的方式过采样边界节点,达到增加样本多样性和扩展少数类决策边界的目的。此外,为了防止产生有害连接,引入个性化PageRank方法,为过采样样本生成邻域分布。在三个真实的数据集(Cora、CiteSeer和Cora-Ful)上的实验表明,该方法与9个代表性的方法对比具有明显优势。 展开更多
关键词 图神经网络 不平衡节点分类 边界过采样
在线阅读 下载PDF
学习困难与泛化能力感知的软件缺陷预测过采样方法
18
作者 范洪旗 严远亭 +1 位作者 张以文 张燕平 《计算机集成制造系统》 EI CSCD 北大核心 2024年第8期2663-2671,共9页
软件缺陷数据的类别分布不平衡特点给软件缺陷预测任务带了巨大的挑战。合成过采样是解决这一问题最为主流的技术,但如何设计合适的采样策略避免因引入异常样本而导致的过度泛化风险,始终是软件缺陷预测过采样方法面临的难点。针对这一... 软件缺陷数据的类别分布不平衡特点给软件缺陷预测任务带了巨大的挑战。合成过采样是解决这一问题最为主流的技术,但如何设计合适的采样策略避免因引入异常样本而导致的过度泛化风险,始终是软件缺陷预测过采样方法面临的难点。针对这一问题,本文提出一种结合样本学习困难程度和合成泛化影响的过采样方法(GDOS)。具体来说,GDOS方法通过样本的局部先验概率和潜在合成方向上的样本分布信息衡量样本的安全系数与泛化系数,并以此度量样本的选择权重。通过抑制潜在过泛化区域的样本合成概率,给予相对安全的近邻合成方向更高的选择概率,为高质量样本的合成提供保障。在26个PROMISE数据集上的实验表明,GDOS在MCC、pd、pf、F-measure等指标上较于经典的采样方法和专门提出的软件缺陷预测采样方法均取得了更优的性能表现。 展开更多
关键词 软件缺陷预测 类别不平衡 过采样 过度泛化
在线阅读 下载PDF
利用可信反事实的不平衡数据过采样方法
19
作者 高峰 宋媚 祝义 《计算机工程与应用》 CSCD 北大核心 2024年第5期165-171,共7页
针对传统过采样方法不能充分利用数据集信息的缺陷,提出一种基于反事实(counterfactual,CF)的不平衡数据过采样方法,并进一步对生成的少数类合成样本进行了“可信”清除。其核心思想是依据数据集原有实例特征值合成新样本,相比传统过采... 针对传统过采样方法不能充分利用数据集信息的缺陷,提出一种基于反事实(counterfactual,CF)的不平衡数据过采样方法,并进一步对生成的少数类合成样本进行了“可信”清除。其核心思想是依据数据集原有实例特征值合成新样本,相比传统过采样的插值法,更能充分挖掘数据中的边界决策信息,从而为分类器提供更多的有用信息,提高分类性能。在9个来自KEEL与UCI的不平衡数据集、5种不同分类器(SVM、DT、Logistic、RF、AdaBoost)上与4种传统过采样方法(SMOTE、B1-SMOTE、B2-SMOTE、ADASYN)进行了大量对比实验,结果表明,所提方法具有更高的AUC值、F1值和G-mean值,可以更为有效地解决类不平衡问题。 展开更多
关键词 不平衡数据集 分类器 过采样 反事实(CF)
在线阅读 下载PDF
基于前景理论的软件缺陷预测过采样方法
20
作者 徐彪 严远亭 张以文 《计算机集成制造系统》 EI CSCD 北大核心 2024年第8期2822-2831,共10页
在软件缺陷预测中,数据困难因子对预测性能的影响比类不平衡更为明显。然而,大多数现有软件缺陷预测过采样方法在解决类不平衡问题过程中,忽视了软件项目数据集固有的数据困难因子,从而导致预测性能不佳。针对上述问题,提出一种基于前... 在软件缺陷预测中,数据困难因子对预测性能的影响比类不平衡更为明显。然而,大多数现有软件缺陷预测过采样方法在解决类不平衡问题过程中,忽视了软件项目数据集固有的数据困难因子,从而导致预测性能不佳。针对上述问题,提出一种基于前景理论的过采样算法(POS)。POS同时考虑局部邻域中同类和异类样本的影响来评估少数类样本的学习难度,通过基于引力的策略构建同类收益和异类损失来刻画样本的前景值,并强调异类损失来计算少数类样本的采样权重,以此降低引入数据困难因子的风险,提高合成样本的质量,进一步提升预测性能。在NASA数据集上的实验结果表明,POS算法在AUC、balance和G-mean等性能指标上均有所提升,具有更好的缺陷预测性能。 展开更多
关键词 软件缺陷预测 类不平衡 数据困难因子 过采样 前景理论
在线阅读 下载PDF
上一页 1 2 22 下一页 到第
使用帮助 返回顶部