-
题名一种基于KNN和随机仿射的边界样本合成过采样方法
被引量:1
- 1
-
-
作者
冷强奎
孙薛梓
孟祥福
-
机构
辽宁工程技术大学电子与信息工程学院
-
出处
《智能系统学报》
北大核心
2025年第2期329-343,共15页
-
基金
国家自然科学基金青年项目(61602056)
国家自然科学基金面上项目(61772249)
+1 种基金
辽宁省教育厅项目(JYTMS20230819)
辽宁工程技术大学博士科研启动基金项目(21-1043).
-
文摘
过采样是处理不平衡数据分类问题的有效策略。本文提出了一种基于K近邻(K-nearest neighbor,KNN)和随机仿射的边界样本合成过采样方法,用于改进现有过采样方法的种子样本选择阶段和合成样本生成阶段。首先,引入三近邻理论,建立样本间有效的内在近邻关系,并去除数据集中的噪声,以降低后续分类器的过拟合风险。其次,准确识别那些难以学习且包含丰富信息的少数类边界样本,并将其用作采样种子。最后,利用局部随机仿射代替线性插值机制,在原始数据的近似流形中均匀地生成合成样本。相比于传统过采样方法,本文方法能更充分挖掘数据集中的重要边界信息,从而为分类器提供更多辅助以改善其分类性能。在18个基准数据集上,与8种经典采样方法(结合4种不同分类器)进行了大量对比实验。结果表明,本文所提方法获得了更高的F1分数和几何均值(G-mean),可以更为有效地解决不平衡数据分类问题。此外,统计分析也证实该方法具有更高的弗里德曼排名(Friedman ranking)。
-
关键词
K近邻
线性插值
边界样本
自然分布
过采样
三近邻理论
随机仿射变换
不平衡分类
-
Keywords
K-nearest neighbor
linear interpolation
borderline sample
natural distribution
oversampling
three nearest neighbor theory
random affine transformation
imbalanced classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-