期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于KNN和随机仿射的边界样本合成过采样方法 被引量:1
1
作者 冷强奎 孙薛梓 孟祥福 《智能系统学报》 北大核心 2025年第2期329-343,共15页
过采样是处理不平衡数据分类问题的有效策略。本文提出了一种基于K近邻(K-nearest neighbor,KNN)和随机仿射的边界样本合成过采样方法,用于改进现有过采样方法的种子样本选择阶段和合成样本生成阶段。首先,引入三近邻理论,建立样本间有... 过采样是处理不平衡数据分类问题的有效策略。本文提出了一种基于K近邻(K-nearest neighbor,KNN)和随机仿射的边界样本合成过采样方法,用于改进现有过采样方法的种子样本选择阶段和合成样本生成阶段。首先,引入三近邻理论,建立样本间有效的内在近邻关系,并去除数据集中的噪声,以降低后续分类器的过拟合风险。其次,准确识别那些难以学习且包含丰富信息的少数类边界样本,并将其用作采样种子。最后,利用局部随机仿射代替线性插值机制,在原始数据的近似流形中均匀地生成合成样本。相比于传统过采样方法,本文方法能更充分挖掘数据集中的重要边界信息,从而为分类器提供更多辅助以改善其分类性能。在18个基准数据集上,与8种经典采样方法(结合4种不同分类器)进行了大量对比实验。结果表明,本文所提方法获得了更高的F1分数和几何均值(G-mean),可以更为有效地解决不平衡数据分类问题。此外,统计分析也证实该方法具有更高的弗里德曼排名(Friedman ranking)。 展开更多
关键词 K近邻 线性插值 边界样本 自然分布 过采样 三近邻理论 随机仿射变换 不平衡分类
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部