-
题名基于最大安全近邻与局部密度的自适应过采样方法
- 1
-
-
作者
赵小强
何嘉琦
-
机构
兰州理工大学电气工程与信息工程学院
-
出处
《电子与信息学报》
北大核心
2025年第4期1140-1149,共10页
-
基金
国家自然科学基金(62263021)
甘肃省高校产业支撑计划(2023CYZC-24)。
-
文摘
针对不平衡数据过采样的过程中如何合成有效新样本的问题,该文提出一种基于最大安全近邻与局部密度的自适应过采样方法。该方法利用最大安全近邻和局部密度将少数类样本划分为安全样本、边界样本和离群点;在此基础上,通过组合加权设置样本的采样概率,使得靠近边界的“次边界样本”更容易被选择为根样本,并且自适应地调整K近邻的参数K,选择最优合成区域;针对离群点,采用超球面内的随机过采样策略,进一步增加少数类样本的多样性。最后,将所提方法与合成少数类过采样技术(SMOTE)、自适应合成采样方法(ADASYN)等6种过采样方法在13个公开数据集上进行实验分析,结果表明,所提方法相对于对比方法在F1分数(F1-score)指标上分别平均提高了6.9%,8.8%,8.2%,5.8%,7.2%和12.5%,在几何平均值(G-mean)指标上分别平均提高了3.0%,2.5%,3.0%,3.2%,5.3%和8.6%,证明所提方法可以有效解决不平衡数据分类问题。
-
关键词
不平衡数据
过采样技术
最大安全近邻
次边界样本
-
Keywords
Unbalanced data
Over-sampling technique
Maximum safe nearest neighbors
Sub-boundary points
-
分类号
TN911
[电子电信—通信与信息系统]
TP274
[自动化与计算机技术—检测技术与自动化装置]
TP181
[自动化与计算机技术—控制理论与控制工程]
-