-
题名基于边界信息的自适应过采样算法
- 1
-
-
作者
杜睿山
靳明洋
孟令东
宋健辉
-
机构
东北石油大学计算机与信息技术学院
东北石油大学黑龙江油气藏及地下储库完整性评价重点实验室
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2025年第1期23-30,共8页
-
基金
黑龙江省自然科学基金项目(LH2021F004)。
-
文摘
针对人工少数类过采样(synthetic minority over-sampling technique,SMOTE)算法存在样本合成区域狭小,容易将少数类泛化到多数类及引入噪声的问题,提出一种基于噪声过滤、边界点自适应采样的过采样算法。首先,该算法使用K近邻算法进行噪声过滤,接着确定边界点并在边界点中寻找合适的点作为根样本点,并以其K近邻点中与其同类且欧氏距离最远的点作为候选样本点。然后,根据根样本点所携带的边界信息确定该点所合成的样本数量,并根据根样本点和候选样本点生成一个N维球体作为样本的合成区间。最后,对合成样本进行判断以确定其是否满足条件。通过实验证明,该算法生成的样本质量要优于SMOTE及其常见变种算法。
-
关键词
SMOTE
KNN
过采样算法
数据不均衡
ISMOTE
-
Keywords
SMOTE
KNN
oversampling algorithm
unbalanced data
ISMOTE
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-