-
题名利用可信反事实的不平衡数据过采样方法
- 1
-
-
作者
高峰
宋媚
祝义
-
机构
江苏师范大学计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2024年第5期165-171,共7页
-
基金
国家自然科学基金(No.62077029,71503108,61902161)
江苏师范大学研究生科研创新项目(2022XKT1554)。
-
文摘
针对传统过采样方法不能充分利用数据集信息的缺陷,提出一种基于反事实(counterfactual,CF)的不平衡数据过采样方法,并进一步对生成的少数类合成样本进行了“可信”清除。其核心思想是依据数据集原有实例特征值合成新样本,相比传统过采样的插值法,更能充分挖掘数据中的边界决策信息,从而为分类器提供更多的有用信息,提高分类性能。在9个来自KEEL与UCI的不平衡数据集、5种不同分类器(SVM、DT、Logistic、RF、AdaBoost)上与4种传统过采样方法(SMOTE、B1-SMOTE、B2-SMOTE、ADASYN)进行了大量对比实验,结果表明,所提方法具有更高的AUC值、F1值和G-mean值,可以更为有效地解决类不平衡问题。
-
关键词
不平衡数据集
分类器
过采样
反事实(cf)
-
Keywords
imbalanced data
classifiers
oversampling
counterfactual(cf)
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-