-
题名基于无噪梯度分布的合成过采样方法
- 1
-
-
作者
胡立彬
张云峰
刘培德
-
机构
山东财经大学管理科学与工程学院
-
出处
《计算机科学》
2025年第9期220-231,共12页
-
基金
山东省自然科学基金(ZR2022MF245)
山东省重点研发计划(2023CXPT033)。
-
文摘
合成过采样方法(Synthetic Oversampling Method)是解决不平衡分类问题的重要手段,但当前的合成过采样方法在处理高维不平衡分类问题时仍面临诸多挑战。针对当前合成过采样方法未考虑噪声样本造成的误差累积、对样本空间距离过度依赖、合成样本的分布牺牲负类样本识别精度这3个问题,提出一种基于无噪梯度分布的合成过采样方法。首先,利用样本的梯度贡献属性作为度量样本标签置信度的指标并过滤数据集中的噪声标签样本,避免了噪声样本作为根样本造成的误差累积。其次,根据梯度贡献指标和安全梯度阈值将正类样本分配到不同的梯度区间,并选择安全梯度区间内的样本作为根样本,根样本的梯度右近邻作为辅助样本,不仅摆脱了对空间距离度量的依赖,而且保证了决策边界不断往负类样本移动。最后,设计了基于余弦相似度的安全梯度分布近似策略,用于计算每个安全梯度区间内需要生成的样本数量,该策略合成后的样本分布可以使决策边界以安全的方式向负类样本移动,因此不会明显牺牲负类样本的识别精度。在来自KEEL,UCI和Kaggle平台的数据集上的实验表明,所提出的算法在提升分类器Recall值的同时,也可以获得很好的F1-Score,G-Mean和MCC值。
-
关键词
梯度贡献
无噪梯度
梯度右近邻
安全梯度分布近似
合成过采样
-
Keywords
Gradient contribution
Noiseless gradient
Gradient right neighbor
Safe gradient distribution approximation
Synthetic oversampling
-
分类号
TP181
[自动化与计算机技术]
-