-
题名面向不均衡数据的融合谱聚类的自适应过采样法
被引量:9
- 1
-
-
作者
刘金平
周嘉铭
贺俊宾
唐朝晖
徐鹏飞
张国勇
-
机构
湖南师范大学智能计算与语言信息处理湖南省重点实验室
湖南省计量检测研究院
中南大学自动化学院
-
出处
《智能系统学报》
CSCD
北大核心
2020年第4期732-739,共8页
-
基金
国家自然科学基金项目(61971188,61771492)
国家自然科学基金−广东联合基金重点项目(U1701261)
+1 种基金
湖南省自然科学基金项目(2018JJ3349)
湖南省研究生科研创新项目(CX20190415)。
-
文摘
分类是模式识别领域中的研究热点,大多数经典的分类器往往默认数据集是分布均衡的,而现实中的数据集往往存在类别不均衡问题,即属于正常/多数类别的数据的数量与属于异常/少数类数据的数量之间的差异很大。若不对数据进行处理往往会导致分类器忽略少数类、偏向多数类,使得分类结果恶化。针对数据的不均衡分布问题,本文提出一种融合谱聚类的综合采样算法。首先采用谱聚类方法对不均衡数据集的少数类样本的分布信息进行分析,再基于分布信息对少数类样本进行过采样,获得相对均衡的样本,用于分类模型训练。在多个不均衡数据集上进行了大量实验,结果表明,所提方法能有效解决数据的不均衡问题,使得分类器对于少数类样本的分类精度得到提升。
-
关键词
不自适应综合采样法
不均衡数据集
谱聚类
过采样
模式分类
数据分布
有偏分类器
数据预处理
-
Keywords
adaptive synthetic sampling approach(ADASYN)
imbalanced data set
spectral clustering
oversampling
pattern classification
data distribution
biased classifier
data pre-processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-