-
题名非平衡数据集分类方法探讨
被引量:9
- 1
-
-
作者
职为梅
郭华平
范明
叶阳东
-
机构
郑州大学信息工程学院
-
出处
《计算机科学》
CSCD
北大核心
2012年第B06期304-308,共5页
-
基金
国家自然科学基金项目(60773048)资助
-
文摘
由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质、影响非平衡数据集分类的因素、非平衡数据集分类通常采用的方法、常用的评估标准以及该问题中存在的问题与挑战。
-
关键词
非平衡数据集
分类
抽样技术
代价敏感学习
-
Keywords
imbalanced data sets; classification; sampling methods; cost-sensitive learning
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名半监督学习在不平衡样本集分类中的应用研究
被引量:8
- 2
-
-
作者
于重重
商利利
谭励
涂序彦
杨扬
-
机构
北京工商大学计算机与信息工程学院
北京科技大学计算机与通信工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2013年第4期1085-1089,共5页
-
基金
国家自然科学基金资助项目(61070182)
北京市组织部优秀人才资助项目(2010D005003000008)
+1 种基金
北京市学科建设项目(PXM2012_014213_0000_74
PXM2012_014213_0000_23)
-
文摘
在对不平衡样本集进行分类时容易产生少数类样误差大的问题,而目前半监督学习中的算法多数是针对未有明显此类特征的数据集。针对一种半监督协同分类算法在该问题上的有效性进行了研究。由于进一步增强了分类器差异性,该算法在理论上对不平衡样本集具有良好的分类性能。根据该算法建立分类模型,利用其对桥梁结构健康数据进行分类实验,与Tri-Training算法的结果比较表明,该算法对不平衡样本集具有良好的适用性,从而验证了上述算法的有效性。
-
关键词
不平衡样本集
半监督协同分类方法
分类器差异性
分类模型
桥梁结构健康数据
-
Keywords
imbalanced sample set
semi-supervised collaboration classification method
classifier difference
classification model
bridge structural health data
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名不平衡数据集分类方法综述
被引量:50
- 3
-
-
作者
王乐
韩萌
李小娟
张妮
程浩东
-
机构
北方民族大学计算机科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2021年第22期42-52,共11页
-
基金
国家自然科学基金(62062004)
宁夏自然科学基金(2020AAC03216)
北方民族大学研究生创新项目(YCX20082)。
-
文摘
不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于K近邻、Bagging和Boosting三种方法;在过采样方法中从合成少数过采样技术(SyntheticMinorityOver-sampling Technology,SMOTE)、支持向量机(SupportVectorMachine,SVM)两个角度来分析不平衡数据集的分类方法;对这两类采样方法的优缺点进行了比较,在相同数据集下比较算法的性能并进行分析与总结。从深度学习、极限学习机、代价敏感和特征选择四方面对不平衡数据集的分类方法进行了归纳。最后对下一步工作方向进行了展望。
-
关键词
不平衡数据集
分类
采样方法
K近邻(KNN)
合成少数过采样技术(SMOTE)
深度学习
-
Keywords
unbalanced data set
classification
sampling method
K-Nearest Neighbor(KNN)
Synthetic Minority Over sampling Technology(SMOTE)
deep learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-