-
题名基于类别随机化的随机森林算法
被引量:15
- 1
-
-
作者
关晓蔷
庞继芳
梁吉业
-
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理教育部重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2019年第2期196-201,共6页
-
基金
国家自然科学基金项目(61876103)
山西省青年科技基金项目(201701D221098)
+1 种基金
山西省重点研发项目(201603D111014)
山西省留学基金项目(2016-003)资助
-
文摘
随机森林是数据挖掘和机器学习领域中一种常用的分类方法,已成为国内外学者共同关注的研究热点,并被广泛应用到各种实际问题中。传统的随机森林方法没有考虑类别个数对分类效果的影响,忽略了基分类器和类别之间的关联性,导致随机森林在处理多分类问题时的性能受到限制。为了更好地解决该问题,结合多分类问题的特点,提出一种基于类别随机化的随机森林算法(RCRF)。从类别的角度出发,在随机森林两种传统随机化的基础上增加类别随机化,为不同类别设计具有不同侧重点的基分类器。由于不同的分类器侧重区分的类别不同,所生成的决策树的结构也不同,这样既能够保证单个基分类器的性能,又可以进一步增大基分类器的多样性。为了验证所提算法的有效性,在UCI数据库中的21个数据集上将RCRF与其他算法进行了比较分析。实验从两个方面进行,一方面,通过准确率、F1-measure和Kappa系数3个指标来验证RCRF算法的性能;另一方面,利用κ-误差图从多样性角度对各种算法进行对比与分析。实验结果表明,所提算法能够有效提升集成模型的整体性能,在处理多分类问题时具有明显优势。
-
关键词
随机森林
多分类问题
类别随机化
多样性
-
Keywords
Random forest
Multi-class classification problems
Randomization of classes
Diversity
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-