-
题名一种小样本数据的特征选择方法
被引量:26
- 1
-
-
作者
许行
张凯
王文剑
-
机构
山西大学计算机与信息技术学院
计算智能与中文信息处理教育部重点实验室(山西大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2018年第10期2321-2330,共10页
-
基金
国家自然科学基金项目(61673249)
山西省回国留学人员科研基金项目(2016-004)
赛尔网络下一代互联网技术创新项目(NGII20170601)~~
-
文摘
小样本数据由于其特征维数相对于样本数目较多,且常包含不相关或冗余特征,使得常用的机器学习算法处理小样本数据时无法得到好的效果,通过特征选择来降低数据维数是解决该问题的一种有效途径.针对小样本数据,提出一种基于互信息的过滤型特征选择方法,首先定义了基于互信息的特征分组标准,该标准同时考虑特征与类别的相关性和不同特征之间的冗余性,根据该标准对特征分组后,在各组内选出与类别相关性最大的特征构成候选特征子集,保证了算法具有较低的时间复杂度,之后采用Boruta算法,在候选特征子集中自动确定最佳特征子集,从而大幅度降低数据的维数.通过与5种经典的特征选择算法比较,在标准数据集上采用3种分类器的实验结果表明提出的方法选出的特征子集具有较好的运行效率和分类性能.
-
关键词
小样本数据
特征选择
互信息
特征分组
过滤型算法
-
Keywords
small samples
feature selection
mutual information
feature grouping
filter algorithm
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-