-
题名基于最大联合条件互信息的特征选择
被引量:15
- 1
-
-
作者
毛莺池
曹海
平萍
李晓芳
-
机构
河海大学计算机与信息学院
常州工学院计算机信息工程学院
江苏高校文化创意协同创新中心
-
出处
《计算机应用》
CSCD
北大核心
2019年第3期734-741,共8页
-
基金
"十三五"国家重点研发计划项目(2018YFC0407105)
华能集团重点研发课题资助项目(HNKJ17-21)
+1 种基金
中央高校业务费课题资助项目(2017B16814
2017B20914)~~
-
文摘
在高维数据如图像数据、基因数据、文本数据等的分析过程中,当样本存在冗余特征时会大大增加问题分析复杂难度,因此在数据分析前从中剔除冗余特征尤为重要。基于互信息(MI)的特征选择方法能够有效地降低数据维数,提高分析结果精度,但是,现有方法在特征选择过程中评判特征是否冗余的标准单一,无法合理排除冗余特征,最终影响分析结果。为此,提出一种基于最大联合条件互信息的特征选择方法(MCJMI)。MCJMI选择特征时考虑整体联合互信息与条件互信息两个因素,两个因素融合增强特征选择约束。在平均预测精度方面,MCJMI与信息增益(IG)、最小冗余度最大相关性(mRMR)特征选择相比提升了6个百分点;与联合互信息(JMI)、最大化联合互信息(JMIM)相比提升了2个百分点;与LW向前搜索方法(SFS-LW)相比提升了1个百分点。在稳定性方面,MCJMI稳定性达到了0.92,优于JMI、JMIM、SFS-LW方法。实验结果表明MCJMI能够有效地提高特征选择的准确率与稳定性。
-
关键词
信息熵
互信息
条件互信息
联合互信息
特征选择
-
Keywords
information entropy
Mutual Information(MI)
conditional mutual information
joint mutual information
feature selection
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-