-
题名互信息与模糊C均值聚类集成的特征优选方法
被引量:2
- 1
-
-
作者
朱接文
肖军
-
机构
江西工业工程职业技术学院计算机工程系
-
出处
《计算机应用》
CSCD
北大核心
2014年第9期2608-2611,2649,共5页
-
文摘
针对大型数据中大量冗余特征的存在可能降低数据分类性能的问题,提出了一种基于互信息(MI)与模糊C均值(FCM)聚类集成的特征自动优选方法 FCC-MI。首先分析了互信息特征及其相关度函数,根据相关度对特征进行排序;然后按照最大相关度对应的特征对数据进行分组,采用FCM聚类方法自动确定最优特征数目;最后基于相关度对特征进行了优选。在UCI机器学习数据库的7个数据集上进行实验,并与相关文献中提出的基于类内方差与相关度结合的特征选择方法(WCMFS)、基于近似Markov blanket和动态互信息的特征选择算法(B-AMBDMI)及基于互信息和遗传算法的两阶段特征选择方法(T-MI-GA)进行对比。理论分析和实验结果表明,FCC-MI不但提高了数据分类的效率,而且在有效保证分类精度的同时能自动确定最优特征子集,减少了数据集的特征数目,适用于海量、数据特征相关性大的特征约简及数据分析。
-
关键词
互信息
特征优选
模糊C均值聚类
数据分组
-
Keywords
Mutual Information(MI)
feature selection
Fuzzy C-Means(FCM) clustering
data grouping
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
TP311.13
[自动化与计算机技术—计算机软件与理论]
-