期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种基于ReliefF特征加权的R-NIC算法 被引量:6
1
作者 陈晓琳 姬波 叶阳东 《计算机工程》 CAS CSCD 北大核心 2015年第4期161-165,共5页
非参数信息理论聚类(NIC)算法通过计算数据点与簇间的互信息来实现聚类,利用无参估计法计算集群平均熵,从而降低人为参与的成本,但该算法假定待分析样本的所有特征对分类具有相同的贡献,与目前已有的研究结果相悖。为此,提出一种特征加... 非参数信息理论聚类(NIC)算法通过计算数据点与簇间的互信息来实现聚类,利用无参估计法计算集群平均熵,从而降低人为参与的成本,但该算法假定待分析样本的所有特征对分类具有相同的贡献,与目前已有的研究结果相悖。为此,提出一种特征加权的R-NIC算法,该算法考虑各维特征对模式分类的不同影响,使用Relief F对特征进行加权变换,抑制冗余特征,加强有效特征,利用NIC算法在变换后的特征空间中进行聚类以提高聚类效果。在UCI数据集上的实验结果表明,该算法具有较高的聚类性能,聚类效果优于NIC算法。 展开更多
关键词 非监督 聚类 互信息 非参数信息理论聚类算法 准确率 特征加权
在线阅读 下载PDF
基于信息理论的网络文本组合聚类
2
作者 王扬 袁昆 +2 位作者 刘洪甫 吴俊杰 包秀国 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2016年第8期1603-1611,共9页
尽管近年来针对文本聚类问题进行了大量研究,其仍然是数据挖掘领域的一个富有挑战性的问题,特别在弱相关特征乃至噪声特征的处理上,仍然存在诸多挑战。针对这一问题提出了文本聚类的分解-组合算法框架——DIAS。该方法首先通过简单随机... 尽管近年来针对文本聚类问题进行了大量研究,其仍然是数据挖掘领域的一个富有挑战性的问题,特别在弱相关特征乃至噪声特征的处理上,仍然存在诸多挑战。针对这一问题提出了文本聚类的分解-组合算法框架——DIAS。该方法首先通过简单随机特征抽样将高维文本数据进行分解得到多样化的结构知识,其优点是能够较好地避免产生大量的噪声特征。然后采用基于信息理论的一致性聚类(ICC)将多视角基础聚类知识组合起来,得到高质量的一致性划分。最后通过在8个真实文本数据集上的实验,证明DIAS算法相较于其他被广泛使用的算法具有明显优势,特别在处理弱基础聚类上具有突出效果。由于在分布式计算上的天然优势,DIAS有望成为大规模文本聚类的主流算法。 展开更多
关键词 文本聚类 分解-组合算法 基于信息理论的一致性聚类 K-均值 大数据聚类
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部