期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于MapReduce的文本聚类方法研究 被引量:6
1
作者 李钊 李晓 +2 位作者 王春梅 李诚 杨春 《计算机科学》 CSCD 北大核心 2016年第1期246-250,269,共6页
在文本聚类中,相似性度量是影响聚类效果的重要因素。常用的相似性度量测度,如欧氏距离、相关系数等,只能描述文本间的低阶相关性,而文本间的关系非常复杂,基于低阶相关测度的聚类效果不太理想。一些基于复杂测度的文本聚类方法已被提出... 在文本聚类中,相似性度量是影响聚类效果的重要因素。常用的相似性度量测度,如欧氏距离、相关系数等,只能描述文本间的低阶相关性,而文本间的关系非常复杂,基于低阶相关测度的聚类效果不太理想。一些基于复杂测度的文本聚类方法已被提出,但随着数据规模的扩展,文本聚类的计算量不断增加,传统的聚类方法已不适用于大规模文本聚类。针对上述问题,提出一种基于MapReduce的分布式聚类方法,该方法对传统K-means算法进行了改进,采用了基于信息损失量的相似性度量。为进一步提高聚类的效率,将该方法与基于MapReduce的主成分分析方法相结合,以降低文本特征向量的维数。实例分析表明,提出的大规模文本聚类方法的聚类性能比已有的聚类方法更好。 展开更多
关键词 文本聚类 MAPREDUCE K-MEANS 信息损失
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部