-
题名基于MapReduce的分布式网络数据聚类算法
被引量:9
- 1
-
-
作者
陈东明
刘健
王冬琦
徐晓伟
-
机构
东北大学软件学院
阿肯色大学小石城分校信息科学系
-
出处
《计算机工程》
CAS
CSCD
2013年第7期76-82,共7页
-
基金
辽宁省自然科学基金资助项目(20102059)
-
文摘
时空复杂度较高以及物理机器内存不足,会导致传统聚类算法不能有效地分析处理大规模数据网络。针对该问题,在MapReduce分布式模型的基础上,提出一种网络数据分布式聚类算法。根据MRC理论设计有限MapReduce轮数,控制混洗过程所需时间,利用Map内合并技术对网络流量进行控制,在进行中间结果合并时仅对社团合并,而不考虑社团内部节点,以控制内存开销。使用模拟生成的数据在集群中进行实验,结果表明,当数据规模和集群规模增大时,该算法具有较好的加速比和扩展性。
-
关键词
聚类算法
分布式聚类
MapReduce编程模型
数据挖掘
社团结构
-
Keywords
clustering algorithm
distributed clustering
MapReduce programming model
data mining
community structure
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-