-
题名大图数据上顶点驱动的并行最小生成树算法
被引量:7
- 1
-
-
作者
谷峪
杨佳学
鲍玉斌
于戈
-
机构
东北大学信息科学与工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第12期2688-2701,共14页
-
基金
国家"九七三"重点基础研究发展计划基金项目(2012CB316201)
国家自然科学基金项目(61472071
+4 种基金
61272179
61033007
61173028)
中央高校基本科研业务费专项资金项目(N130404010
N110404006)
-
文摘
最小生成树(minimum spanning tree,MST)是图论中最为经典算法之一.基于MST结构的聚类、分类和最短路径查询等复杂图算法,在效率和结果质量方面均有显著提高.然而,随着互联网的迅猛发展,图数据规模也变得越来越大,包含千万甚至上亿个顶点的大图数据越发常见.因此,如何在大图数据上实现查询处理和数据挖掘算法已成为亟待解决的问题之一.除此之外,由于大图数据的动态性特征,如何动态地维护算法结果也势必成为最受关注的问题之一.针对目前集中式的最小生成树算法无法解决海量和动态图数据的问题,首先提出了分区Prim(partition Prim,PP)算法,基于此提出了顶点驱动的并行MST算法——PB(PP Boru。vka)算法,并论证了PB算法的正确性.另外,基于MapReduce和BSP框架实现了PB算法.针对只删除动态图特征,提出了MST维护算法,以实现高效的增量计算.对提出的计算和维护算法进行了代价分析和比较.最后,使用真实和模拟数据集,验证了PB算法和维护算法的有效性、高效性和可扩展性.
-
关键词
大图数据
顶点驱动
最小生成树
并行算法
维护算法
-
Keywords
large graphs
vertex-driven
minimum spanning tree (MST)
parallel algorithm
maintenance algorithm
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-