图是一种非常重要的数据结构形式,被广泛用于社交网络、交通网络和搜索引擎等领域。随着图数据规模爆发式增长,存储容量受限,分布式图计算成为处理大规模图数据的焦点。宽度优先搜索(breadth first search,BFS)算法是图遍历和许多图分...图是一种非常重要的数据结构形式,被广泛用于社交网络、交通网络和搜索引擎等领域。随着图数据规模爆发式增长,存储容量受限,分布式图计算成为处理大规模图数据的焦点。宽度优先搜索(breadth first search,BFS)算法是图遍历和许多图分析算法的基础,而在分布式图计算过程中存在严重的通信开销。针对上述问题,本文提出了一种综合的数据压缩编码优化方案,结合位图和变长压缩数组,通过更高的压缩率来降低数据通信开销;此外,还提出了一种点对点异步环形通信策略,进一步降低分布式图计算中计算-通信的同步开销。通过这些优化手段,本文在8节点的分布式集群上对优化后BFS算法的性能进行了系统评估,结果表明,当图数据规模为28时,优化后的BFS算法平均性能为46.79亿条边每秒遍历(giga-traversed edges per second,GTEPS),性能比优化前提升了接近7.82%。展开更多
文摘图是一种非常重要的数据结构形式,被广泛用于社交网络、交通网络和搜索引擎等领域。随着图数据规模爆发式增长,存储容量受限,分布式图计算成为处理大规模图数据的焦点。宽度优先搜索(breadth first search,BFS)算法是图遍历和许多图分析算法的基础,而在分布式图计算过程中存在严重的通信开销。针对上述问题,本文提出了一种综合的数据压缩编码优化方案,结合位图和变长压缩数组,通过更高的压缩率来降低数据通信开销;此外,还提出了一种点对点异步环形通信策略,进一步降低分布式图计算中计算-通信的同步开销。通过这些优化手段,本文在8节点的分布式集群上对优化后BFS算法的性能进行了系统评估,结果表明,当图数据规模为28时,优化后的BFS算法平均性能为46.79亿条边每秒遍历(giga-traversed edges per second,GTEPS),性能比优化前提升了接近7.82%。