期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Spark的倾斜数据虚拟划分算法
1
作者 李俊丽 《计算机工程与设计》 北大核心 2021年第8期2271-2276,共6页
针对基于Spark的类别数据互信息的并行计算在数据倾斜情况下会造成某一个或几个reducer负载过重降低集群性能的现状,重新定义数据倾斜模型来量化由Spark创建的分区之间的数据倾斜度,提出数据虚拟划分算法DVP。通过将同一个键添加随机前... 针对基于Spark的类别数据互信息的并行计算在数据倾斜情况下会造成某一个或几个reducer负载过重降低集群性能的现状,重新定义数据倾斜模型来量化由Spark创建的分区之间的数据倾斜度,提出数据虚拟划分算法DVP。通过将同一个键添加随机前缀更改为几个不同的键,减少单个任务处理过量数据的情况;在一个24节点的Spark集群中实现DVP算法,通过与Spark传统的哈希算法DEFH比较,实验验证了DVP算法减轻了Spark Shuffle过程中的数据倾斜,减少了在负载均衡方面的耗时。 展开更多
关键词 数据倾斜 虚拟划分 类别数据 互信息并行计算 负载均衡
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部