期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Spark的倾斜数据虚拟划分算法
1
作者
李俊丽
《计算机工程与设计》
北大核心
2021年第8期2271-2276,共6页
针对基于Spark的类别数据互信息的并行计算在数据倾斜情况下会造成某一个或几个reducer负载过重降低集群性能的现状,重新定义数据倾斜模型来量化由Spark创建的分区之间的数据倾斜度,提出数据虚拟划分算法DVP。通过将同一个键添加随机前...
针对基于Spark的类别数据互信息的并行计算在数据倾斜情况下会造成某一个或几个reducer负载过重降低集群性能的现状,重新定义数据倾斜模型来量化由Spark创建的分区之间的数据倾斜度,提出数据虚拟划分算法DVP。通过将同一个键添加随机前缀更改为几个不同的键,减少单个任务处理过量数据的情况;在一个24节点的Spark集群中实现DVP算法,通过与Spark传统的哈希算法DEFH比较,实验验证了DVP算法减轻了Spark Shuffle过程中的数据倾斜,减少了在负载均衡方面的耗时。
展开更多
关键词
数据倾斜
虚拟划分
类别数据
互信息并行计算
负载均衡
在线阅读
下载PDF
职称材料
题名
基于Spark的倾斜数据虚拟划分算法
1
作者
李俊丽
机构
晋中学院计算机科学与技术系
出处
《计算机工程与设计》
北大核心
2021年第8期2271-2276,共6页
基金
国家自然科学基金项目(61876122、61602335)。
文摘
针对基于Spark的类别数据互信息的并行计算在数据倾斜情况下会造成某一个或几个reducer负载过重降低集群性能的现状,重新定义数据倾斜模型来量化由Spark创建的分区之间的数据倾斜度,提出数据虚拟划分算法DVP。通过将同一个键添加随机前缀更改为几个不同的键,减少单个任务处理过量数据的情况;在一个24节点的Spark集群中实现DVP算法,通过与Spark传统的哈希算法DEFH比较,实验验证了DVP算法减轻了Spark Shuffle过程中的数据倾斜,减少了在负载均衡方面的耗时。
关键词
数据倾斜
虚拟划分
类别数据
互信息并行计算
负载均衡
Keywords
data skew
virtual partitioning
categorical data
parallel computing of mutual information
load balancing
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Spark的倾斜数据虚拟划分算法
李俊丽
《计算机工程与设计》
北大核心
2021
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部