期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
最大互信息系数的并行计算方法研究 被引量:6
1
作者 朱道恒 李志强 《科学技术与工程》 北大核心 2021年第34期14625-14633,共9页
针对最大互信息系数(maximal information coefficient,MIC)近似算法在大规模数据场景下的计算时间复杂度高,计算时间增长快的问题,提出一种最大互信息系数并行计算(parallel computing maximal information coefficient,PCMIC)方法。... 针对最大互信息系数(maximal information coefficient,MIC)近似算法在大规模数据场景下的计算时间复杂度高,计算时间增长快的问题,提出一种最大互信息系数并行计算(parallel computing maximal information coefficient,PCMIC)方法。分别在Spark和Spark-MPI(message passing interface)计算框架中,在不同的数据规模和不同的噪声水平下,利用PCMIC算法对14种典型的相关关系做并行计算。另外在不同节点数的情况下,选择两种具有代表性的相关关系来测试PCMIC算法在两种计算框架中的性能。结果表明:PCMIC算法在两种框架下的运算效果与原始MIC近似算法相比,同样具有普适性和均匀性,而且具有良好的可扩展性;随着数据规模和节点数的增加,PCMIC算法在两种框架中运算的时间增长明显比MIC近似算法慢,而且在Spark-MPI框架下的并行加速比和效率略优于Spark;Spark能够支持MPI任务的调度,为研究不同并行计算框架之间的融合奠定了一定的理论和应用基础。 展开更多
关键词 最大互信息系数 并行计算 最大互信息系数并行计算(PCMIC) SPARK 消息传递接口(MPI)
在线阅读 下载PDF
基于Spark的倾斜数据虚拟划分算法
2
作者 李俊丽 《计算机工程与设计》 北大核心 2021年第8期2271-2276,共6页
针对基于Spark的类别数据互信息的并行计算在数据倾斜情况下会造成某一个或几个reducer负载过重降低集群性能的现状,重新定义数据倾斜模型来量化由Spark创建的分区之间的数据倾斜度,提出数据虚拟划分算法DVP。通过将同一个键添加随机前... 针对基于Spark的类别数据互信息的并行计算在数据倾斜情况下会造成某一个或几个reducer负载过重降低集群性能的现状,重新定义数据倾斜模型来量化由Spark创建的分区之间的数据倾斜度,提出数据虚拟划分算法DVP。通过将同一个键添加随机前缀更改为几个不同的键,减少单个任务处理过量数据的情况;在一个24节点的Spark集群中实现DVP算法,通过与Spark传统的哈希算法DEFH比较,实验验证了DVP算法减轻了Spark Shuffle过程中的数据倾斜,减少了在负载均衡方面的耗时。 展开更多
关键词 数据倾斜 虚拟划分 类别数据 互信息并行计算 负载均衡
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部