期刊文献+
共找到816篇文章
< 1 2 41 >
每页显示 20 50 100
基于MapReduce的拷贝数变异测序数据并行处理方案
1
作者 何亨 程凯莉 +1 位作者 张葵 成淑君 《计算机工程》 北大核心 2025年第5期177-187,共11页
拷贝数变异(CNV)作为一种遗传变异,广泛存在于人类基因组的基因分布中。CNV检测效率的提升不仅可以为更多的病患提供更加快速精确的CNV检测结果,大幅降低医疗成本,同时又有利于药物的研发和临床应用。基于读段深度(RD)的方法是目前最为... 拷贝数变异(CNV)作为一种遗传变异,广泛存在于人类基因组的基因分布中。CNV检测效率的提升不仅可以为更多的病患提供更加快速精确的CNV检测结果,大幅降低医疗成本,同时又有利于药物的研发和临床应用。基于读段深度(RD)的方法是目前最为常用的CNV检测方法,对RD相关信息的处理时间较长,在CNV检测中时间占比较高。现有方法无法有效应用于全基因组分析,存在计算效率较低、检测精度下降的问题。基于RD的CNV检测方法,提出一种高效的测序数据并行处理方案EPPCNV。在EPPCNV中,设计2个MapReduce作业串行执行的方法,实现高效全基因组测序数据的并行处理,精准地完成RD相关信息的提取;为充分考虑到GC含量偏差对CNV检测结果的影响,对测序数据的RDs进行校正处理,保证最终检测结果的高灵敏度与高精确度;采用独立于具体CNV检测方法的高适配性数据处理方式,其最终生成的RD相关信息能够与多种主流CNV检测方法直接结合,在不改变原方法对CNV区域判定的基础上,实现方法整体性能的大幅提升。实验结果表明,EPPCNV的综合准确率高,分别与CNV-LOF、HBOS-CNV以及CNVnator 3种方法直接结合,能够显著提升原方法的计算效率,并保证检测结果的高灵敏度与高精确度。对于覆盖深度越高、数据量越大的测序数据,CNV检测方法与EPPCNV结合后计算效率的提升更为显著。 展开更多
关键词 拷贝数变异检测 mapreduce作业 测序数据处理 读段深度 全基因组
在线阅读 下载PDF
一种MapReduce系统能耗优化的任务调度算法
2
作者 王珏 《江西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期364-370,共7页
该文以能耗为目标,将一个作业中的任务调度问题表述为整数线性规划,并在遵循服务级别协议的前提下,通过优化Map和Reduce任务在slot上的调度策略来最小化系统的能耗,提出了一种能耗敏感型的任务调度算法.实验结果表明:与其他常用的算法相... 该文以能耗为目标,将一个作业中的任务调度问题表述为整数线性规划,并在遵循服务级别协议的前提下,通过优化Map和Reduce任务在slot上的调度策略来最小化系统的能耗,提出了一种能耗敏感型的任务调度算法.实验结果表明:与其他常用的算法相比,该算法在TeraSort、PageRank和k-means聚类工作负载上能够接近能耗的最小值. 展开更多
关键词 mapreduce 大数据 整数线性规划 调度策略
在线阅读 下载PDF
结合MapReduce框架的离群因子检测算法
3
作者 徐树奎 张煜 +2 位作者 李海霞 常海艳 张和伟 《火力与指挥控制》 CSCD 北大核心 2024年第11期128-132,共5页
离群因子检测目的是检测与大部分其他对象显著不同的数据对象。近年来,在某些分组计算应用场景下,数据量十分巨大,现有算法采用的欧氏距离计算开销不断增大,存在两个较有挑战性问题:1)组间数据对象数量十分巨大,计算耗时较长,开销较大;2... 离群因子检测目的是检测与大部分其他对象显著不同的数据对象。近年来,在某些分组计算应用场景下,数据量十分巨大,现有算法采用的欧氏距离计算开销不断增大,存在两个较有挑战性问题:1)组间数据对象数量十分巨大,计算耗时较长,开销较大;2)数据对象维度逐渐增多,算法时间开销大。将MapReduce计算框架与LOF算法相结合,解决上述问题。实验证明,引入了MapReduce分布式计算框架的改进算法可以有效提升大量数据中检测离群点的效率。 展开更多
关键词 离群因子检测 LOF算法 mapreduce框架 分布式计算
在线阅读 下载PDF
迭代式MapReduce研究进展 被引量:2
4
作者 李金忠 汤鹏杰 +1 位作者 夏洁武 谭云兰 《计算机工程与应用》 CSCD 北大核心 2015年第12期123-132,共10页
迭代计算普遍存在于大数据处理中,而传统的MapReduce不能显式地支持迭代计算。近几年,研究者扩展和改进原始MapReduce,已开发了若干迭代式MapReduce以更好地为大数据处理而支持迭代计算。对迭代式MapReduce编程框架进行综合评述,较详细... 迭代计算普遍存在于大数据处理中,而传统的MapReduce不能显式地支持迭代计算。近几年,研究者扩展和改进原始MapReduce,已开发了若干迭代式MapReduce以更好地为大数据处理而支持迭代计算。对迭代式MapReduce编程框架进行综合评述,较详细地阐述了这些研究成果,给出了它们各自的基本思想,并分析了它们各自的特点、优势和不足,且对比了它们所采用的一些技术。对迭代式MapReduce未来的发展趋势进行了展望。 展开更多
关键词 mapreduce 迭代计算 迭代式mapreduce 并行编程模型 大数据处理
在线阅读 下载PDF
MapReduce并行编程模型研究综述 被引量:189
5
作者 李建江 崔健 +2 位作者 王聃 严林 黄义双 《电子学报》 EI CAS CSCD 北大核心 2011年第11期2635-2642,共8页
MapReduce并行编程模型通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度.本文对MapReduce的国内外相关研究现状进行了综述,阐述和分析了当前国内外与MapReduce相关的典型研究成... MapReduce并行编程模型通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度.本文对MapReduce的国内外相关研究现状进行了综述,阐述和分析了当前国内外与MapReduce相关的典型研究成果的特点和不足,重点对MapReduce涉及的关键技术(包括:模型改进、模型针对不同平台的实现、任务调度、负载均衡和容错)的研究现状进行了深入的分析.本文最后还对MapReduce未来的发展趋势进行了展望. 展开更多
关键词 mapreduce 并行编程模型 运行时支持库 海量数据处理
在线阅读 下载PDF
大数据分析——RDBMS与MapReduce的竞争与共生 被引量:386
6
作者 覃雄派 王会举 +1 位作者 杜小勇 王珊 《软件学报》 EI CSCD 北大核心 2012年第1期32-45,共14页
在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40年的发展,在扩展性方面遇... 在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce的优秀思想改造自身,而以MapReduce为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置. 展开更多
关键词 大数据 深度分析 关系数据管理技术 mapreduce
在线阅读 下载PDF
MapReduce大数据处理平台与算法研究进展 被引量:97
7
作者 宋杰 孙宗哲 +2 位作者 毛克明 鲍玉斌 于戈 《软件学报》 EI CSCD 北大核心 2017年第3期514-543,共30页
综述了近年来基于MapReduce编程模型的大数据处理平台与算法的研究进展.首先介绍了12个典型的基于MapReduce的大数据处理平台,分析对比它们的实现原理和适用场景,抽象其共性;随后介绍基于MapReduce的大数据分析算法,包括搜索算法、数据... 综述了近年来基于MapReduce编程模型的大数据处理平台与算法的研究进展.首先介绍了12个典型的基于MapReduce的大数据处理平台,分析对比它们的实现原理和适用场景,抽象其共性;随后介绍基于MapReduce的大数据分析算法,包括搜索算法、数据清洗/变换算法、聚集算法、连接算法、排序算法、偏好查询、最优化算法、图算法、数据挖掘算法,将这些算法按照MapReduce实现方式分类,分析影响算法性能的因素;最后,将大数据处理算法抽象为外存算法,并对外存算法的特征加以梳理,提出了普适的外存算法性能优化方法的研究思路和问题,以供研究人员参考.具体包括优化外存算法的磁盘I/O、优化外存算法的局部性以及设计增量式迭代算法.现有的大数据处理平台和算法研究多集中在基于资源分配和任务调度的平台动态性能优化、特定算法并行化、特定算法性能优化等领域,所提出的外存算法性能优化属于静态优化方法,是现有研究的良好补充,为研究人员提供了广阔的研究空间. 展开更多
关键词 大数据 mapreduce 外存算法 大数据处理 算法性能优化
在线阅读 下载PDF
MapReduce框架下基于R-树的k-近邻连接算法 被引量:60
8
作者 刘义 景宁 +1 位作者 陈荦 熊伟 《软件学报》 EI CSCD 北大核心 2013年第8期1836-1851,共16页
针对大规模空间数据的高性能k-近邻连接查询处理,研究了MapReduce框架下基于R-树索引的k-近邻连接查询处理.首先利用无依赖并行和串行同步计算的形式化定义抽象了MapReduce并行编程模型,基于此并行计算模型抽象,分别提出了R-树索引快速... 针对大规模空间数据的高性能k-近邻连接查询处理,研究了MapReduce框架下基于R-树索引的k-近邻连接查询处理.首先利用无依赖并行和串行同步计算的形式化定义抽象了MapReduce并行编程模型,基于此并行计算模型抽象,分别提出了R-树索引快速构建算法和基于R-树的并行k-近邻连接算法.在索引构建过程中,提出一种采样算法以快速确立空间划分函数,使得索引构建符合无依赖并行和串行同步计算抽象,在MapReduce框架下非常容易进行表达.在k-近邻连接查询过程中,基于构建的分布式R-树索引,引入k-近邻扩展框限定查询范围并进行数据划分,然后利用R-树索引进行k-近邻连接查询,提高了查询效率.从理论上分析了所提出算法的通信和计算代价.实验与分析结果表明,该算法在真实数据集的查询上具有良好的效率和可扩展性能,可以很好地支持大规模空间数据的k-近邻连接查询处理,具有良好的实用价值. 展开更多
关键词 云计算 mapreduce k-近邻连接 空间查询 R-树
在线阅读 下载PDF
基于MapReduce的分布式近邻传播聚类算法 被引量:53
9
作者 鲁伟明 杜晨阳 +2 位作者 魏宝刚 沈春辉 叶振超 《计算机研究与发展》 EI CSCD 北大核心 2012年第8期1762-1772,共11页
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处... 随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间. 展开更多
关键词 近邻传播聚类 分布式计算 mapreduce 数据划分 聚类融合
在线阅读 下载PDF
基于消息传递机制的MapReduce图算法研究 被引量:45
10
作者 潘巍 李战怀 +1 位作者 伍赛 陈群 《计算机学报》 EI CSCD 北大核心 2011年第10期1768-1784,共17页
单机运行环境难以满足基于海量数据的大图算法对时空开销的需求,如何设计高效的面向云计算环境的分布式大图算法越来越受到人们的关注,MapReduce作为云计算的核心计算模式受限于易并行(EP)计算模型的制约不易表达图算法.文中突破了MapRe... 单机运行环境难以满足基于海量数据的大图算法对时空开销的需求,如何设计高效的面向云计算环境的分布式大图算法越来越受到人们的关注,MapReduce作为云计算的核心计算模式受限于易并行(EP)计算模型的制约不易表达图算法.文中突破了MapReduce基于易并行计算的假设,增强了MapReduce既有的编程规范,新的大同步(BSP)计算模型既能保证兼容旧的MapReduce作业可以无改动的运行,同时引入消息传递机制允许变化的状态数据在并行任务的超级步间进行交互.系统提供高度灵活的消息自定义接口,针对不同应用需求设计了轻量级和重量级两种自适应的消息传递机制,更高效地支持有数据交互需求的包含迭代处理的一大类图算法.在真实大规模图数据集上的实验结果表明,相比于原始的MapReduce作业外部链式处理,该文提出的BSP模型下的内部超级步迭代计算模式大幅降低了大图算法的处理时间. 展开更多
关键词 云计算 mapreduce 大同步模型 消息传递 图算法 PAGERANK
在线阅读 下载PDF
MapReduce优化技术综述 被引量:30
11
作者 黄山 王波涛 +2 位作者 王国仁 于戈 李佳佳 《计算机科学与探索》 CSCD 2013年第10期865-885,共21页
作为一种处理大数据的并行编程模型,MapReduce由于其良好的可扩展性、可用性、容错性,得到了学术界和工业界的关注。针对MapReduce在应用领域中的不足,已经存在大量的优化技术。介绍了MapReduce框架,比较了现存的MapReduce列存储、索引... 作为一种处理大数据的并行编程模型,MapReduce由于其良好的可扩展性、可用性、容错性,得到了学术界和工业界的关注。针对MapReduce在应用领域中的不足,已经存在大量的优化技术。介绍了MapReduce框架,比较了现存的MapReduce列存储、索引、连接、迭代计算、科学计算及调度算法方面的优化技术,分析了MapReduce技术研究的挑战性问题,指出了未来研究方向。 展开更多
关键词 mapreduce 列存储 索引 连接 迭代 科学计算 调度算法 优化
在线阅读 下载PDF
基于增量式分区策略的MapReduce数据均衡方法 被引量:25
12
作者 王卓 陈群 +2 位作者 李战怀 潘巍 尤立 《计算机学报》 EI CSCD 北大核心 2016年第1期19-35,共17页
MapReduce以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析.开源系统Hadoop很好地实现了MapReduce模型,但由于自身采用一次分区机制,即通过Hash/Range分区函数对数据进行一次划分,导致... MapReduce以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析.开源系统Hadoop很好地实现了MapReduce模型,但由于自身采用一次分区机制,即通过Hash/Range分区函数对数据进行一次划分,导致在处理密集数据时,Reduce端常会出现数据倾斜的问题.虽然系统为用户提供了自定义分区函数方法,但不幸的是在不清楚输入数据分布的情况下,数据倾斜问题很难被避免.为解决数据划分的不均衡,该文提出一种将分区向Reducer指派时按照多轮分配的分区策略.该方法首先在Map端产生多于Reducer个数的细粒度分区,同时在Mapper运行过程中实时统计各细粒度分区的数据量;然后由JobTracker根据全局的分区分布信息筛选出部分未分配的细粒度分区,并用代价评估模型将选中的细粒度分区分配到各Reducer上;依照此方法,经过多轮的筛选、分配,最终在执行Reduce()函数前,将所有细粒度分区分配到Reduce端,以此解决分区后各Reducer接收数据总量均衡的问题.最后在Zipf分布数据集和真实数据集上与现有的分区切分方法Closer进行了对比,增量式分区策略更好地解决了数据划分后的均衡问题. 展开更多
关键词 增量分配 细粒度分区 数据倾斜 均衡分区 mapreduce 大数据
在线阅读 下载PDF
一种能效优化的MapReduce资源比模型 被引量:21
13
作者 宋杰 刘雪冰 +3 位作者 朱志良 李甜甜 赵大哲 于戈 《计算机学报》 EI CSCD 北大核心 2015年第1期59-73,共15页
随着云计算的快速发展,IT资源规模的不断扩大导致能耗问题日益凸显.为降低MapReduce编程模型带来的高能耗,文中研究Map/Reduce任务的资源消费特征及该特征与能效的关系,旨在寻找一种能够指导资源分配和任务调度的资源模型,进而实现能效... 随着云计算的快速发展,IT资源规模的不断扩大导致能耗问题日益凸显.为降低MapReduce编程模型带来的高能耗,文中研究Map/Reduce任务的资源消费特征及该特征与能效的关系,旨在寻找一种能够指导资源分配和任务调度的资源模型,进而实现能效优化.文中提出任务的能效与任务被分配的资源量无关,而与其被分配的各种资源的资源量比例相关,且存在一个"最佳资源比"使得能效达到最高.基于此,文中首先提出了普适的资源和能效模型,从模型层面证明最佳资源比和能效之间的关系,量化空闲资源量和空闲能耗;随后分析MapReduce编程模型,将普适资源比模型变换到MapReduce下.通过抽象的数据的"生产者-消费者"模式,求解Map/Reduce任务的最佳资源比;最后,通过实验从任务能效和空闲能耗两个角度证明了最佳资源比的存在,并根据实验结果,对MapReduce执行过程进行划分,给出了部分Map/Reduce任务的最佳资源比.最佳资源比的提出和求解将有利于基于该最佳资源比的任务调度和资源分配算法的研究,进而实现Map/Reduce任务能效的提高. 展开更多
关键词 云计算 能效 资源比 mapreduce
在线阅读 下载PDF
基于MapReduce的海量数据挖掘技术研究 被引量:35
14
作者 李伟卫 赵航 +1 位作者 张阳 王勇 《计算机工程与应用》 CSCD 2013年第20期112-117,共6页
MapReduce是一种编程模型,可以运行在异构环境下,编程简单,不必关心底层实现细节,用于大规模数据集的并行运算。将MapReduce应用在数据挖掘的三个算法中:朴素贝叶斯分类算法、K-modes聚类算法和ECLAT频繁项集挖掘算法。实验结果表明,在... MapReduce是一种编程模型,可以运行在异构环境下,编程简单,不必关心底层实现细节,用于大规模数据集的并行运算。将MapReduce应用在数据挖掘的三个算法中:朴素贝叶斯分类算法、K-modes聚类算法和ECLAT频繁项集挖掘算法。实验结果表明,在保证算法准确率的前提下,MapReduce可以有效提高海量数据挖掘工作的效率。 展开更多
关键词 云计算 数据挖掘 Hadoop mapreduce
在线阅读 下载PDF
Hadoop MapReduce短作业执行性能优化 被引量:28
15
作者 顾荣 严金双 +2 位作者 杨晓亮 袁春风 黄宜华 《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1270-1280,共11页
Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在... Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在处理对短作业响应性能有较高要求的查询应用时,Hadoop MapReduce并行计算框架存在明显不足.为了提升Hadoop对于短作业的执行效率,对原有的Hadoop MapReduce作出以下3点优化:1)通过优化原有的setup和cleanup任务的执行方式,成功地缩短了作业初始化环境准备和作业结束环境清理的时间;2)将首次任务分配从"拉"模式转变为"推"模式;3)将作业执行过程中JobTracker和TaskTrackers之间的控制消息通信从现有的周期性心跳机制中分离出来,采用即时传递机制.最后,采用一种典型的基于MapReduce并行化的查询应用BLAST,对优化工作进行了评估.各种不同类型BLAST作业的测试实验表明,与现有的标准Hadoop相比,优化后的Hadoop平均执行性能提升约23%. 展开更多
关键词 mapreduce 并行计算 短作业 性能优化 大数据处理
在线阅读 下载PDF
基于MapReduce的K-Medoids并行算法 被引量:33
16
作者 张雪萍 龚康莉 赵广才 《计算机应用》 CSCD 北大核心 2013年第4期1023-1025,1035,共4页
为了解决传统K-Medoids聚类算法在处理海量数据信息时所面临的内存容量和CPU处理速度的瓶颈问题,在深入研究K-Medoids算法的基础之上,提出了基于MapReduce编程模型的K-Medoids并行化算法思想。Map函数部分的主要任务是计算每个数据对象... 为了解决传统K-Medoids聚类算法在处理海量数据信息时所面临的内存容量和CPU处理速度的瓶颈问题,在深入研究K-Medoids算法的基础之上,提出了基于MapReduce编程模型的K-Medoids并行化算法思想。Map函数部分的主要任务是计算每个数据对象到簇类中心点的距离并(重新)分配其所属的聚类簇;Reduce函数部分的主要任务是根据Map部分得到的中间结果,计算出新簇类的中心点,然后作为中心点集给下一次MapReduce过程使用。实验结果表明:运行在Hadoop集群上的基于MapReduce的K-Medoids并行化算法具有较好的聚类结果和可扩展性,对于较大的数据集,该算法得到的加速比更接近于线性。 展开更多
关键词 K-Medoids 云计算 mapreduce 并行计算 HADOOP
在线阅读 下载PDF
MapReduce:新型的分布式并行计算编程模型 被引量:113
17
作者 李成华 张新访 +1 位作者 金海 向文 《计算机工程与科学》 CSCD 北大核心 2011年第3期129-135,共7页
MapReduce是Google提出的分布式并行计算编程模型,用于大规模数据的并行处理。Ma-pReduce模型受函数式编程语言的启发,将大规模数据处理作业拆分成若干个可独立运行的Map任务,分配到不同的机器上去执行,生成某种格式的中间文件,再由若干... MapReduce是Google提出的分布式并行计算编程模型,用于大规模数据的并行处理。Ma-pReduce模型受函数式编程语言的启发,将大规模数据处理作业拆分成若干个可独立运行的Map任务,分配到不同的机器上去执行,生成某种格式的中间文件,再由若干个Reduce任务合并这些中间文件获得最后的输出文件。用户在使用MapReduce模型进行大规模数据处理时,可以将主要精力放在如何编写Map和Reduce函数上,其它并行计算中的复杂问题诸如分布式文件系统、工作调度、容错、机器间通信等都交给MapReduce系统处理,在很大程度上降低了整个编程难度。MapReduce日益成为云计算平台的主流编程模型。Apache Hadoop项目提供开源的MapReduce系统还有待进一步完善。 展开更多
关键词 mapreduce 并行计算编程模型 云计算
在线阅读 下载PDF
Seadown:一种异构MapReduce集群中面向SLA的能耗管理方法 被引量:13
18
作者 林彬 李姗姗 +3 位作者 廖湘科 孟令丙 刘晓东 黄訸 《计算机学报》 EI CSCD 北大核心 2013年第5期977-987,共11页
数据中心的能耗管理已经成为大规模数据处理中的热点问题,其主要目标是控制相关成本的急剧增长.大量的工作围绕着在集群利用率较低时,关闭部分服务器来降低能耗,但是这些方法都严重受限于数据存储策略,同时难以保证应用的实时性能.MapRe... 数据中心的能耗管理已经成为大规模数据处理中的热点问题,其主要目标是控制相关成本的急剧增长.大量的工作围绕着在集群利用率较低时,关闭部分服务器来降低能耗,但是这些方法都严重受限于数据存储策略,同时难以保证应用的实时性能.MapReduce集群作为目前流行的大规模数据处理平台,能耗问题尤为突出.文中针对异构MapReduce集群,提出一种面向SLA的能耗管理方法Seadown.首先,提出一种混合数据副本存储策略,它允许关闭大量节点,同时保证数据的完整性和集群的容错能力.其次,设计了一种基于历史记录的响应时间预测方法,它根据服务器节点的数量、性能参数和运行时间的历史信息准确估计程序的响应时间,相对误差大都在6%以下.最后,通过选择性地关闭部分节点以达到最小化能耗,同时保证应用程序的实时性能.文中证明了该优化问题是NP-hard问题,并提出了一种启发式的节点关闭策略.实验结果表明,在节点关闭策略下MapReduce应用的实时性得以保证,同时降低了大量的能耗. 展开更多
关键词 能耗管理 节点可开关 mapreduce 数据中心 绿色计算
在线阅读 下载PDF
YARM:基于MapReduce的高效可扩展的语义推理引擎 被引量:17
19
作者 顾荣 王芳芳 +1 位作者 袁春风 黄宜华 《计算机学报》 EI CSCD 北大核心 2015年第1期74-85,共12页
随着语义网的快速发展,RDF语义数据大量涌现.大规模RDF语义数据推理的一个主要问题是计算量大、完成计算需要消耗很长的时间.显然,传统的单机语义推理引擎难以处理大规模的语义数据.另一方面,现有的基于MapReduce的大规模语义推理引擎,... 随着语义网的快速发展,RDF语义数据大量涌现.大规模RDF语义数据推理的一个主要问题是计算量大、完成计算需要消耗很长的时间.显然,传统的单机语义推理引擎难以处理大规模的语义数据.另一方面,现有的基于MapReduce的大规模语义推理引擎,缺乏对算法在分布和并行计算环境下执行效率的优化,使得推理时间仍然较长.此外,现有的推理引擎大多存在可扩展性方面的不足,难以适应大规模语义数据的增长需求.针对现有的语义推理系统在执行效率和可扩展性方面的不足,文中提出了一种基于MapReduce的并行化语义推理算法和引擎YARM.为了实现分布和并行计算环境下的高效推理,YARM做出了以下4点优化:(1)采用合理的数据划分模型和并行化算法,降低计算节点间的通信开销;(2)优化推理规则的执行次序,提升了推理计算速度;(3)设计了简洁的去重策略,避免新增作业处理重复数据;(4)设计实现了一种新的基于MapReduce的并行化推理算法.实验结果表明,在真实数据集和大规模合成数据集上,YARM的执行速度比当前最新的基于MapReduce的推理引擎快10倍左右,同时YARM还表现出更好的数据和系统可扩展性. 展开更多
关键词 RDF RDFS推理 mapreduce 语义推理 分布式推理
在线阅读 下载PDF
一种优化MapReduce系统能耗的任务分发算法 被引量:14
20
作者 宋杰 徐澍 +2 位作者 郭朝鹏 鲍玉斌 于戈 《计算机学报》 EI CSCD 北大核心 2016年第2期323-338,共16页
MapReduce是一种典型的分布式计算模型,一经提出就被迅速应用到大数据处理系统中.文中认为MapReduce系统在能耗方面存在优化空间.对于一个分布式并行计算系统,任务的并行性对任务执行性能影响显著,并行性保证方法在优化性能的前提下还... MapReduce是一种典型的分布式计算模型,一经提出就被迅速应用到大数据处理系统中.文中认为MapReduce系统在能耗方面存在优化空间.对于一个分布式并行计算系统,任务的并行性对任务执行性能影响显著,并行性保证方法在优化性能的前提下还应该考虑系统能耗.在MapReduce系统中,传统的Map任务分发算法采用"小任务多次分发的策略",这种策略虽然保证了并行性,但会浪费节点的处理能力,消耗额外的能量;而Reduce任务分发算法尚不能保证Reduce任务间的并行性.文中提出通过动态地调整Map任务和Reduce任务大小,也即任务处理数据量的规模来保证任务并行性,降低MapReduce系统的整体能耗.文中通过实验证明该方法能够有效地降低典型MapReduce作业的能耗. 展开更多
关键词 mapreduce 能耗 能耗优化 任务分发 并行性 云计算 大数据
在线阅读 下载PDF
上一页 1 2 41 下一页 到第
使用帮助 返回顶部