期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
基于Hadoop架构的电力系统连锁故障分布式计算技术 被引量:13
1
作者 刘友波 刘洋 +3 位作者 刘俊勇 李勇 刘挺坚 刁塑 《电力系统自动化》 EI CSCD 北大核心 2016年第7期90-97,共8页
以提升大规模组合故障快速仿真分析能力为目标,在Hadoop框架下研发了连锁故障分布式计算技术。基于PSD-BPA软件计算模块,利用Java开发连锁故障计算分析功能,实现驱动判定、故障集筛选、事故链搜索、严重度评估4类模块。通过部署Hadoop... 以提升大规模组合故障快速仿真分析能力为目标,在Hadoop框架下研发了连锁故障分布式计算技术。基于PSD-BPA软件计算模块,利用Java开发连锁故障计算分析功能,实现驱动判定、故障集筛选、事故链搜索、严重度评估4类模块。通过部署Hadoop分布式文件系统(HDFS)存储调度功能,将事故链解耦为小粒度单一故障场景进行计算,可针对连锁故障仿真的不同复杂度提供跨系统的分布式计算服务,灵活应对计算开始前连锁故障中事故链组合的不可预测性。利用10机、16机系统和某省网实际数据进行技术测试,结果表明所研发系统实现了连锁故障分析应用与数据在计算服务网络中的分离,具备动态调配计算节点资源的能力,能自动适应事件规模为电网连锁故障的仿真分析提供强大计算能力,具有在线应用前景。 展开更多
关键词 连锁故障 分布式计算 hadoop分布式文件系统(HDFS) PSD-BPA
在线阅读 下载PDF
面向Hadoop分布式文件系统的小文件存取优化方法 被引量:13
2
作者 李铁 燕彩蓉 +1 位作者 黄永锋 宋亚龙 《计算机应用》 CSCD 北大核心 2014年第11期3091-3095,3099,共6页
为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装... 为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装成大文件之后存至HDFS;当从HDFS获取文件时,根据基于文件关联关系的预取算法来提高文件访问效率,并提出基于预取的缓存替换算法来管理缓存空间,从而提高文件的命中率。实验结果表明,SmartFS有效减少了HDFS中NameNode的元数据空间,减少了用户与HDFS的交互次数,提高了小文件的存储效率和访问速度。 展开更多
关键词 hadoop分布式文件系统 小文件 文件关联 预取 缓存
在线阅读 下载PDF
基于MapReduce的Hadoop大表导入编程模型 被引量:13
3
作者 陈吉荣 乐嘉锦 《计算机应用》 CSCD 北大核心 2013年第9期2486-2489,2561,共5页
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长... 针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高。 展开更多
关键词 编程模型 hadoop MAPREDUCE hadoop分布式文件系统 Sqoop
在线阅读 下载PDF
Hadoop数据存储分析技术在风电并网系统中的应用 被引量:13
4
作者 韩平平 张祥民 +1 位作者 丁明 张晓安 《电力系统及其自动化学报》 CSCD 北大核心 2018年第1期43-50,共8页
随着风电规模的不断扩大,现有数据处理方案将难以适应风电并网环境对海量数据高效存储分析的要求。本文将分布式系统基础架构Hadoop应用于风电数据的存储和分析,给出了基于分布式文件系统HDFS的风电数据存储方案。将均方根RMS转化算法... 随着风电规模的不断扩大,现有数据处理方案将难以适应风电并网环境对海量数据高效存储分析的要求。本文将分布式系统基础架构Hadoop应用于风电数据的存储和分析,给出了基于分布式文件系统HDFS的风电数据存储方案。将均方根RMS转化算法基于并行计算框架MapReduce实现,对存储于HDFS的低电压穿越LVRT测试数据进行分析计算。通过存储耗时对比实验,验证了HDFS在存储LVRT数据方面的高效性。通过RMS算法计算耗时对比实验,验证了MapReduce算法在分析计算LVRT数据方面的优越性。算例结果表明,将Hadoop数据存储分析技术应用于风电并网系统是可行的。 展开更多
关键词 hadoop 分布式文件系统 MAPREDUCE 低电压穿越 存储耗时 计算耗时
在线阅读 下载PDF
Hadoop分布式文件系统的模型分析 被引量:22
5
作者 王峰 雷葆华 《电信科学》 北大核心 2010年第12期95-99,共5页
Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到了业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模入手,通过对模型各组成部分进行分析... Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到了业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模入手,通过对模型各组成部分进行分析,并将其与传统的分布式文件系统进行比较,总结出Hadoop分布式文件系统具有的海量、高可扩展性、高可靠性、高性能等面向云计算领域应用的重要特征。本文有助于研究者系统、深入地研究Hadoop分布式文件系统的设计与实现,并为云计算背景下的分布式文件系统设计提供重要的参考。 展开更多
关键词 hadoop分布式文件系统 系统模型 云计算
在线阅读 下载PDF
基于Hadoop平台的分布式重删存储系统 被引量:16
6
作者 刘青 付印金 +1 位作者 倪桂强 梅建民 《计算机应用》 CSCD 北大核心 2016年第2期330-335,共6页
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop... 针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,Map Reduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。 展开更多
关键词 重复数据删除 分布式存储 hadoop HBASE hadoop分布式文件系统
在线阅读 下载PDF
单机下Hadoop小文件处理性能分析 被引量:9
7
作者 袁玉 崔超远 +1 位作者 乌云 陈祝红 《计算机工程与应用》 CSCD 2013年第3期57-60,共4页
Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Had... Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Hadoop的工作流程和原理上解释了出现此性能差异的原因。通过分析得出多个小文件整合为一个数据片split有助于改善Hadoop处理小文件性能。 展开更多
关键词 hadoop hadoop的分布式文件系统(HDFS) MAPREDUCE 小文件处理 文件输入格式
在线阅读 下载PDF
Hadoop平台下的并行Web日志挖掘算法 被引量:6
8
作者 周诗慧 殷建 《计算机工程》 CAS CSCD 2013年第6期43-46,共4页
当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明,该算... 当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法。 展开更多
关键词 hadoop框架 WEB挖掘 WEB日志 MapReduce编程模式 hadoop分布式文件系统 并行FP-growth算法
在线阅读 下载PDF
Hadoop中处理小文件的四种方法的性能分析 被引量:8
9
作者 李三淼 李龙澍 《计算机工程与应用》 CSCD 北大核心 2016年第9期44-49,共6页
Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集。但是在实际应用中,却存在着大量的小文件。一般情况下有四种处理海量小文件的方法,分别为默认输入格式Text Input Format、为处理小文件而设计的Combine File Input ... Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集。但是在实际应用中,却存在着大量的小文件。一般情况下有四种处理海量小文件的方法,分别为默认输入格式Text Input Format、为处理小文件而设计的Combine File Input Format输入格式、Sequence File技术以及Harballing技术。为了比较在相同的Hadoop分布式环境下这四种技术处理大量小文件时的性能,选用了典型的数据集,利用词频统计程序,来比较四种小文件处理技术的性能差异。实验研究表明,在不同需求下处理大量小文件的时候,选用适当的处理方法能够在很大程度上提高大量小文件的处理效率。 展开更多
关键词 hadoop 小文件处理 hadoop的分布式文件系统(HDFS) MAPREDUCE 大数据
在线阅读 下载PDF
基于虚拟化平台的Hadoop应用I/O性能分析 被引量:1
10
作者 郭梦影 蒋德钧 +1 位作者 陈静 熊劲 《计算机研究与发展》 EI CSCD 北大核心 2015年第S2期155-162,共8页
MapReduce编程模型在大规模并行化应用的设计和开发领域正在发挥越来越重要的作用.同时,Hadoop又是现在被广泛使用的云平台中数据密集型应用开发的开源MapReduce实现方式.众所周知,在云计算中最小的计算单元就是虚拟机,虚拟机有充分利... MapReduce编程模型在大规模并行化应用的设计和开发领域正在发挥越来越重要的作用.同时,Hadoop又是现在被广泛使用的云平台中数据密集型应用开发的开源MapReduce实现方式.众所周知,在云计算中最小的计算单元就是虚拟机,虚拟机有充分利用系统资源,使系统便于管理,提高系统可靠性和节省开销等多种优点.该文将通过一系列实验对不同虚拟化平台上Hadoop应用的I/O性能进行评测分析,这些实验的结果可以作为将来选择虚拟机类型的标准,以便Hadoop应用能够在虚拟化平台中获得最好的I/O性能. 展开更多
关键词 MAPREDUCE hadoop 分布式文件系统 虚拟机 I/O性能
在线阅读 下载PDF
基于Hadoop的大气污染物质量浓度预测系统设计 被引量:3
11
作者 丁凡 马敏劲 +1 位作者 胡昱全 胡国辉 《兰州大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第4期472-475,484,共5页
针对大气污染物质量浓度预测及其大规模数据计算问题,设计了一种基于随机森林算法的污染物质量浓度预测算法,采用MapReduce并行计算框架并行化计算空气质量指数,实现了基于Hadoop平台的空气污染物质量浓度预测系统.通过试验比较了基于... 针对大气污染物质量浓度预测及其大规模数据计算问题,设计了一种基于随机森林算法的污染物质量浓度预测算法,采用MapReduce并行计算框架并行化计算空气质量指数,实现了基于Hadoop平台的空气污染物质量浓度预测系统.通过试验比较了基于随机森林算法和基于线性拟合算法的计算结果,显示本算法能够有效降低大气污染物质量浓度的预测误差. 展开更多
关键词 分布式文件系统 hadoop 随机森林算法 空气质量指数
在线阅读 下载PDF
基于Hadoop云平台的空间属性数据挖掘技术研究 被引量:24
12
作者 李娟 《南京理工大学学报》 CAS CSCD 北大核心 2022年第4期419-426,共8页
为了提升数据挖掘效率,为众多空间数据应用领域提供数据支撑,提出基于Hadoop云平台的空间属性数据挖掘技术:利用分布式编程模型MapReduce和Hadoop分布式文件系统构建Hadoop云平台,在云平台中实现分布式计算、数据挖掘、业务响应以及用... 为了提升数据挖掘效率,为众多空间数据应用领域提供数据支撑,提出基于Hadoop云平台的空间属性数据挖掘技术:利用分布式编程模型MapReduce和Hadoop分布式文件系统构建Hadoop云平台,在云平台中实现分布式计算、数据挖掘、业务响应以及用户交互;其中数据挖掘层利用归一化变换将空间数据与属性数据调整为正态分布并统一量纲后,采用快速独立成分分析算法去噪处理变换后数据;依据贝叶斯分类理论以及极大后验和似然假设构建朴素贝叶斯分类器,将去噪处理后的数据作为分类器输入,完成空间属性数据挖掘。试验结果表明该技术应用在农业生产中,可以增加经济效益,数据经去噪后峰值信噪比与结构相似性较高,可有效挖掘城市空间属性数据,且具有较高数据挖掘速度。 展开更多
关键词 hadoop云平台 空间属性 数据挖掘技术 hadoop分布式文件系统 用户交互 分布式计算
在线阅读 下载PDF
基于Hadoop的海量气象水文数据并发处理模型 被引量:10
13
作者 李辉 王建文 叶明雯 《计算机应用》 CSCD 北大核心 2018年第A02期187-191,205,共6页
针对关系型数据库以及单节点处理难以满足海量气象水文数据存储与处理的问题,提出了一种基于Hadoop的海量气象水文数据并发处理模型(CPHDH)。该模型结合云计算技术,利用计算机集群以及HDFS文件系统实现海量气象水文数据的分布式存储;同... 针对关系型数据库以及单节点处理难以满足海量气象水文数据存储与处理的问题,提出了一种基于Hadoop的海量气象水文数据并发处理模型(CPHDH)。该模型结合云计算技术,利用计算机集群以及HDFS文件系统实现海量气象水文数据的分布式存储;同时,基于MapReduce编程框架完成海量气象水文数据的高效并行处理。仿真实验中,CPHDH能够有效利用Hadoop平台的分布式存储和并行处理框架实现海量降雨要素信息的高效存储和处理,相比单机运行基于遗传算法的气象观测数据区间值属性约简算法(MOIvGA)进行降水影响因子属性约简,CPHDH中的属性子集对无雨、小雨和中雨预测效率分别提高了10. 74%、6. 19%、4. 42%。 展开更多
关键词 海量气象水文数据 hadoop 分布式文件存储系统 MAPREDUCE 并发处理
在线阅读 下载PDF
大数据存储架构和算法研究综述 被引量:37
14
作者 杨俊杰 廖卓凡 冯超超 《计算机应用》 CSCD 北大核心 2016年第9期2465-2471,共7页
随着大数据计算需求的增长,集群的处理速度需要得到快速的提升,然而目前大数据处理框架的处理性能已逐渐满足不了这种快速增长的需求。由于集群的存储架构是分布式存储,因此数据的存放在大数据处理过程中成为影响集群的处理性能的因素... 随着大数据计算需求的增长,集群的处理速度需要得到快速的提升,然而目前大数据处理框架的处理性能已逐渐满足不了这种快速增长的需求。由于集群的存储架构是分布式存储,因此数据的存放在大数据处理过程中成为影响集群的处理性能的因素之一。首先,对当今的分布式文件存储系统的结构进行了介绍;接着,根据不同的优化目标,例如减少网络负载、负载均衡、降低能耗和高容错性等,对近年国内外大数据存储算法的研究进行了总结,分析和对比了已有算法的优点以及存在的问题;最后,对大数据存储架构和优化算法设计的挑战和未来研究方向作了展望。 展开更多
关键词 大数据 数据部署 分布式文件系统 MAPREDUCE hadoop
在线阅读 下载PDF
HDFS下载效率的优化 被引量:23
15
作者 曹宁 吴中海 +1 位作者 刘宏志 张齐勋 《计算机应用》 CSCD 北大核心 2010年第8期2060-2065,2240,共7页
针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法... 针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法能更好地提高下载效率和均衡DataNode的负载。 展开更多
关键词 云计算 hadoop档案系统(HDFS) 多线程 并行下载
在线阅读 下载PDF
MongoDB索引的用电信息非结构化数据存储方法 被引量:12
16
作者 徐英辉 祝恩国 +1 位作者 赵睿 杨挺 《电力系统及其自动化学报》 CSCD 北大核心 2017年第9期93-97,共5页
随着用电信息采集系统的健全,双向互动化功能的需求增加,系统所承载的用电信息由最初的规整结构化数据演变成结构化数据和多类型非结构化数据的混杂,且数据量也日益聚增。本文对用电信息采集系统的非结构化数据组成进行了梳理,从数据源... 随着用电信息采集系统的健全,双向互动化功能的需求增加,系统所承载的用电信息由最初的规整结构化数据演变成结构化数据和多类型非结构化数据的混杂,且数据量也日益聚增。本文对用电信息采集系统的非结构化数据组成进行了梳理,从数据源角度出发,按照客户用电信息数据和客户数据两大类别,分别对用电信息采集系统涉及的A、B、C、D、E 5类用户进行了非结构化数据特征分析。本文提出采用MongoDB索引Hadoop分布式文件系统的新型用电信息采集系统非结构化数据存储方法,实现对系统中混杂非结构化数据的分类存储和准确实时读写,为双向互动化功能提供了良好底层泛在数据支撑。 展开更多
关键词 非结构化数据 用电信息数据 hadoop分布式文件系统 MONGODB
在线阅读 下载PDF
SQL-DFS:一种基于HDFS的海量小文件存储系统 被引量:7
17
作者 马志强 杨双涛 +1 位作者 闫瑞 张泽广 《北京工业大学学报》 CAS CSCD 北大核心 2016年第1期134-141,共8页
针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件... 针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件元数据由Name Node内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对Name Node的请求次数;通过将部分Data Node文件块的校验工作交由元数据存储集群完成,进一步降低了Name Node节点的负载压力.最终通过搭建HDFS和SQL-DFS实验平台,对HDFS和SQL-DFS 2种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS架构,具有更好的小文件存储能力,可用于海量小文件的存储. 展开更多
关键词 hadoop分布式文件系统(HDFS) 元数据存储集群 小文件 元数据 内存占用率
在线阅读 下载PDF
基于新型存储器件的分布式文件系统性能优化 被引量:7
18
作者 董聪 张晓 +1 位作者 程文迪 石佳 《计算机应用》 CSCD 北大核心 2020年第12期3594-3603,共10页
新型存储器件的I/O性能通常比传统固态驱动器(SSD)高一个数量级,然而使用新型存储器件的分布式文件系统相对于使用SSD的分布式文件系统性能并没有显著的提高,这说明目前的分布式文件系统并不能充分发挥新型存储器件的性能。针对这个问题... 新型存储器件的I/O性能通常比传统固态驱动器(SSD)高一个数量级,然而使用新型存储器件的分布式文件系统相对于使用SSD的分布式文件系统性能并没有显著的提高,这说明目前的分布式文件系统并不能充分发挥新型存储器件的性能。针对这个问题,对Hadoop分布式文件系统(HDFS)的数据写入流程及传输过程进行了量化分析。通过量化分析HDFS数据写入过程各阶段的时间开销,发现在写入数据的各个阶段中,节点间数据传输的时间占比较大。因此提出了对应的优化方案,通过异步写入的方式并行化数据传输与处理过程,使得不同数据包的处理阶段叠加起来,减少了数据包整体的处理时间,从而提升了HDFS的写入性能。实验结果表明,所提方案将HDFS的写入吞吐量提升了15%~24%,总体的写入执行时间降低了28%~36%。 展开更多
关键词 分布式文件系统 hadoop分布式文件系统 非易失性存储器 性能优化 异步写入
在线阅读 下载PDF
Namenode单点故障解决方案研究 被引量:27
19
作者 邓鹏 李枚毅 何诚 《计算机工程》 CAS CSCD 2012年第21期40-44,共5页
针对Hadoop分布式文件系统中的Namenode单点故障问题,在研究Secondary Namenode机制、Backup Node机制和FacebookAvatar机制的基础上,提出一种Avatar改进方案。主节点向备用节点转发客户端请求,使用Zookeeper实现故障切换,从而解决Namen... 针对Hadoop分布式文件系统中的Namenode单点故障问题,在研究Secondary Namenode机制、Backup Node机制和FacebookAvatar机制的基础上,提出一种Avatar改进方案。主节点向备用节点转发客户端请求,使用Zookeeper实现故障切换,从而解决Namenode的单点故障问题。利用Petri网模型在理论上证明了该方案的正确性,采用基于有限源的存储网络故障修复模型对该方案的可用性进行定量分析。实验结果表明,该方案具有不丢失数据、快速切换和故障自动恢复的特点。 展开更多
关键词 云计算 单点故障 hadoop分布式文件系统 高可用性 PETRI网 故障恢复
在线阅读 下载PDF
基于纠删码和动态副本策略的HDFS改进系统 被引量:10
20
作者 李晓恺 代翔 +1 位作者 李文杰 崔喆 《计算机应用》 CSCD 北大核心 2012年第8期2150-2153,2158,共5页
为了让Hadoop分布式文件系统(HDFS)达到更高的存储效率以及更加优化的负载均衡能力,针对HDFS的多副本存储技术提出了改进方案——Noah。Noah引入了编码和译码模块,对HDFS中的block进行编码分解,生成更多数量的数据分片(section),并随机... 为了让Hadoop分布式文件系统(HDFS)达到更高的存储效率以及更加优化的负载均衡能力,针对HDFS的多副本存储技术提出了改进方案——Noah。Noah引入了编码和译码模块,对HDFS中的block进行编码分解,生成更多数量的数据分片(section),并随机地分散保存到集群当中,替代原有系统的多副本容灾策略;在集群出现节点失效的情况下,通过收集与失效block相关的任意70%左右的section进行原始数据的恢复;同时根据分布式集群运行情况以及对副本数目需求的不同采用动态副本策略。通过相关的集群实验,表明Noah在容灾效率、负载均衡、存储成本以及安全性上对HDFS作了相应的优化。 展开更多
关键词 hadoop分布式文件系统 分布式存储 数据容灾 负载均衡 动态副本
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部