期刊文献+
共找到77篇文章
< 1 2 4 >
每页显示 20 50 100
HDFS下载效率的优化 被引量:23
1
作者 曹宁 吴中海 +1 位作者 刘宏志 张齐勋 《计算机应用》 CSCD 北大核心 2010年第8期2060-2065,2240,共7页
针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法... 针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法能更好地提高下载效率和均衡DataNode的负载。 展开更多
关键词 云计算 hadoop档案系统(hdfs) 多线程 并行下载
在线阅读 下载PDF
SQL-DFS:一种基于HDFS的海量小文件存储系统 被引量:7
2
作者 马志强 杨双涛 +1 位作者 闫瑞 张泽广 《北京工业大学学报》 CAS CSCD 北大核心 2016年第1期134-141,共8页
针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件... 针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件元数据由Name Node内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对Name Node的请求次数;通过将部分Data Node文件块的校验工作交由元数据存储集群完成,进一步降低了Name Node节点的负载压力.最终通过搭建HDFS和SQL-DFS实验平台,对HDFS和SQL-DFS 2种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS架构,具有更好的小文件存储能力,可用于海量小文件的存储. 展开更多
关键词 hadoop分布式文件系统(hdfs) 元数据存储集群 小文件 元数据 内存占用率
在线阅读 下载PDF
基于纠删码和动态副本策略的HDFS改进系统 被引量:10
3
作者 李晓恺 代翔 +1 位作者 李文杰 崔喆 《计算机应用》 CSCD 北大核心 2012年第8期2150-2153,2158,共5页
为了让Hadoop分布式文件系统(HDFS)达到更高的存储效率以及更加优化的负载均衡能力,针对HDFS的多副本存储技术提出了改进方案——Noah。Noah引入了编码和译码模块,对HDFS中的block进行编码分解,生成更多数量的数据分片(section),并随机... 为了让Hadoop分布式文件系统(HDFS)达到更高的存储效率以及更加优化的负载均衡能力,针对HDFS的多副本存储技术提出了改进方案——Noah。Noah引入了编码和译码模块,对HDFS中的block进行编码分解,生成更多数量的数据分片(section),并随机地分散保存到集群当中,替代原有系统的多副本容灾策略;在集群出现节点失效的情况下,通过收集与失效block相关的任意70%左右的section进行原始数据的恢复;同时根据分布式集群运行情况以及对副本数目需求的不同采用动态副本策略。通过相关的集群实验,表明Noah在容灾效率、负载均衡、存储成本以及安全性上对HDFS作了相应的优化。 展开更多
关键词 hadoop分布式文件系统 分布式存储 数据容灾 负载均衡 动态副本
在线阅读 下载PDF
基于用户信任值的HDFS访问控制模型研究 被引量:4
4
作者 史文浩 江国华 +1 位作者 秦小麟 王胜 《计算机科学与探索》 CSCD 北大核心 2016年第1期25-35,共11页
目前,越来越多的用户使用云存储来保存或备份数据,以增强数据的可移动性,但针对云存储的安全性问题,研究人员主要关注隐私泄露、数据容灾、副本消除等方面,对访问控制的研究较少。在前人研究的基础上,提出了一种基于用户信任值的HDFS(Ha... 目前,越来越多的用户使用云存储来保存或备份数据,以增强数据的可移动性,但针对云存储的安全性问题,研究人员主要关注隐私泄露、数据容灾、副本消除等方面,对访问控制的研究较少。在前人研究的基础上,提出了一种基于用户信任值的HDFS(Hadoop distributed file system)访问控制模型。该模型结合可信赖第三方认证系统Kerberos实现对用户的认证,并为每个用户设定一个信任值,通过信任值与信任值阈值的比较动态控制用户对HDFS的访问。实验结果表明,该模型不仅可以克服HDFS访问控制上的缺陷,而且能够动态、有效地控制用户对HDFS中资源的访问。 展开更多
关键词 云存储 hdfs 访问控制 信任值
在线阅读 下载PDF
Co-Work:基于HDFS的安全云存储数据一致性保持算法 被引量:4
5
作者 林穗 黄健 姜文超 《计算机工程与应用》 CSCD 北大核心 2017年第1期9-15,共7页
针对云存储平台中用户隐私和敏感数据的安全保护问题,在前期提出的基于自主可控机制的安全云存储模型ASOM(All Self-Organization Model)基础上,对MDSS端元数据的管理操作、MDSS和DMS之间的通信过程做进一步优化,针对ASOM模型实际场景... 针对云存储平台中用户隐私和敏感数据的安全保护问题,在前期提出的基于自主可控机制的安全云存储模型ASOM(All Self-Organization Model)基础上,对MDSS端元数据的管理操作、MDSS和DMS之间的通信过程做进一步优化,针对ASOM模型实际场景引入锁思想实现两个节点一致性的Co-Work算法,完成MDSS和DMS节点之间的协同工作和数据的一致性保持。同时,考虑网络带宽对ASOM中读写效率的影响,引入随机表机制,改变DSS上报的时间结点,以提高ASOM整体读写效率。测试结果表明:执行Co-Work算法后的ASOM模型实现了数据的物理与逻辑隔离,保证用户对元数据的自主控制和管理,而且随着数据尺寸增大读写效率明显提高,在数据达到1 GB时读写效率提高了12%。 展开更多
关键词 安全云存储 hadoop分布式文件系统(hdfs) 一致性
在线阅读 下载PDF
基于灰色马尔可夫链预测模型的HDFS云存储副本选择策略 被引量:3
6
作者 徐骁勇 潘郁 丁燕艳 《计算机应用》 CSCD 北大核心 2011年第A02期39-42,共4页
在Hadoop分布式文件系统(HDFS)云存储环境下,网络带宽和节点性能有限且动态变化,现有的副本选择策略无法根据环境的变化选择最合适副本。针对这一问题,提出一种综合考虑了网络带宽、节点I/O性能以及节点存储空间等因素,基于灰色马尔可... 在Hadoop分布式文件系统(HDFS)云存储环境下,网络带宽和节点性能有限且动态变化,现有的副本选择策略无法根据环境的变化选择最合适副本。针对这一问题,提出一种综合考虑了网络带宽、节点I/O性能以及节点存储空间等因素,基于灰色马尔可夫链预测模型的副本选择策略,以此在系统可用性和负载均衡性之间寻求一个平衡。最后通过仿真实验,验证了该策略的可行性与有效性。 展开更多
关键词 云存储 副本选择 灰色马尔可夫链 hadoop分布式文件系统
在线阅读 下载PDF
异构环境中HDFS数据块调度算法的设计与实现 被引量:2
7
作者 高原 任升 顾文杰 《计算机工程》 CAS CSCD 北大核心 2017年第8期82-89,共8页
针对Hadoop分布式文件系统(HDFS)的写性能在执行效率上的不足,提出一种在节点性能异构环境中对HDFS数据块进行并发传输的调度算法。该算法实时监控HDFS集群中每个节点的资源状态和内存缓存队列,动态地将接收节点与转发节点进行配对传输... 针对Hadoop分布式文件系统(HDFS)的写性能在执行效率上的不足,提出一种在节点性能异构环境中对HDFS数据块进行并发传输的调度算法。该算法实时监控HDFS集群中每个节点的资源状态和内存缓存队列,动态地将接收节点与转发节点进行配对传输,使全系统节点的网卡和磁盘并发工作,缩短了所有副本写入分布式文件系统的时间。将数据写入磁盘后请求下一个数据块,保证数据安全性,同时也使得各个节点获得与自身性能相匹配的副本数,使性能异构的系统能达到较高的写入速度。性能测试结果表明,使用该算法的分布式文件系统的写入性能较原始的HDFS提高了1倍。 展开更多
关键词 异构 hadoop分布式文件系统 并发 数据块 调度
在线阅读 下载PDF
基于HDFS的区域医学影像分布式存储架构设计 被引量:29
8
作者 李彭军 陈光杰 郭文明 《南方医科大学学报》 CAS CSCD 北大核心 2011年第3期495-498,共4页
构建区域医学影像协作平台是均衡医疗资源、提高基层医院诊疗水平、降低医疗费用的有效途径,但是构建区域化影像平台在技术和成本上还存在巨大的挑战。本文详细分析了传统集中式存储和HDFS(Hadoop Distributed File System)分布式存储... 构建区域医学影像协作平台是均衡医疗资源、提高基层医院诊疗水平、降低医疗费用的有效途径,但是构建区域化影像平台在技术和成本上还存在巨大的挑战。本文详细分析了传统集中式存储和HDFS(Hadoop Distributed File System)分布式存储系统的优缺点,设计了一种适合HDFS特点的S-DICOM文件格式,以及集中式存储(FC SAN)和分布式存储(HDFS集群)结合的统一存储架构,开发了一套SDFO(S-DICOM File Operator)中间件,为上层的PACS应用组件提供透明的存储访问接口。测试结果表明此架构可以满足海量医学影像资料的快速存取和处理需求。 展开更多
关键词 图像归档与传输系统 云计算 软件即服务 hadoop分布式文件系统
在线阅读 下载PDF
基于HDFS的创新知识云平台存储架构的研究与设计 被引量:4
9
作者 马建红 霍振奇 《计算机应用与软件》 CSCD 2016年第3期62-66,共5页
针对现有存储结构无法满足海量创新知识带来的存储及服务需求的问题,提出一种改进的HDFS(Hadoop Distributed File System)分布式存储系统并应用到创新知识云平台。首先引入包文件及分布式索引服务,改进HDFS小文件存储的效率问题,然后... 针对现有存储结构无法满足海量创新知识带来的存储及服务需求的问题,提出一种改进的HDFS(Hadoop Distributed File System)分布式存储系统并应用到创新知识云平台。首先引入包文件及分布式索引服务,改进HDFS小文件存储的效率问题,然后通过优化HDFS的命名空间备份及故障恢复服务,实现可用性更强、资源利用率更高的HDFS高可用架构。通过系统的设计和实现证明优化工作大大降低了命名节点的内存压力,提高了集群的可用性,并且改进的HDFS存储系统可以满足创新知识云平台的存储需求。 展开更多
关键词 创新知识 hdfs 小文件存储 单点故障
在线阅读 下载PDF
一种面向HDFS的数据随机访问方法 被引量:5
10
作者 李强 孙震宇 孙功星 《计算机工程与应用》 CSCD 北大核心 2017年第10期1-7,共7页
为了简化文件系统的实现,支持超大规模数据集的流式访问,HDFS牺牲了文件的随机访问功能,而在实际场景中很多应用都需要对文件进行随机访问。在深入分析HDFS数据读写原理的基础上,提出了一种面向HDFS的数据随机访问方法。其设计思想是为D... 为了简化文件系统的实现,支持超大规模数据集的流式访问,HDFS牺牲了文件的随机访问功能,而在实际场景中很多应用都需要对文件进行随机访问。在深入分析HDFS数据读写原理的基础上,提出了一种面向HDFS的数据随机访问方法。其设计思想是为Datanode添加本地数据访问接口,用户程序可以读取Datanode上存放的数据块文件以及把数据写入到Datanode上的数据块存放目录。文件的首副本由用户程序直接产生,其余副本在首副本写入完成之后采用数据复制的方式生成。此外,为数据块添加了权限管理功能,Datanode上的文件副本属于用户所有。若名字空间中文件权限发生变化,文件对应的数据块权限也会改变。测试表明,数据读取性能提升了约10%,数据写入性能提升了20%以上,在高并发下写入性能最大可提升2.5倍。 展开更多
关键词 hadoop分布式文件系统 随机访问 权限管理
在线阅读 下载PDF
HDFS中高效存储小文件的方法 被引量:10
11
作者 尹颖 林庆 林涵阳 《计算机工程与设计》 北大核心 2015年第2期406-409,共4页
为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一... 为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一块中存储多个小文件,并对系统加以实现,为海量小文件的存储提供了一个有效的解决方案。实验结果表明,该机制可以在数据迅速增长的背景下实现海量小文件的高效存取。 展开更多
关键词 hadoop分布式文件系统 海量小文件 性能优化 职责分离 合并小文件
在线阅读 下载PDF
SingleMapReduce:单一输出HDFS文件的MapReduce编程模型 被引量:2
12
作者 陈吉荣 乐嘉锦 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第5期135-142,共8页
经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件... 经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件.文中给出了HDFS的4个重要特征,提出了HDFS的"块典型分布"和"块非典型分布"的概念,设计了一种通过整合元数据来达到整合文件的算法.理论分析和实验结果表明:该模型的MapReduce计算的输出结果为单一文件;该模型可以再次以文件的形式对MapReduce计算的输出结果进行分片,并可用并行方式导入大表或大文件到HDFS中;该模型间接支持了名称节点的扩展性. 展开更多
关键词 分布式计算系统 元数据 MAPREDUCE hadoop分布式文件系统 名称节点 数据节点
在线阅读 下载PDF
基于HDFS的云存储系统小文件优化方案 被引量:9
13
作者 邹振宇 郑烇 +1 位作者 王嵩 杨坚 《计算机工程》 CAS CSCD 北大核心 2016年第3期34-40,46,共8页
Hadoop分布式文件系统(HDFS)具有高容错、可伸缩、廉价存储等优良特性,在大数据存储和分析场景中得到广泛应用。但对于海量小文件存储,HDFS存在高内存消耗、高延迟访问等缺陷。为此,结合"合肥城市云"系统"一次上传,多次... Hadoop分布式文件系统(HDFS)具有高容错、可伸缩、廉价存储等优良特性,在大数据存储和分析场景中得到广泛应用。但对于海量小文件存储,HDFS存在高内存消耗、高延迟访问等缺陷。为此,结合"合肥城市云"系统"一次上传,多次下载"的特性,提出一种基于小文件属性的优化方案。根据文件之间的相关性设定优先级,对小于5 MB的文件按优先级高低合并后再上传,并生成索引记录。结合随机化思想,采用两级缓存策略,将预提取数据缓存在内存池中,提高访问效率。同时,系统定期查询访问日志,根据用户访问习惯,动态调整预提取因子的大小。实验结果表明,该方案能有效提高小文件访问效率,降低名字节点和数据节点的内存开销,在有海量小文件存取的情况下提升系统的交互性。 展开更多
关键词 hadoop分布式文件系统 小文件 预提取 随机化 动态调整
在线阅读 下载PDF
HDFS存储和优化技术研究综述 被引量:42
14
作者 金国栋 卞昊穹 +1 位作者 陈跃国 杜小勇 《软件学报》 EI CSCD 北大核心 2020年第1期137-161,共25页
HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量... HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载这3个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向. 展开更多
关键词 hdfs 分布式文件系统 存储系统优化 数据分析
在线阅读 下载PDF
HDFS分级存储系统元数据管理方法的研究 被引量:13
15
作者 刘晓宇 夏立斌 +1 位作者 姜晓巍 孙功星 《计算机工程与应用》 CSCD 北大核心 2023年第17期257-265,共9页
随着高能物理实验规模的不断扩大和实验复杂度的提高,研究人员正面临海量数据存储的挑战,考虑到成本、能耗、存储周期及运维管理等问题,具有存储容量大、成本低特点的磁带库成为高能物理领域海量存储系统中必不可少的选择。但HDFS现有... 随着高能物理实验规模的不断扩大和实验复杂度的提高,研究人员正面临海量数据存储的挑战,考虑到成本、能耗、存储周期及运维管理等问题,具有存储容量大、成本低特点的磁带库成为高能物理领域海量存储系统中必不可少的选择。但HDFS现有异构存储研究不支持磁带库存储,无法满足高能物理Hadoop平台海量实验数据持久化和备份过程对于存储系统高性价比的需求。针对上述问题,为了构建支持磁盘-磁带存储的HDFS分级存储系统,使磁带层文件在HDFS中无缝融合,为用户提供统一的文件系统命名空间,调研了分布式文件系统元数据管理方法,在此基础上设计实现了HDFS分级存储系统中统一的元数据管理方法。该方法通过重新设计内存文件元数据结构,构建分级存储系统统一的内存目录树并实现其访问管理和可靠性保障,完成分级存储系统中不同层级文件元数据的集中统一管理。测试结果表明,该方法实现了分级存储系统异构资源上文件元数据的统一管理,提供了高效的元数据操作。基于该方法构建的分级存储系统可靠性高,在对不同规模大小的文件读写时,其读写吞吐量较优于高能物理领域传统分级存储系统EOSCTA。 展开更多
关键词 hdfs分布式文件系统 分级存储系统 内存元数据管理 统一命名空间 持久化
在线阅读 下载PDF
基于GE码的HDFS优化方案 被引量:7
16
作者 朱媛媛 王晓京 《计算机应用》 CSCD 北大核心 2013年第3期730-733,共4页
针对Hadoop分布式文件系统(HDFS)数据容灾效率和小文件问题,提出了基于纠删码的解决方案。该方案引用了新型纠删码(GE码)的编码和译码模块,对HDFS中的文件进行编码分片,生成很多个Slice并随机均匀的分配保存到集群中,代替原来HDFS系统... 针对Hadoop分布式文件系统(HDFS)数据容灾效率和小文件问题,提出了基于纠删码的解决方案。该方案引用了新型纠删码(GE码)的编码和译码模块,对HDFS中的文件进行编码分片,生成很多个Slice并随机均匀的分配保存到集群中,代替原来HDFS系统的多副本容灾策略。该方法中引入了Slice的新概念,将Slice进行分类合保存在block中并然后通过对Slice建立二级索引来解决小文件问题;该研究方法中抛弃了三备份机制,而是在集群出现节点失效的情况下,通过收集与失效文件相关的任意70%左右的Slice进行原始数据的恢复。通过相关的集群实验结果表明,该方法在容灾效率、小文件问题、存储成本以及安全性上对HDFS作了很大的优化。 展开更多
关键词 hadoop分布式文件系统 纠删码 数据容灾 两级索引
在线阅读 下载PDF
眼科医疗影像文件存取下的HDFS负载均衡 被引量:1
17
作者 刘烁阳 周丽娟 +1 位作者 任仲山 张树东 《计算机工程与应用》 CSCD 北大核心 2017年第2期253-259,264,共8页
在HDFS系统中,集群负载分配不均衡成为影响分布式文件存取速度的瓶颈。针对医院信息系统的负载现状,提出多属性双阈值决策的动态负载均衡算法,对分布式集群中使用HDFS默认的单属性评价、单阈值的负载均衡策略存在的缺陷加以改进。通过... 在HDFS系统中,集群负载分配不均衡成为影响分布式文件存取速度的瓶颈。针对医院信息系统的负载现状,提出多属性双阈值决策的动态负载均衡算法,对分布式集群中使用HDFS默认的单属性评价、单阈值的负载均衡策略存在的缺陷加以改进。通过负载性能测试,对比证明运用多属性双阈值的负载均衡算法相比较HDFS默认的负载均衡更有利于将大量的影像负载数据相对均衡地分配到服务器集群中的各个节点上,大幅度地缩短了增加数据规模时数据服务器节点的平均响应时间,有利于提高HDFS集群整体的工作效率。 展开更多
关键词 hadoop分布式文件系统(hdfs) 分布式集群 负载均衡 眼科医疗 影像文件存取
在线阅读 下载PDF
初始信息素筛选的蚁群优化算法在HDFS副本选择中的研究 被引量:1
18
作者 段效琛 李英娜 +2 位作者 贾会玲 赵振刚 李川 《传感器与微系统》 CSCD 2017年第4期31-33,38,共4页
随着社会信息化程度的不断提高,各种形式的数据急剧膨胀。HDFS成为解决海量数据存储问题的一个分布式文件系统,而副本技术是云存储系统的关键。提出了一种基于初始信息素筛选的蚁群优化算法(Init Ph_ACO)的副本选择策略,通过将遗传算法(... 随着社会信息化程度的不断提高,各种形式的数据急剧膨胀。HDFS成为解决海量数据存储问题的一个分布式文件系统,而副本技术是云存储系统的关键。提出了一种基于初始信息素筛选的蚁群优化算法(Init Ph_ACO)的副本选择策略,通过将遗传算法(GA)与蚁群优化算法(ACO)算法相结合,将它们进行动态衔接。提出基于初始信息素筛选的ACO算法,既克服了ACO算法初始搜索速度慢,又充分利用GA的快速随机全局搜索能力。利用云计算仿真工具Cloud Sim来验证此策略的效果,结果表明:Init Ph_ACO策略在作业执行时间、副本读取响应时间和副本负载均衡性三个方面的性能均优于基于ACO算法的副本选择策略和基于GA的副本选择策略。 展开更多
关键词 hadoop分布式文件系统(hdfs) 副本选择 初始信息素筛选 蚁群优化算法 遗传算法
在线阅读 下载PDF
一种跨HDFS集群的文件资源调度机制 被引量:5
19
作者 胡博 陈桓 +3 位作者 张良杰 牟建伟 戴广立 马于涛 《计算机学报》 EI CSCD 北大核心 2017年第9期2093-2110,共18页
集群文件系统作为一种典型的分布式文件系统类型,通过集群内多个节点的协同,消除了单点故障以及性能瓶颈问题,实现了高可用、高性能以及动态负载均衡,并且具有较高的可扩展性,因此常作为实现和提供云存储服务的关键技术之一.该文针对HDF... 集群文件系统作为一种典型的分布式文件系统类型,通过集群内多个节点的协同,消除了单点故障以及性能瓶颈问题,实现了高可用、高性能以及动态负载均衡,并且具有较高的可扩展性,因此常作为实现和提供云存储服务的关键技术之一.该文针对HDFS集群主要局限于同一数据中心内部部署且可扩展性受限的问题,提出一种跨数据中心集群部署的文件资源调度机制和金蝶分布式文件服务KDFS,通过分布式架构再设计,支持多个HDFS集群动态组网协同工作;通过引入文件资源池,屏蔽了不同集群之间的文件差异性,能够面向多应用提供透明服务;通过引入弹性存储与最优存储策略,确保集群资源安全冗余与就近服务的同时提升了集群的存储效率.实验和实践证明,跨HDFS集群的文件资源调度机制不但解决了HDFS集群可扩展性受限的问题,同时通过跨数据中心部署,实现了集群文件异地冗余灾备、跨数据中心负载均衡以及文件就近存取服务,有效地提高了应用使用KDFS存储服务的体验. 展开更多
关键词 集群文件系统 分布式文件系统 hdfs 文件资源调度 云存储
在线阅读 下载PDF
天地一体化网络中基于HDFS的元数据优化策略
20
作者 王坤 杨杨 邱雪松 《无线电通信技术》 2018年第1期9-13,共5页
Hadoop分布式文件系统(HDFS)是Hadoop的核心之一,已经广泛应用于天地一体化网络数据的存储。但由于HDFS存储和管理的数据容量受限于命名节点(Name Node)的内存大小,其扩展性受到制约。针对Name Node管理元数据时存在的加载文件系统镜像(... Hadoop分布式文件系统(HDFS)是Hadoop的核心之一,已经广泛应用于天地一体化网络数据的存储。但由于HDFS存储和管理的数据容量受限于命名节点(Name Node)的内存大小,其扩展性受到制约。针对Name Node管理元数据时存在的加载文件系统镜像(FSImage)时间过长、容量受内存大小限制等问题,提出将HDFS层级化的元数据结构调整为扁平化结构,并将元数据移出内存的优化思路,设计了基于日志结构合并树(Log-Structured Merge-Tree,LSM)与内存映射文件进行元数据管理的F-HDFS架构,并介绍了F-HDFS的元数据管理方式。通过F-HDFS的原型系统与HDFS的对比实验,表明F-HDFS性能整体优于HDFS,可提供稳定快速的元数据服务,能存储与管理超过HDFS 5.3倍以上的数据。 展开更多
关键词 hadoop hdfs 元数据管理 扩展性 内存映射文件
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部