期刊文献+
共找到364篇文章
< 1 2 19 >
每页显示 20 50 100
内存高效的持久性分布式文件系统客户端缓存DFS-Cache 被引量:3
1
作者 倪瑞轩 蔡淼 叶保留 《计算机应用》 CSCD 北大核心 2024年第4期1172-1179,共8页
为了在数据密集型工作流下有效降低缓存碎片整理开销并提高缓存命中率,提出一种持久性分布式文件系统客户端缓存DFS-Cache(Distributed File System Cache)。DFS-Cache基于非易失性内存(NVM)设计实现,能够保证数据的持久性和崩溃一致性... 为了在数据密集型工作流下有效降低缓存碎片整理开销并提高缓存命中率,提出一种持久性分布式文件系统客户端缓存DFS-Cache(Distributed File System Cache)。DFS-Cache基于非易失性内存(NVM)设计实现,能够保证数据的持久性和崩溃一致性,并大幅减少冷启动时间。DFS-Cache包括基于虚拟内存重映射的缓存碎片整理机制和基于生存时间(TTL)的缓存空间管理策略。前者基于NVM可被内存控制器直接寻址的特性,动态修改虚拟地址和物理地址之间的映射关系,实现零拷贝的内存碎片整理;后者是一种冷热分离的分组管理策略,借助重映射的缓存碎片整理机制,提升缓存空间的管理效率。实验采用真实的Intel傲腾持久性内存设备,对比商用的分布式文件系统MooseFS和GlusterFS,采用Fio和Filebench等标准测试程序,DFS-Cache最高能提升5.73倍和1.89倍的系统吞吐量。 展开更多
关键词 非易失性内存 分布式文件系统 客户端缓存 缓存碎片整理 冷热数据分组 缓存设计
在线阅读 下载PDF
基于支持向量机的HDFS副本放置改进策略 被引量:8
2
作者 罗军 陈仕强 《计算机工程》 CAS CSCD 北大核心 2015年第11期114-119,共6页
为实现超大规模数据的存储并提高容错性,Hadoop分布式文件系统(HDFS)采用一种机架感知的多副本放置策略。但在放置过程中没有综合考虑各节点服务器的差异性,导致集群出现负载失衡。由于放置时采用随机方式,造成节点之间的网络距离过长,... 为实现超大规模数据的存储并提高容错性,Hadoop分布式文件系统(HDFS)采用一种机架感知的多副本放置策略。但在放置过程中没有综合考虑各节点服务器的差异性,导致集群出现负载失衡。由于放置时采用随机方式,造成节点之间的网络距离过长,使得传输数据会消耗大量时间。针对以上问题,提出一种基于SVM的副本放置策略。通过综合考虑节点负载情况、节点硬件性能、节点网络距离为副本找到最佳的放置节点。实验结果表明,与HDFS原有的副本放置策略相比,该策略能更有效地实现负载均衡。 展开更多
关键词 支持向量机 云存储 副本放置策略 分布式文件系统 负载均衡 机架感知
在线阅读 下载PDF
基于分布式文件系统HDFS的节能算法 被引量:58
3
作者 廖彬 于炯 +1 位作者 张陶 杨兴耀 《计算机学报》 EI CSCD 北大核心 2013年第5期1047-1064,共18页
与传统数据中心节能算法不同,MapReduce计算任务的数据依赖性使得设计HDFS(Hadoop Distributed File System)节能算法时必须保证集群中所有数据块的可用性,即任意数据块或其副本中的至少一块处于活动状态.根据HDFS集群结构与数据块存储... 与传统数据中心节能算法不同,MapReduce计算任务的数据依赖性使得设计HDFS(Hadoop Distributed File System)节能算法时必须保证集群中所有数据块的可用性,即任意数据块或其副本中的至少一块处于活动状态.根据HDFS集群结构与数据块存储等特点建立了DataNode节点矩阵、节点状态矩阵、文件分块矩阵、数据块存储矩阵与数据块状态矩阵,为后续研究建立了基础模型.结合数据块状态矩阵与数据块可用性之间的关系设计了DataNode节点休眠验证算法.概率分析了由于机架感知的存储策略带来数据块分布的随机性,使得在不改变数据块存储结构与存储策略的情况下并不能通过休眠DataNode节点达到节能的目的.进而设计了数据块存储结构配置节能算法与基于对称数据块存储策略下的节能算法,分别从改变数据块的存储结构与存储策略两方面对HDFS进行节能改进.实验结果表明:两种节能算法都能解决HDFS集群的能耗低利用率问题,并且集群负载越低节能效率越高. 展开更多
关键词 云计算 分布式文件系统 节能计算 副本策略 绿色计算
在线阅读 下载PDF
SQL-DFS:一种基于HDFS的海量小文件存储系统 被引量:7
4
作者 马志强 杨双涛 +1 位作者 闫瑞 张泽广 《北京工业大学学报》 CAS CSCD 北大核心 2016年第1期134-141,共8页
针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件... 针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件元数据由Name Node内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对Name Node的请求次数;通过将部分Data Node文件块的校验工作交由元数据存储集群完成,进一步降低了Name Node节点的负载压力.最终通过搭建HDFS和SQL-DFS实验平台,对HDFS和SQL-DFS 2种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS架构,具有更好的小文件存储能力,可用于海量小文件的存储. 展开更多
关键词 Hadoop分布式文件系统(Hdfs) 元数据存储集群 小文件 元数据 内存占用率
在线阅读 下载PDF
HDFS下载效率的优化 被引量:23
5
作者 曹宁 吴中海 +1 位作者 刘宏志 张齐勋 《计算机应用》 CSCD 北大核心 2010年第8期2060-2065,2240,共7页
针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法... 针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法能更好地提高下载效率和均衡DataNode的负载。 展开更多
关键词 云计算 Hadoop档案系统(Hdfs) 多线程 并行下载
在线阅读 下载PDF
分支河流体系(DFS)研究进展 被引量:5
6
作者 赵芸 张昌民 +2 位作者 朱锐 冯文杰 赵康 《大庆石油地质与开发》 CAS CSCD 北大核心 2021年第6期1-11,共11页
分支河流体系(DFS)是基于对全球700余个现代沉积盆地中冲积河流沉积体系进行统计分析基础上提出的新术语,它是指河流从某一顶点开始进入盆地并呈放射状展布的沉积体系。通过梳理10 a来相关学者对全球范围内现代及岩石记录中DFS的研究成... 分支河流体系(DFS)是基于对全球700余个现代沉积盆地中冲积河流沉积体系进行统计分析基础上提出的新术语,它是指河流从某一顶点开始进入盆地并呈放射状展布的沉积体系。通过梳理10 a来相关学者对全球范围内现代及岩石记录中DFS的研究成果,介绍了分支河流体系的概念、规模、特征等方面的研究现状。结果表明DFS的形态和分布是构造和气候共同作用的产物,其中构造活动是DFS发育的前提和决定性因素;DFS研究应注重其近端、中段、远端在时间和空间上的连接关系,以建立DFS沉积模式;最后总结了DFS的研究技术和方法。分支河流体系概念的提出及沉积模式研究,拓展了认识大型河流沉积体系的思路,使冲积扇沉积学、河流沉积学和沉积体系研究不断得以深入,对进一步认识中国陆相盆地的沉积体系及指导油气资源勘探开发等具有重要的意义。 展开更多
关键词 分支河流体系 沉积体系 沉积模式 陆相盆地 研究进展
在线阅读 下载PDF
HDFS中高效存储小文件的方法 被引量:10
7
作者 尹颖 林庆 林涵阳 《计算机工程与设计》 北大核心 2015年第2期406-409,共4页
为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一... 为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一块中存储多个小文件,并对系统加以实现,为海量小文件的存储提供了一个有效的解决方案。实验结果表明,该机制可以在数据迅速增长的背景下实现海量小文件的高效存取。 展开更多
关键词 HADOOP分布式文件系统 海量小文件 性能优化 职责分离 合并小文件
在线阅读 下载PDF
基于纠删码和动态副本策略的HDFS改进系统 被引量:10
8
作者 李晓恺 代翔 +1 位作者 李文杰 崔喆 《计算机应用》 CSCD 北大核心 2012年第8期2150-2153,2158,共5页
为了让Hadoop分布式文件系统(HDFS)达到更高的存储效率以及更加优化的负载均衡能力,针对HDFS的多副本存储技术提出了改进方案——Noah。Noah引入了编码和译码模块,对HDFS中的block进行编码分解,生成更多数量的数据分片(section),并随机... 为了让Hadoop分布式文件系统(HDFS)达到更高的存储效率以及更加优化的负载均衡能力,针对HDFS的多副本存储技术提出了改进方案——Noah。Noah引入了编码和译码模块,对HDFS中的block进行编码分解,生成更多数量的数据分片(section),并随机地分散保存到集群当中,替代原有系统的多副本容灾策略;在集群出现节点失效的情况下,通过收集与失效block相关的任意70%左右的section进行原始数据的恢复;同时根据分布式集群运行情况以及对副本数目需求的不同采用动态副本策略。通过相关的集群实验,表明Noah在容灾效率、负载均衡、存储成本以及安全性上对HDFS作了相应的优化。 展开更多
关键词 HADOOP分布式文件系统 分布式存储 数据容灾 负载均衡 动态副本
在线阅读 下载PDF
改进的Kerberos协议在HDFS环境下的研究 被引量:4
9
作者 朱建波 李萍 +1 位作者 于炯 廖彬 《计算机工程与设计》 CSCD 北大核心 2014年第10期3392-3398,共7页
由于Kerberos认证模型是中心管理方式,当Kerberos应用于大型的分布式网络中时,会产生服务器的瓶颈问题。为扩大Kerberos的应用范围,使其很好的与分布式系统HADOOP结合,对Kerberos在HDFS环境下的应用进行研究和描述,针对Kerberos密钥分... 由于Kerberos认证模型是中心管理方式,当Kerberos应用于大型的分布式网络中时,会产生服务器的瓶颈问题。为扩大Kerberos的应用范围,使其很好的与分布式系统HADOOP结合,对Kerberos在HDFS环境下的应用进行研究和描述,针对Kerberos密钥分发中心的瓶颈问题和HADOOP分布式文件系统的特殊需求,提出改进的Kerberos协议模型。该模型结合分布式思想,且对协议的消息传递模型进行改进。仿真结果表明,该协议解决了HADOOP分布式文件系统集成Kerberos的缺点,提升了HADOOP分布式文件系统的存储安全以及分布式文件系统的用户认证效率。 展开更多
关键词 协议 分布式文件系统 云存储 云安全 身份认证
在线阅读 下载PDF
一种面向HDFS的数据随机访问方法 被引量:5
10
作者 李强 孙震宇 孙功星 《计算机工程与应用》 CSCD 北大核心 2017年第10期1-7,共7页
为了简化文件系统的实现,支持超大规模数据集的流式访问,HDFS牺牲了文件的随机访问功能,而在实际场景中很多应用都需要对文件进行随机访问。在深入分析HDFS数据读写原理的基础上,提出了一种面向HDFS的数据随机访问方法。其设计思想是为D... 为了简化文件系统的实现,支持超大规模数据集的流式访问,HDFS牺牲了文件的随机访问功能,而在实际场景中很多应用都需要对文件进行随机访问。在深入分析HDFS数据读写原理的基础上,提出了一种面向HDFS的数据随机访问方法。其设计思想是为Datanode添加本地数据访问接口,用户程序可以读取Datanode上存放的数据块文件以及把数据写入到Datanode上的数据块存放目录。文件的首副本由用户程序直接产生,其余副本在首副本写入完成之后采用数据复制的方式生成。此外,为数据块添加了权限管理功能,Datanode上的文件副本属于用户所有。若名字空间中文件权限发生变化,文件对应的数据块权限也会改变。测试表明,数据读取性能提升了约10%,数据写入性能提升了20%以上,在高并发下写入性能最大可提升2.5倍。 展开更多
关键词 HADOOP分布式文件系统 随机访问 权限管理
在线阅读 下载PDF
基于HDFS的区域医学影像分布式存储架构设计 被引量:29
11
作者 李彭军 陈光杰 郭文明 《南方医科大学学报》 CAS CSCD 北大核心 2011年第3期495-498,共4页
构建区域医学影像协作平台是均衡医疗资源、提高基层医院诊疗水平、降低医疗费用的有效途径,但是构建区域化影像平台在技术和成本上还存在巨大的挑战。本文详细分析了传统集中式存储和HDFS(Hadoop Distributed File System)分布式存储... 构建区域医学影像协作平台是均衡医疗资源、提高基层医院诊疗水平、降低医疗费用的有效途径,但是构建区域化影像平台在技术和成本上还存在巨大的挑战。本文详细分析了传统集中式存储和HDFS(Hadoop Distributed File System)分布式存储系统的优缺点,设计了一种适合HDFS特点的S-DICOM文件格式,以及集中式存储(FC SAN)和分布式存储(HDFS集群)结合的统一存储架构,开发了一套SDFO(S-DICOM File Operator)中间件,为上层的PACS应用组件提供透明的存储访问接口。测试结果表明此架构可以满足海量医学影像资料的快速存取和处理需求。 展开更多
关键词 图像归档与传输系统 云计算 软件即服务 HADOOP分布式文件系统
在线阅读 下载PDF
基于用户信任值的HDFS访问控制模型研究 被引量:4
12
作者 史文浩 江国华 +1 位作者 秦小麟 王胜 《计算机科学与探索》 CSCD 北大核心 2016年第1期25-35,共11页
目前,越来越多的用户使用云存储来保存或备份数据,以增强数据的可移动性,但针对云存储的安全性问题,研究人员主要关注隐私泄露、数据容灾、副本消除等方面,对访问控制的研究较少。在前人研究的基础上,提出了一种基于用户信任值的HDFS(Ha... 目前,越来越多的用户使用云存储来保存或备份数据,以增强数据的可移动性,但针对云存储的安全性问题,研究人员主要关注隐私泄露、数据容灾、副本消除等方面,对访问控制的研究较少。在前人研究的基础上,提出了一种基于用户信任值的HDFS(Hadoop distributed file system)访问控制模型。该模型结合可信赖第三方认证系统Kerberos实现对用户的认证,并为每个用户设定一个信任值,通过信任值与信任值阈值的比较动态控制用户对HDFS的访问。实验结果表明,该模型不仅可以克服HDFS访问控制上的缺陷,而且能够动态、有效地控制用户对HDFS中资源的访问。 展开更多
关键词 云存储 Hdfs 访问控制 信任值
在线阅读 下载PDF
Co-Work:基于HDFS的安全云存储数据一致性保持算法 被引量:4
13
作者 林穗 黄健 姜文超 《计算机工程与应用》 CSCD 北大核心 2017年第1期9-15,共7页
针对云存储平台中用户隐私和敏感数据的安全保护问题,在前期提出的基于自主可控机制的安全云存储模型ASOM(All Self-Organization Model)基础上,对MDSS端元数据的管理操作、MDSS和DMS之间的通信过程做进一步优化,针对ASOM模型实际场景... 针对云存储平台中用户隐私和敏感数据的安全保护问题,在前期提出的基于自主可控机制的安全云存储模型ASOM(All Self-Organization Model)基础上,对MDSS端元数据的管理操作、MDSS和DMS之间的通信过程做进一步优化,针对ASOM模型实际场景引入锁思想实现两个节点一致性的Co-Work算法,完成MDSS和DMS节点之间的协同工作和数据的一致性保持。同时,考虑网络带宽对ASOM中读写效率的影响,引入随机表机制,改变DSS上报的时间结点,以提高ASOM整体读写效率。测试结果表明:执行Co-Work算法后的ASOM模型实现了数据的物理与逻辑隔离,保证用户对元数据的自主控制和管理,而且随着数据尺寸增大读写效率明显提高,在数据达到1 GB时读写效率提高了12%。 展开更多
关键词 安全云存储 Hadoop分布式文件系统(Hdfs) 一致性
在线阅读 下载PDF
基于HDFS的创新知识云平台存储架构的研究与设计 被引量:4
14
作者 马建红 霍振奇 《计算机应用与软件》 CSCD 2016年第3期62-66,共5页
针对现有存储结构无法满足海量创新知识带来的存储及服务需求的问题,提出一种改进的HDFS(Hadoop Distributed File System)分布式存储系统并应用到创新知识云平台。首先引入包文件及分布式索引服务,改进HDFS小文件存储的效率问题,然后... 针对现有存储结构无法满足海量创新知识带来的存储及服务需求的问题,提出一种改进的HDFS(Hadoop Distributed File System)分布式存储系统并应用到创新知识云平台。首先引入包文件及分布式索引服务,改进HDFS小文件存储的效率问题,然后通过优化HDFS的命名空间备份及故障恢复服务,实现可用性更强、资源利用率更高的HDFS高可用架构。通过系统的设计和实现证明优化工作大大降低了命名节点的内存压力,提高了集群的可用性,并且改进的HDFS存储系统可以满足创新知识云平台的存储需求。 展开更多
关键词 创新知识 Hdfs 小文件存储 单点故障
在线阅读 下载PDF
基于信息流控制的HDFS敏感数据安全增强 被引量:2
15
作者 吴泽智 陈性元 +1 位作者 杜学绘 杨智 《计算机应用研究》 CSCD 北大核心 2018年第11期3432-3435,共4页
针对HDFS已有保护方法如认证授权、数据加密、访问控制和审计方法都不能保证敏感数据端到端的安全性,提出了一个用于HDFS的安全代数语言SALH(security algebra language for HDFS),给出了SALH的语义和语法;采用SALH形式化描述了HDFS信... 针对HDFS已有保护方法如认证授权、数据加密、访问控制和审计方法都不能保证敏感数据端到端的安全性,提出了一个用于HDFS的安全代数语言SALH(security algebra language for HDFS),给出了SALH的语义和语法;采用SALH形式化描述了HDFS信息流跟踪和控制模型并证明了模型的无干扰安全性。最后,给出了原型系统IF-HDFS设计与实现关键技术,原型系统的功能和性能测试结果表明IF-HDFS可实时、有效、准确地实现信息流跟踪与控制。 展开更多
关键词 分布式文件系统 信息流跟踪 安全代数 无干扰 形式化分析
在线阅读 下载PDF
异构环境中HDFS数据块调度算法的设计与实现 被引量:2
16
作者 高原 任升 顾文杰 《计算机工程》 CAS CSCD 北大核心 2017年第8期82-89,共8页
针对Hadoop分布式文件系统(HDFS)的写性能在执行效率上的不足,提出一种在节点性能异构环境中对HDFS数据块进行并发传输的调度算法。该算法实时监控HDFS集群中每个节点的资源状态和内存缓存队列,动态地将接收节点与转发节点进行配对传输... 针对Hadoop分布式文件系统(HDFS)的写性能在执行效率上的不足,提出一种在节点性能异构环境中对HDFS数据块进行并发传输的调度算法。该算法实时监控HDFS集群中每个节点的资源状态和内存缓存队列,动态地将接收节点与转发节点进行配对传输,使全系统节点的网卡和磁盘并发工作,缩短了所有副本写入分布式文件系统的时间。将数据写入磁盘后请求下一个数据块,保证数据安全性,同时也使得各个节点获得与自身性能相匹配的副本数,使性能异构的系统能达到较高的写入速度。性能测试结果表明,使用该算法的分布式文件系统的写入性能较原始的HDFS提高了1倍。 展开更多
关键词 异构 HADOOP分布式文件系统 并发 数据块 调度
在线阅读 下载PDF
基于灰色马尔可夫链预测模型的HDFS云存储副本选择策略 被引量:3
17
作者 徐骁勇 潘郁 丁燕艳 《计算机应用》 CSCD 北大核心 2011年第A02期39-42,共4页
在Hadoop分布式文件系统(HDFS)云存储环境下,网络带宽和节点性能有限且动态变化,现有的副本选择策略无法根据环境的变化选择最合适副本。针对这一问题,提出一种综合考虑了网络带宽、节点I/O性能以及节点存储空间等因素,基于灰色马尔可... 在Hadoop分布式文件系统(HDFS)云存储环境下,网络带宽和节点性能有限且动态变化,现有的副本选择策略无法根据环境的变化选择最合适副本。针对这一问题,提出一种综合考虑了网络带宽、节点I/O性能以及节点存储空间等因素,基于灰色马尔可夫链预测模型的副本选择策略,以此在系统可用性和负载均衡性之间寻求一个平衡。最后通过仿真实验,验证了该策略的可行性与有效性。 展开更多
关键词 云存储 副本选择 灰色马尔可夫链 HADOOP分布式文件系统
在线阅读 下载PDF
SingleMapReduce:单一输出HDFS文件的MapReduce编程模型 被引量:2
18
作者 陈吉荣 乐嘉锦 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第5期135-142,共8页
经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件... 经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件.文中给出了HDFS的4个重要特征,提出了HDFS的"块典型分布"和"块非典型分布"的概念,设计了一种通过整合元数据来达到整合文件的算法.理论分析和实验结果表明:该模型的MapReduce计算的输出结果为单一文件;该模型可以再次以文件的形式对MapReduce计算的输出结果进行分片,并可用并行方式导入大表或大文件到HDFS中;该模型间接支持了名称节点的扩展性. 展开更多
关键词 分布式计算系统 元数据 MAPREDUCE HADOOP分布式文件系统 名称节点 数据节点
在线阅读 下载PDF
基于HDFS的云存储系统小文件优化方案 被引量:9
19
作者 邹振宇 郑烇 +1 位作者 王嵩 杨坚 《计算机工程》 CAS CSCD 北大核心 2016年第3期34-40,46,共8页
Hadoop分布式文件系统(HDFS)具有高容错、可伸缩、廉价存储等优良特性,在大数据存储和分析场景中得到广泛应用。但对于海量小文件存储,HDFS存在高内存消耗、高延迟访问等缺陷。为此,结合"合肥城市云"系统"一次上传,多次... Hadoop分布式文件系统(HDFS)具有高容错、可伸缩、廉价存储等优良特性,在大数据存储和分析场景中得到广泛应用。但对于海量小文件存储,HDFS存在高内存消耗、高延迟访问等缺陷。为此,结合"合肥城市云"系统"一次上传,多次下载"的特性,提出一种基于小文件属性的优化方案。根据文件之间的相关性设定优先级,对小于5 MB的文件按优先级高低合并后再上传,并生成索引记录。结合随机化思想,采用两级缓存策略,将预提取数据缓存在内存池中,提高访问效率。同时,系统定期查询访问日志,根据用户访问习惯,动态调整预提取因子的大小。实验结果表明,该方案能有效提高小文件访问效率,降低名字节点和数据节点的内存开销,在有海量小文件存取的情况下提升系统的交互性。 展开更多
关键词 HADOOP分布式文件系统 小文件 预提取 随机化 动态调整
在线阅读 下载PDF
HDFS存储和优化技术研究综述 被引量:42
20
作者 金国栋 卞昊穹 +1 位作者 陈跃国 杜小勇 《软件学报》 EI CSCD 北大核心 2020年第1期137-161,共25页
HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量... HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载这3个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向. 展开更多
关键词 Hdfs 分布式文件系统 存储系统优化 数据分析
在线阅读 下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部