期刊文献+
共找到77篇文章
< 1 2 4 >
每页显示 20 50 100
HDFS下载效率的优化 被引量:23
1
作者 曹宁 吴中海 +1 位作者 刘宏志 张齐勋 《计算机应用》 CSCD 北大核心 2010年第8期2060-2065,2240,共7页
针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法... 针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法能更好地提高下载效率和均衡DataNode的负载。 展开更多
关键词 云计算 hadoop档案系统(hdfs) 多线程 并行下载
在线阅读 下载PDF
基于Hadoop架构的电力系统连锁故障分布式计算技术 被引量:13
2
作者 刘友波 刘洋 +3 位作者 刘俊勇 李勇 刘挺坚 刁塑 《电力系统自动化》 EI CSCD 北大核心 2016年第7期90-97,共8页
以提升大规模组合故障快速仿真分析能力为目标,在Hadoop框架下研发了连锁故障分布式计算技术。基于PSD-BPA软件计算模块,利用Java开发连锁故障计算分析功能,实现驱动判定、故障集筛选、事故链搜索、严重度评估4类模块。通过部署Hadoop... 以提升大规模组合故障快速仿真分析能力为目标,在Hadoop框架下研发了连锁故障分布式计算技术。基于PSD-BPA软件计算模块,利用Java开发连锁故障计算分析功能,实现驱动判定、故障集筛选、事故链搜索、严重度评估4类模块。通过部署Hadoop分布式文件系统(HDFS)存储调度功能,将事故链解耦为小粒度单一故障场景进行计算,可针对连锁故障仿真的不同复杂度提供跨系统的分布式计算服务,灵活应对计算开始前连锁故障中事故链组合的不可预测性。利用10机、16机系统和某省网实际数据进行技术测试,结果表明所研发系统实现了连锁故障分析应用与数据在计算服务网络中的分离,具备动态调配计算节点资源的能力,能自动适应事件规模为电网连锁故障的仿真分析提供强大计算能力,具有在线应用前景。 展开更多
关键词 连锁故障 分布式计算 hadoop分布式文件系统(hdfs) PSD-BPA
在线阅读 下载PDF
面向Hadoop分布式文件系统的小文件存取优化方法 被引量:13
3
作者 李铁 燕彩蓉 +1 位作者 黄永锋 宋亚龙 《计算机应用》 CSCD 北大核心 2014年第11期3091-3095,3099,共6页
为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装... 为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装成大文件之后存至HDFS;当从HDFS获取文件时,根据基于文件关联关系的预取算法来提高文件访问效率,并提出基于预取的缓存替换算法来管理缓存空间,从而提高文件的命中率。实验结果表明,SmartFS有效减少了HDFS中NameNode的元数据空间,减少了用户与HDFS的交互次数,提高了小文件的存储效率和访问速度。 展开更多
关键词 hadoop分布式文件系统 小文件 文件关联 预取 缓存
在线阅读 下载PDF
SQL-DFS:一种基于HDFS的海量小文件存储系统 被引量:7
4
作者 马志强 杨双涛 +1 位作者 闫瑞 张泽广 《北京工业大学学报》 CAS CSCD 北大核心 2016年第1期134-141,共8页
针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件... 针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件元数据由Name Node内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对Name Node的请求次数;通过将部分Data Node文件块的校验工作交由元数据存储集群完成,进一步降低了Name Node节点的负载压力.最终通过搭建HDFS和SQL-DFS实验平台,对HDFS和SQL-DFS 2种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS架构,具有更好的小文件存储能力,可用于海量小文件的存储. 展开更多
关键词 hadoop分布式文件系统(hdfs) 元数据存储集群 小文件 元数据 内存占用率
在线阅读 下载PDF
基于纠删码和动态副本策略的HDFS改进系统 被引量:10
5
作者 李晓恺 代翔 +1 位作者 李文杰 崔喆 《计算机应用》 CSCD 北大核心 2012年第8期2150-2153,2158,共5页
为了让Hadoop分布式文件系统(HDFS)达到更高的存储效率以及更加优化的负载均衡能力,针对HDFS的多副本存储技术提出了改进方案——Noah。Noah引入了编码和译码模块,对HDFS中的block进行编码分解,生成更多数量的数据分片(section),并随机... 为了让Hadoop分布式文件系统(HDFS)达到更高的存储效率以及更加优化的负载均衡能力,针对HDFS的多副本存储技术提出了改进方案——Noah。Noah引入了编码和译码模块,对HDFS中的block进行编码分解,生成更多数量的数据分片(section),并随机地分散保存到集群当中,替代原有系统的多副本容灾策略;在集群出现节点失效的情况下,通过收集与失效block相关的任意70%左右的section进行原始数据的恢复;同时根据分布式集群运行情况以及对副本数目需求的不同采用动态副本策略。通过相关的集群实验,表明Noah在容灾效率、负载均衡、存储成本以及安全性上对HDFS作了相应的优化。 展开更多
关键词 hadoop分布式文件系统 分布式存储 数据容灾 负载均衡 动态副本
在线阅读 下载PDF
基于MapReduce的Hadoop大表导入编程模型 被引量:13
6
作者 陈吉荣 乐嘉锦 《计算机应用》 CSCD 北大核心 2013年第9期2486-2489,2561,共5页
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长... 针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高。 展开更多
关键词 编程模型 hadoop MAPREDUCE hadoop分布式文件系统 Sqoop
在线阅读 下载PDF
基于用户信任值的HDFS访问控制模型研究 被引量:4
7
作者 史文浩 江国华 +1 位作者 秦小麟 王胜 《计算机科学与探索》 CSCD 北大核心 2016年第1期25-35,共11页
目前,越来越多的用户使用云存储来保存或备份数据,以增强数据的可移动性,但针对云存储的安全性问题,研究人员主要关注隐私泄露、数据容灾、副本消除等方面,对访问控制的研究较少。在前人研究的基础上,提出了一种基于用户信任值的HDFS(Ha... 目前,越来越多的用户使用云存储来保存或备份数据,以增强数据的可移动性,但针对云存储的安全性问题,研究人员主要关注隐私泄露、数据容灾、副本消除等方面,对访问控制的研究较少。在前人研究的基础上,提出了一种基于用户信任值的HDFS(Hadoop distributed file system)访问控制模型。该模型结合可信赖第三方认证系统Kerberos实现对用户的认证,并为每个用户设定一个信任值,通过信任值与信任值阈值的比较动态控制用户对HDFS的访问。实验结果表明,该模型不仅可以克服HDFS访问控制上的缺陷,而且能够动态、有效地控制用户对HDFS中资源的访问。 展开更多
关键词 云存储 hdfs 访问控制 信任值
在线阅读 下载PDF
Co-Work:基于HDFS的安全云存储数据一致性保持算法 被引量:4
8
作者 林穗 黄健 姜文超 《计算机工程与应用》 CSCD 北大核心 2017年第1期9-15,共7页
针对云存储平台中用户隐私和敏感数据的安全保护问题,在前期提出的基于自主可控机制的安全云存储模型ASOM(All Self-Organization Model)基础上,对MDSS端元数据的管理操作、MDSS和DMS之间的通信过程做进一步优化,针对ASOM模型实际场景... 针对云存储平台中用户隐私和敏感数据的安全保护问题,在前期提出的基于自主可控机制的安全云存储模型ASOM(All Self-Organization Model)基础上,对MDSS端元数据的管理操作、MDSS和DMS之间的通信过程做进一步优化,针对ASOM模型实际场景引入锁思想实现两个节点一致性的Co-Work算法,完成MDSS和DMS节点之间的协同工作和数据的一致性保持。同时,考虑网络带宽对ASOM中读写效率的影响,引入随机表机制,改变DSS上报的时间结点,以提高ASOM整体读写效率。测试结果表明:执行Co-Work算法后的ASOM模型实现了数据的物理与逻辑隔离,保证用户对元数据的自主控制和管理,而且随着数据尺寸增大读写效率明显提高,在数据达到1 GB时读写效率提高了12%。 展开更多
关键词 安全云存储 hadoop分布式文件系统(hdfs) 一致性
在线阅读 下载PDF
Hadoop数据存储分析技术在风电并网系统中的应用 被引量:13
9
作者 韩平平 张祥民 +1 位作者 丁明 张晓安 《电力系统及其自动化学报》 CSCD 北大核心 2018年第1期43-50,共8页
随着风电规模的不断扩大,现有数据处理方案将难以适应风电并网环境对海量数据高效存储分析的要求。本文将分布式系统基础架构Hadoop应用于风电数据的存储和分析,给出了基于分布式文件系统HDFS的风电数据存储方案。将均方根RMS转化算法... 随着风电规模的不断扩大,现有数据处理方案将难以适应风电并网环境对海量数据高效存储分析的要求。本文将分布式系统基础架构Hadoop应用于风电数据的存储和分析,给出了基于分布式文件系统HDFS的风电数据存储方案。将均方根RMS转化算法基于并行计算框架MapReduce实现,对存储于HDFS的低电压穿越LVRT测试数据进行分析计算。通过存储耗时对比实验,验证了HDFS在存储LVRT数据方面的高效性。通过RMS算法计算耗时对比实验,验证了MapReduce算法在分析计算LVRT数据方面的优越性。算例结果表明,将Hadoop数据存储分析技术应用于风电并网系统是可行的。 展开更多
关键词 hadoop 分布式文件系统 MAPREDUCE 低电压穿越 存储耗时 计算耗时
在线阅读 下载PDF
基于灰色马尔可夫链预测模型的HDFS云存储副本选择策略 被引量:3
10
作者 徐骁勇 潘郁 丁燕艳 《计算机应用》 CSCD 北大核心 2011年第A02期39-42,共4页
在Hadoop分布式文件系统(HDFS)云存储环境下,网络带宽和节点性能有限且动态变化,现有的副本选择策略无法根据环境的变化选择最合适副本。针对这一问题,提出一种综合考虑了网络带宽、节点I/O性能以及节点存储空间等因素,基于灰色马尔可... 在Hadoop分布式文件系统(HDFS)云存储环境下,网络带宽和节点性能有限且动态变化,现有的副本选择策略无法根据环境的变化选择最合适副本。针对这一问题,提出一种综合考虑了网络带宽、节点I/O性能以及节点存储空间等因素,基于灰色马尔可夫链预测模型的副本选择策略,以此在系统可用性和负载均衡性之间寻求一个平衡。最后通过仿真实验,验证了该策略的可行性与有效性。 展开更多
关键词 云存储 副本选择 灰色马尔可夫链 hadoop分布式文件系统
在线阅读 下载PDF
Hadoop分布式文件系统的模型分析 被引量:22
11
作者 王峰 雷葆华 《电信科学》 北大核心 2010年第12期95-99,共5页
Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到了业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模入手,通过对模型各组成部分进行分析... Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到了业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模入手,通过对模型各组成部分进行分析,并将其与传统的分布式文件系统进行比较,总结出Hadoop分布式文件系统具有的海量、高可扩展性、高可靠性、高性能等面向云计算领域应用的重要特征。本文有助于研究者系统、深入地研究Hadoop分布式文件系统的设计与实现,并为云计算背景下的分布式文件系统设计提供重要的参考。 展开更多
关键词 hadoop分布式文件系统 系统模型 云计算
在线阅读 下载PDF
异构环境中HDFS数据块调度算法的设计与实现 被引量:2
12
作者 高原 任升 顾文杰 《计算机工程》 CAS CSCD 北大核心 2017年第8期82-89,共8页
针对Hadoop分布式文件系统(HDFS)的写性能在执行效率上的不足,提出一种在节点性能异构环境中对HDFS数据块进行并发传输的调度算法。该算法实时监控HDFS集群中每个节点的资源状态和内存缓存队列,动态地将接收节点与转发节点进行配对传输... 针对Hadoop分布式文件系统(HDFS)的写性能在执行效率上的不足,提出一种在节点性能异构环境中对HDFS数据块进行并发传输的调度算法。该算法实时监控HDFS集群中每个节点的资源状态和内存缓存队列,动态地将接收节点与转发节点进行配对传输,使全系统节点的网卡和磁盘并发工作,缩短了所有副本写入分布式文件系统的时间。将数据写入磁盘后请求下一个数据块,保证数据安全性,同时也使得各个节点获得与自身性能相匹配的副本数,使性能异构的系统能达到较高的写入速度。性能测试结果表明,使用该算法的分布式文件系统的写入性能较原始的HDFS提高了1倍。 展开更多
关键词 异构 hadoop分布式文件系统 并发 数据块 调度
在线阅读 下载PDF
基于HDFS的区域医学影像分布式存储架构设计 被引量:29
13
作者 李彭军 陈光杰 郭文明 《南方医科大学学报》 CAS CSCD 北大核心 2011年第3期495-498,共4页
构建区域医学影像协作平台是均衡医疗资源、提高基层医院诊疗水平、降低医疗费用的有效途径,但是构建区域化影像平台在技术和成本上还存在巨大的挑战。本文详细分析了传统集中式存储和HDFS(Hadoop Distributed File System)分布式存储... 构建区域医学影像协作平台是均衡医疗资源、提高基层医院诊疗水平、降低医疗费用的有效途径,但是构建区域化影像平台在技术和成本上还存在巨大的挑战。本文详细分析了传统集中式存储和HDFS(Hadoop Distributed File System)分布式存储系统的优缺点,设计了一种适合HDFS特点的S-DICOM文件格式,以及集中式存储(FC SAN)和分布式存储(HDFS集群)结合的统一存储架构,开发了一套SDFO(S-DICOM File Operator)中间件,为上层的PACS应用组件提供透明的存储访问接口。测试结果表明此架构可以满足海量医学影像资料的快速存取和处理需求。 展开更多
关键词 图像归档与传输系统 云计算 软件即服务 hadoop分布式文件系统
在线阅读 下载PDF
基于Hadoop平台的农产品价格数据爬取和存储系统的研究 被引量:4
14
作者 杨晓东 郜鲁涛 +1 位作者 杨林楠 刘建阳 《计算机应用与软件》 2017年第3期76-80,共5页
目前许多大型农贸市场和农业信息商务平台都在实时发布每天各地区不同农产品的价格数据。针对数据更新快、数据量大、数据形式多样,使数据的爬取和存储以及后续的分析工作变得困难,提出基于Hadoop的农产品价格爬取及存储系统。利用HttpC... 目前许多大型农贸市场和农业信息商务平台都在实时发布每天各地区不同农产品的价格数据。针对数据更新快、数据量大、数据形式多样,使数据的爬取和存储以及后续的分析工作变得困难,提出基于Hadoop的农产品价格爬取及存储系统。利用HttpClient框架结合线程池通过多线程爬取,爬取结束后执行完整性检查,过滤出信息不完整的网页,进行二次爬取直到信息完整。对爬取到的网页使用正则表达式进行解析和清洗,提取有用的数据,以文本文件的形式存入HDFS(Hadoop Distributed File System),此后爬取到的数据以追加的方式写入HDFS文件中。实验表明HDFS的写入性能满足爬取数据不断递增的现状,副本数越少,数据块越大,写入性能越好。 展开更多
关键词 分布式系统 爬虫 hadoop hdfs 正则表达式
在线阅读 下载PDF
基于HDFS的创新知识云平台存储架构的研究与设计 被引量:4
15
作者 马建红 霍振奇 《计算机应用与软件》 CSCD 2016年第3期62-66,共5页
针对现有存储结构无法满足海量创新知识带来的存储及服务需求的问题,提出一种改进的HDFS(Hadoop Distributed File System)分布式存储系统并应用到创新知识云平台。首先引入包文件及分布式索引服务,改进HDFS小文件存储的效率问题,然后... 针对现有存储结构无法满足海量创新知识带来的存储及服务需求的问题,提出一种改进的HDFS(Hadoop Distributed File System)分布式存储系统并应用到创新知识云平台。首先引入包文件及分布式索引服务,改进HDFS小文件存储的效率问题,然后通过优化HDFS的命名空间备份及故障恢复服务,实现可用性更强、资源利用率更高的HDFS高可用架构。通过系统的设计和实现证明优化工作大大降低了命名节点的内存压力,提高了集群的可用性,并且改进的HDFS存储系统可以满足创新知识云平台的存储需求。 展开更多
关键词 创新知识 hdfs 小文件存储 单点故障
在线阅读 下载PDF
一种面向HDFS的数据随机访问方法 被引量:5
16
作者 李强 孙震宇 孙功星 《计算机工程与应用》 CSCD 北大核心 2017年第10期1-7,共7页
为了简化文件系统的实现,支持超大规模数据集的流式访问,HDFS牺牲了文件的随机访问功能,而在实际场景中很多应用都需要对文件进行随机访问。在深入分析HDFS数据读写原理的基础上,提出了一种面向HDFS的数据随机访问方法。其设计思想是为D... 为了简化文件系统的实现,支持超大规模数据集的流式访问,HDFS牺牲了文件的随机访问功能,而在实际场景中很多应用都需要对文件进行随机访问。在深入分析HDFS数据读写原理的基础上,提出了一种面向HDFS的数据随机访问方法。其设计思想是为Datanode添加本地数据访问接口,用户程序可以读取Datanode上存放的数据块文件以及把数据写入到Datanode上的数据块存放目录。文件的首副本由用户程序直接产生,其余副本在首副本写入完成之后采用数据复制的方式生成。此外,为数据块添加了权限管理功能,Datanode上的文件副本属于用户所有。若名字空间中文件权限发生变化,文件对应的数据块权限也会改变。测试表明,数据读取性能提升了约10%,数据写入性能提升了20%以上,在高并发下写入性能最大可提升2.5倍。 展开更多
关键词 hadoop分布式文件系统 随机访问 权限管理
在线阅读 下载PDF
HDFS中高效存储小文件的方法 被引量:10
17
作者 尹颖 林庆 林涵阳 《计算机工程与设计》 北大核心 2015年第2期406-409,共4页
为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一... 为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一块中存储多个小文件,并对系统加以实现,为海量小文件的存储提供了一个有效的解决方案。实验结果表明,该机制可以在数据迅速增长的背景下实现海量小文件的高效存取。 展开更多
关键词 hadoop分布式文件系统 海量小文件 性能优化 职责分离 合并小文件
在线阅读 下载PDF
基于Hadoop云计算平台的海量文本处理研究 被引量:11
18
作者 张学亮 陈金勇 陈勇 《无线电通信技术》 2014年第1期54-57,共4页
针对海量文本数据处理,为实现快速文本处理响应,缩短海量数据为辅助决策提供服务的时间,基于Hadoop云计算平台,建立HDFS分布式文件系统存储海量文本数据集,通过文本词频利用MapReduce原理建立分布式索引,以分布式数据库HBase存储关键词... 针对海量文本数据处理,为实现快速文本处理响应,缩短海量数据为辅助决策提供服务的时间,基于Hadoop云计算平台,建立HDFS分布式文件系统存储海量文本数据集,通过文本词频利用MapReduce原理建立分布式索引,以分布式数据库HBase存储关键词索引,并提供实时检索,实现对海量文本数据的分布式并行处理。实验结果表明,Hadoop框架为大规模数据的分布式并行处理提供了很好的解决方案。 展开更多
关键词 海量文本处理 hadoop hdfs HBASE MAPREDUCE 分布式并行处理
在线阅读 下载PDF
SingleMapReduce:单一输出HDFS文件的MapReduce编程模型 被引量:2
19
作者 陈吉荣 乐嘉锦 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第5期135-142,共8页
经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件... 经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件.文中给出了HDFS的4个重要特征,提出了HDFS的"块典型分布"和"块非典型分布"的概念,设计了一种通过整合元数据来达到整合文件的算法.理论分析和实验结果表明:该模型的MapReduce计算的输出结果为单一文件;该模型可以再次以文件的形式对MapReduce计算的输出结果进行分片,并可用并行方式导入大表或大文件到HDFS中;该模型间接支持了名称节点的扩展性. 展开更多
关键词 分布式计算系统 元数据 MAPREDUCE hadoop分布式文件系统 名称节点 数据节点
在线阅读 下载PDF
基于Hadoop的云存储系统文件处理与安全研究 被引量:4
20
作者 李颖超 《现代电子技术》 北大核心 2016年第21期112-115,119,共5页
由于公有云存储中存在数据泄露、丢失、存储不稳定等不安全因素,私有云存储成为解决当前企业安全存储需求的最佳选择。针对单点内存负载过高,写入效率低下的问题,设计了一套处理大量小文件的模块,通过缓存多个小文件合并,再合并文件元... 由于公有云存储中存在数据泄露、丢失、存储不稳定等不安全因素,私有云存储成为解决当前企业安全存储需求的最佳选择。针对单点内存负载过高,写入效率低下的问题,设计了一套处理大量小文件的模块,通过缓存多个小文件合并,再合并文件元数据放置索引表,通过索引表中的偏移量寻找块中小文件数据的方式,提高HDFS写入大量小文件的系统性能,经过测试验证了优化方案的有效性。 展开更多
关键词 hadoop hdfs 私有云存储 小文件优化
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部