基于Hadoop的小文件存储优化方案被引量：12

Storage Optimization Method of Small Files Based on Hadoop

在线阅读下载PDF

导出

摘要 Hadoop作为成熟的分布式云平台,对较大的文件提供了可靠高效的存储服务,但在处理海量小文件时效率显著降低。该文提出了基于Hadoop的海量教育资源小文件的存储优化方案,利用教育资源小文件间的关联关系,将小文件进行合并成大文件以减少文件数量,并索引机制访问小文件、元数据缓存和关联小文件预取机制来提高文件的读取效率。实验结果表明,该方法提高了Hadoop文件系统存储小文件的存取效率。 Hadoop distributes file system （HDFS） can process large amounts of data effectively through large clusters. However, HDFS is designed to handle large files and suffers performance penalty while dealing with large number of small files. An approach based on HDFS is proposed to improve storage efficiency of small files in HDFS. The main idea is to classify the mass small files, merge them by classes, and index the merged files aiming at reducing the amount of index items in namenodes and improving the storage efficiency. Experimental results show that the storage efficiency of small files is improved contrasting to Hadoop Archives （HAR files）.

作者李孟曹晟秦志光

机构地区电子科技大学计算机科学与工程学院

出处《电子科技大学学报》 EI CAS CSCD 北大核心 2016年第1期141-145,共5页 Journal of University of Electronic Science and Technology of China

基金教育部-中国移动科研基金(MCM20121041) 国家自然科学基金(61133016 61103206) 国家863计划(2011AA010706)

关键词 HADOOP 索引机制关联关系小文件存储 Hadoop index mechanism relationship storage of small files

分类号 TP391.6 [自动化与计算机技术—计算机应用技术]

作者简介李孟（1981-），女，博士生，主要从事计算机网络和知识工程方面的研究．

引文网络
相关文献

参考文献1

1付松龄,廖湘科,黄辰林,王蕾,李姗姗.FlatLFS:一种面向海量小文件处理优化的轻量级文件系统[J].国防科技大学学报,2013,35(2):120-126. 被引量：9

二级参考文献21

1Ghemawat S, Gobioff H, Leung S. The Google file system [ C ]//19th Symposium on Operating Systems Principles, NY : IEEE, 2003 : 29 - 43.
2The apache hadoop project, hadoop distributed file system [EB/OL]. (2012- 12-05) [2012 - 12 -20]. http:/! hadoop, apache, org/.
3Srirams. Kosmos file system [ EB/OL ]. (2011 - 05 ) [ 2011 - 11 - 15 ]. http ://code. google, com/p/kosmosfs.
4Moose file system[ EB/OL]. (2012 - 08 - 16 ) [ 2012 - 09 -15]. http://www, moosefs, org.
5Beaver D, et al. Finding a needle in Haystack: Facebook "s photo storage [ C ] // 9th USENIX Symposium on Operating Systems Design and Implementation, October 4 - 6 Canada 2010.
6Taobao file system[ CP/OL]. (2012 - 12 -04) [ 2012 - 12 - 21 ]. http ://code. taobao, org/p/tfs/src/.
7Cloudera big data solution [ EB/OL ]. [ 2012 - 12 - 22 ]. http ://www. cloudera, com.
8MapR big data solution[ EB/OL]. [ 2012 - 12 - 22 ]. http :// www. mapr. com.
9McKusick M K, Quinlan S. GFS: Evolution on fast-forward [R/OL]. (2009 - 08 - 07) [2011 - 10 - 09]. http:/! queue, acm. org/detail, cfm? id = 1594206.
10White T. The small files problem [ R/OL]. (2009 -02 -02) [ 2011 - 08 - 23 ]. http ://www. cloudera, com/blog/2009/ 02/the-small-files-problem/.

共引文献8

1董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：71
2杨洪章,张军伟,刘振军,张建刚.Readdir++:一种并行网络文件系统中海量小文件读优化技术[J].小型微型计算机系统,2014,35(11):2402-2409. 被引量：1
3贾露娟,李文新,夏加高,雷志军.星载嵌入式容错文件系统的设计与实现[J].计算机技术与发展,2015,25(10):49-53. 被引量：10
4梁晓杰,王绍宇.基于Hadoop分布式缓存的研究与实践[J].智能计算机与应用,2015,5(6):29-32.
5徐晓龙,郑永永.MapReduce和HDFS优化现状分析[J].吉林化工学院学报,2016,33(1):23-27. 被引量：1
6夏靖波,韦泽鲲,付凯,陈珍.云计算中Hadoop技术研究与应用综述[J].计算机科学,2016,43(11):6-11. 被引量：76
7阚运奇,刘宏伟,左德承,张展.云计算系统虚拟机内存资源预留方法[J].国防科技大学学报,2016,38(5):45-51. 被引量：2
8田英杰,郭乃网,吴裔,李凡.面向配用电大数据的新型软件体系架构[J].信息技术与标准化,2020(5):47-51.

同被引文献92

1储节旺,郭春侠.知识管理学科体系构建研究[J].情报理论与实践,2008,31(6):806-810. 被引量：9
2崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：142
3董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：71
4魏敏.气象高性能计算应用服务环境适应性研究[J].气象,2015,41(1):92-97. 被引量：10
5李新安.数据库技术发展前景展望[J].山东电力高等专科学校学报,2005,8(2):40-43. 被引量：5
6王萍,刘颖,王汉芝,刘环珠.基于格点场数据的沙尘暴双预报模型[J].天津大学学报,2006,39(3):329-333. 被引量：4
7李敏,程刚.我国企业知识管理系统研究综述[J].科技广场,2007(8):71-75. 被引量：3
8陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量：1314
9向波.加强企业知识管理的思考[J].石油化工管理干部学院学报,2009,11(2):30-32. 被引量：2
10马小勇,牛东晓.企业知识管理能力高标定位研究[J].科学学与科学技术管理,2009,30(8):91-94. 被引量：2

引证文献12

1董鑫宇.基于云平台的海量医疗数据存储[J].工业控制计算机,2016,29(12):89-90.
2张雪梅,李静,孟巍,吴雪霞,徐美玲,王若晗.基于现代服务体系的电力知识管理系统研究及应用[J].电力大数据,2018,21(10):82-86. 被引量：9
3叶伦强.云计算中数据流存储负载均衡优化仿真[J].计算机仿真,2018,35(10):246-249. 被引量：1
4程晗,汪学明.基于Redis的海量智慧医疗小文件存储架构设计[J].计算机应用与软件,2018,35(4):86-90. 被引量：8
5赵亚楠,李朝奎,肖克炎,范建福.基于Hadoop的地质矿产大数据分布式存储方法[J].地质通报,2019,38(2):462-470. 被引量：19
6黄家凯,熊保成,刘劲松,王冕,赵逸君,秦丽娟,吴恩政.一种多维时空地质大数据模型的技术探讨[J].资源环境与工程,2021,35(6):923-927. 被引量：3
7周笑天,冯勇,陈益玲,陈澍.基于Hadoop的气象数据分布式存储技术研究[J].信息技术,2022,46(1):68-74. 被引量：9
8陈法河,柴小丽.基于Ceph存储系统的小文件存储优化方案[J].计算机系统应用,2022,31(2):108-113. 被引量：6
9秦栋华.基于HBase的分布式海量小型文件存储系统[J].数字通信世界,2023(4):74-75. 被引量：1
10宋晓,韩璐遥,韦广昊,杨锦坤,郑兵.基于Hadoop的海洋数据存储平台设计与实现[J].海洋信息技术与应用,2023,38(2):101-107.

二级引证文献59

1师亚东,谭荣胤,段芳娥.面向电网学习型组织的知识管理体系建设与实践研究[J].知识管理论坛,2022(2):218-227.
2宋艳,李东升,何远成,张雪松,张巍.供电服务监督评价模式研究[J].企业改革与管理,2021(11):223-224. 被引量：1
3李洁玉,高飞.新时期企业知识管理在产业发展中的应用[J].产业科技创新,2019(33):120-122.
4朱东红,吴东丽,郭剑,阙艳红,刘立业,刘兴良,张会可,郭渊杰.气象自动观测集成平台设计[J].软件,2018,39(7):182-190. 被引量：3
5贾海天,陈晨.大数据环境下的智慧校园建设与应用[J].科技创新与应用,2019,0(20):162-163. 被引量：10
6蒲东.浅析大数据在地质矿产中的应用[J].世界有色金属,2019,44(10):259-260. 被引量：3
7吴张建.基于现代服务体系的电力知识管理系统及应用[J].中国勘察设计,2019,0(11):47-51. 被引量：2
8申子明.云计算负载均衡问题优化方法研究[J].合肥师范学院学报,2019,37(6):52-55. 被引量：1
9袁海飞.基于分布式实时计算架构的生产设备数据分析平台[J].电子技术与软件工程,2020(4):217-219. 被引量：2
10张杰,刘凯,周立军.采用Redis高并发应用系统设计与实现方法[J].计算机与数字工程,2020,48(5):1222-1226. 被引量：15

1游小容,曹晟.海量教育资源中小文件的存储研究[J].计算机科学,2015,42(10):76-80. 被引量：16
2曹风华.一种基于授权机制的分布式文件系统小文件访问优化策略[J].计算机系统应用,2013,22(7):183-186. 被引量：1
3许祥,罗宇.一种SAN环境下集群文件系统的元数据缓存研究[J].计算机研究与发展,2012,49(S1):240-244. 被引量：3
4吴海佳,陈卫卫,刘鹏,董继光.云存储系统中基于更新日志的元数据缓存同步策略[J].电信科学,2011,27(9):32-36. 被引量：6
5蔡涛,牛德姣,刘扬宽,李帅,鞠时光.NVMMDS——一种面向非易失存储器的元数据管理方法[J].计算机研究与发展,2013,50(1):69-79. 被引量：3
6王平,牟全臣,姜潮,白绍鹏,任如飞.企业级CAE平台框架CoteFrame及若干关键共性技术[J].计算机辅助工程,2014,23(2):8-13.
7周功业,吴伟杰,陈进才.一种基于对象存储系统的元数据缓存实现方法[J].计算机科学,2007,34(10):146-148. 被引量：4
8董奕,陈琳.一种基于数据访问机制的改进数据缓存替换算法[J].福建电脑,2009,25(10):84-86.
9黄启峰,郑纬民,沈美明.一种机群文件系统的缓存模型[J].小型微型计算机系统,2003,24(10):1748-1752. 被引量：2
10石彦博,傅颖勋,刘青昆,舒继武.一种应用于网络硬盘存储系统的安全模块技术[J].小型微型计算机系统,2014,35(6):1253-1257. 被引量：2

电子科技大学学报

2016年第1期

浏览历史

内容加载中请稍等...

基于Hadoop的小文件存储优化方案被引量：12

参考文献1

二级参考文献21

共引文献8

同被引文献92

引证文献12

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的小文件存储优化方案 被引量：12

参考文献1

二级参考文献21

共引文献8

同被引文献92

引证文献12

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的小文件存储优化方案被引量：12