-
题名HDFS下海量小文件高效存储与索引方法
被引量:5
- 1
-
-
作者
肖玉泽
张利军
潘巍
张小芳
李战怀
-
机构
西北工业大学计算机学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2015年第10期2218-2223,共6页
-
基金
国家"九七三"重点基础研究发展计划项目(2012CB316203)资助
国家自然基金重点项目(61033007)资助
中国航天科技集团公司航天科技创新基金项目(2014H03FK011)资助
-
文摘
分布式文件系统HDFS被用来存储大文件,若在其中存储海量小文件将会严重消耗Name Node内存,影响系统性能,同时小文件也不利于使用MapReduce框架进行并行处理和分析.另外,小文件附带的多维元信息也需要以一种合理的方式进行存储和索引以便于查询.本文针对以上问题,提出一种基于多维列索引的小文件管理方案,支持文件的并发上传、下载及删除操作,并在多个查询维度上提供文件的自由检索.本文提出的小文件合并方案能够明显减少HDFS上的文件数量,经过实验对比,在小文件元信息的查询效率方面,本文提出的多维索引方案优于HBase,同时保证了文件传输的吞吐量.
-
关键词
HDFS
海量小文件
多维列索引
文件信息查询
-
Keywords
HDFS
massively small files
multi-dimensional column index
file information query
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-