-
题名基于EHDFS的海量小文件存储与检索方法
被引量:5
- 1
-
-
作者
李文武
张建锋
王景林
-
机构
西北农林科技大学信息工程学院
-
出处
《计算机工程与设计》
北大核心
2022年第2期376-383,共8页
-
基金
陕西省重点项目研发计划基金项目(2019 NY-164)。
-
文摘
为有效解决HDFS面对多类型的海量小文件存在存储效率与检索速率低下的问题,构建一种基于EHDFS架构的存取方案。存储阶段,引入最优化策略,建立新的合并存储模型,使小文件最大化填满且均匀分布于Block,提高DataNode空间利用,降低NameNode内存开销。检索阶段,改进MapFile映射关系结构、索引存储位置与组成元素以建立新的文件索引模型,避免跨跃式文件搜索,实现小文件的集中检索。实验结果表明,对比多种大数据存储模型,在不同数据量的分组压力测试下,该方案有效提高了HDFS的存取效率。
-
关键词
海量小文件
EHDFS架构
最优化合并存储模型
MapFile映射关系结构
文件索引模型
-
Keywords
massive small files
EHDFS architecture
optimization merge storage model
MapFile mapping structure
file index model
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-