-
题名HDFS存储和优化技术研究综述
被引量:44
- 1
-
-
作者
金国栋
卞昊穹
陈跃国
杜小勇
-
机构
数据工程与知识工程教育部重点实验室(中国人民大学)
中国人民大学信息学院
大数据系统软件国家工程实验室(北京理工大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2020年第1期137-161,共25页
-
基金
国家重点研发计划(2018YFB1004401)
国家自然科学基金(U1711261,61432006,61732014)。
-
文摘
HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载这3个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向.
-
关键词
HDFS
分布式文件系统
存储系统优化
数据分析
-
Keywords
HDFS
distributed file system
storage system optimization
data analysis
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-