-
题名面向深度学习的数据存储技术综述
被引量:1
- 1
-
-
作者
贺巩山
赵传磊
蒋金虎
张为华
陈左宁
-
机构
复旦大学计算机科学技术学院
复旦大学大数据研究院
复旦大学并行处理研究所
中国工程院
-
出处
《计算机学报》
北大核心
2025年第5期1013-1064,共52页
-
基金
国家重点研发计划项目(No.2023YFB4502703)资助。
-
文摘
随着数据总量和计算能力的不断提升,以深度学习和大模型为代表的人工智能技术获得了迅速的发展,并成功应用于计算机视觉和自然语言处理等领域。然而,随着GPU等加速器运算速度的提高,数据存储已经成为了深度学习训练和推理的主要瓶颈之一,主要表现为:(1)数据集的规模快速增长,无法完全缓存在内存中;(2)若无额外处理,数据集主要由小文件组成。在每轮训练中,训练任务会随机读取训练集中的文件;(3)与GPU等加速器相比,存储设备的带宽增长缓慢,二者之间的差距正在不断变大;(4)模型参数和中间数据等模型状态非常大,经常超过GPU等加速器的存储容量,出现了内存墙的问题;(5)为了实现容错,训练任务通常会执行检查点操作,保存最新的模型状态,但这引入了较高的性能开销。因此,面向人工智能(尤其是深度学习)的数据存储技术成为了热门的研究领域,受到了学术界和工业界的广泛关注。本文首先介绍了深度学习的相关背景,包括流程、模型以及分布式训练。其次,本文总结了深度学习的数据特点,包括数据集和模型的规模与类型,以及数据准备(包括数据加载和数据预处理)和模型计算(包括模型训练和模型推理)的数据访问模式。接着,本文分析了深度学习在数据加载、数据预处理以及模型计算阶段的数据存储需求,提出了面向深度学习的数据存储技术研究框架。然后,本文梳理了现有的相关工作,并根据针对的阶段不同将其分为3类:(1)面向数据加载的存储优化技术关注于如何加速数据加载阶段,包括数据集存储格式、数据集存储系统、数据集缓存系统以及数据加载器;(2)面向数据预处理的存储优化技术关注于如何加速数据预处理阶段,包括数据预处理流水线、分离式数据预处理、数据预处理缓存以及近存储数据预处理;(3)面向模型计算的存储优化技术关注于如何加速模型计算阶段,包括模型状态存储技术、模型训练容错技术、模型存储系统以及性能测试与分析工具。最后,本文讨论了现有工作存在的问题,提出了未来可能的研究方向。
-
关键词
深度学习
数据存储技术
数据加载优化
数据预处理优化
模型计算优化
-
Keywords
deep learning
data storage technology
data loading optimization
data preprocessing optimization
model computing optimization
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-