期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
大语言模型推理中的存储优化技术综述 被引量:2
1
作者 葛旭冉 欧洋 +5 位作者 王博 赵宇 吴利舟 王子聪 陈志广 肖侬 《计算机研究与发展》 北大核心 2025年第3期545-562,共18页
近年来,大语言模型在多个领域展现出卓越的性能,显著改变了人类的生活方式.然而,随着模型规模的不断增长和用户对长上下文推理需求的增加,大语言模型推理系统在存储方面面临诸多问题.首先,庞大的模型参数和键值缓存导致GPU显存资源不足... 近年来,大语言模型在多个领域展现出卓越的性能,显著改变了人类的生活方式.然而,随着模型规模的不断增长和用户对长上下文推理需求的增加,大语言模型推理系统在存储方面面临诸多问题.首先,庞大的模型参数和键值缓存导致GPU显存资源不足;其次,分布式大语言模型推理系统难以充分利用GPU集群的存储资源,存在资源过度配置和存储容错的问题.因此,从显存优化、异构存储和分布式存储3方面入手,归纳总结了现有研究在解决GPU显存容量不足和资源利用率低下方面的努力.基于显存优化的大语言模型推理系统通过高效的键值缓存管理、压缩以及注意力算子优化,提高了GPU显存利用率,降低了显存占用.基于异构存储的大语言模型推理系统利用多种类别的存储资源扩展存储容量,通过张量放置策略、异步数据传输以及智能显存分配与预取技术,降低了异构存储带来的I/O开销.基于分布式存储的大语言模型推理系统通过批处理、多级调度、冗余复制等策略,优化了多机存储和计算资源的利用,提高了大语言模型推理任务的执行效率和容错能力.最后,总结了现有研究,并对未来的研究方向进行了展望. 展开更多
关键词 大语言模型推理系统 显存管理 异构存储 分布式存储 故障恢复 无服务大语言模型推理
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部