期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
大语言模型推理中的存储优化技术综述
被引量:
2
1
作者
葛旭冉
欧洋
+5 位作者
王博
赵宇
吴利舟
王子聪
陈志广
肖侬
《计算机研究与发展》
北大核心
2025年第3期545-562,共18页
近年来,大语言模型在多个领域展现出卓越的性能,显著改变了人类的生活方式.然而,随着模型规模的不断增长和用户对长上下文推理需求的增加,大语言模型推理系统在存储方面面临诸多问题.首先,庞大的模型参数和键值缓存导致GPU显存资源不足...
近年来,大语言模型在多个领域展现出卓越的性能,显著改变了人类的生活方式.然而,随着模型规模的不断增长和用户对长上下文推理需求的增加,大语言模型推理系统在存储方面面临诸多问题.首先,庞大的模型参数和键值缓存导致GPU显存资源不足;其次,分布式大语言模型推理系统难以充分利用GPU集群的存储资源,存在资源过度配置和存储容错的问题.因此,从显存优化、异构存储和分布式存储3方面入手,归纳总结了现有研究在解决GPU显存容量不足和资源利用率低下方面的努力.基于显存优化的大语言模型推理系统通过高效的键值缓存管理、压缩以及注意力算子优化,提高了GPU显存利用率,降低了显存占用.基于异构存储的大语言模型推理系统利用多种类别的存储资源扩展存储容量,通过张量放置策略、异步数据传输以及智能显存分配与预取技术,降低了异构存储带来的I/O开销.基于分布式存储的大语言模型推理系统通过批处理、多级调度、冗余复制等策略,优化了多机存储和计算资源的利用,提高了大语言模型推理任务的执行效率和容错能力.最后,总结了现有研究,并对未来的研究方向进行了展望.
展开更多
关键词
大语言模型推理系统
显存管理
异构存储
分布式存储
故障恢复
无服务
大语言
模型
推理
在线阅读
下载PDF
职称材料
题名
大语言模型推理中的存储优化技术综述
被引量:
2
1
作者
葛旭冉
欧洋
王博
赵宇
吴利舟
王子聪
陈志广
肖侬
机构
国防科技大学计算机学院
中山大学计算机学院
爱丁堡大学信息学院
出处
《计算机研究与发展》
北大核心
2025年第3期545-562,共18页
基金
国家自然科学基金项目(62272499,62332021)
国家重点研发计划项目(2022YFB4500304)
+2 种基金
广东省基础与应用基础研究重大项目(2019B030302002)
广东省高层次人才培养专项支持计划项目(2021TQ06X160)
琶洲实验室项目(PZL2023KF0001)。
文摘
近年来,大语言模型在多个领域展现出卓越的性能,显著改变了人类的生活方式.然而,随着模型规模的不断增长和用户对长上下文推理需求的增加,大语言模型推理系统在存储方面面临诸多问题.首先,庞大的模型参数和键值缓存导致GPU显存资源不足;其次,分布式大语言模型推理系统难以充分利用GPU集群的存储资源,存在资源过度配置和存储容错的问题.因此,从显存优化、异构存储和分布式存储3方面入手,归纳总结了现有研究在解决GPU显存容量不足和资源利用率低下方面的努力.基于显存优化的大语言模型推理系统通过高效的键值缓存管理、压缩以及注意力算子优化,提高了GPU显存利用率,降低了显存占用.基于异构存储的大语言模型推理系统利用多种类别的存储资源扩展存储容量,通过张量放置策略、异步数据传输以及智能显存分配与预取技术,降低了异构存储带来的I/O开销.基于分布式存储的大语言模型推理系统通过批处理、多级调度、冗余复制等策略,优化了多机存储和计算资源的利用,提高了大语言模型推理任务的执行效率和容错能力.最后,总结了现有研究,并对未来的研究方向进行了展望.
关键词
大语言模型推理系统
显存管理
异构存储
分布式存储
故障恢复
无服务
大语言
模型
推理
Keywords
LLM inference system
memory management
heterogeneous storage
distributed storage
fault recovery
serverless LLM inference
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
大语言模型推理中的存储优化技术综述
葛旭冉
欧洋
王博
赵宇
吴利舟
王子聪
陈志广
肖侬
《计算机研究与发展》
北大核心
2025
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部