期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于自适应张量交换和重算的大模型推理优化
1
作者 梁绪宁 王思琪 +3 位作者 杨海龙 栾钟治 刘轶 钱德沛 《计算机工程》 北大核心 2025年第10期27-36,共10页
大语言模型(LLM)在多种自然语言处理任务中展现出卓越性能。然而,LLM拥有极高的参数规模,使得有限的GPU内存容量成为推理任务的性能瓶颈。为此,面向LLM推理服务场景提出AdaptiveLLM,根据推理任务负载特征,在张量交换和张量重算中实现卸... 大语言模型(LLM)在多种自然语言处理任务中展现出卓越性能。然而,LLM拥有极高的参数规模,使得有限的GPU内存容量成为推理任务的性能瓶颈。为此,面向LLM推理服务场景提出AdaptiveLLM,根据推理任务负载特征,在张量交换和张量重算中实现卸载策略的自适应选择。为了评估推理任务负载特征,AdaptiveLLM通过算子粒度计算复杂度分析建立黑盒机器学习(ML)模型,实现张量重算开销预测,通过细粒度KV Cache内存占用分析实现张量交换开销预测。为了进行卸载策略的自适应选择,AdaptiveLLM针对抢占调度阶段设计一种基于开销感知的内存优化策略,在GPU内存不足时选择开销较小的卸载方式。同时,针对启动调度阶段设计一种基于公平性的用户请求调度策略,在GPU内存空余时基于公平性原则调度更多的用户请求。实验结果表明,相比于当前广泛使用的LLM推理基准框架,AdaptiveLLM实现了整体吞吐率的提升,同时降低了平均带权周转时间,实现了公平调度。 展开更多
关键词 大语言模型 推理 张量交换 张量重算 吞吐率 公平性
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部