-
题名基于自适应张量交换和重算的大模型推理优化
- 1
-
-
作者
梁绪宁
王思琪
杨海龙
栾钟治
刘轶
钱德沛
-
机构
北京航空航天大学计算机学院
-
出处
《计算机工程》
北大核心
2025年第10期27-36,共10页
-
基金
国家重点研发计划(2023YFB3001801)
国家自然科学基金(62322201,62072018,U23B2020)
+1 种基金
中央高校基本科研业务费专项资金(YWF-23-L-1121,JKF-20240198)
复杂软件全国重点实验室项目(SKLSDE-2023ZX-05)。
-
文摘
大语言模型(LLM)在多种自然语言处理任务中展现出卓越性能。然而,LLM拥有极高的参数规模,使得有限的GPU内存容量成为推理任务的性能瓶颈。为此,面向LLM推理服务场景提出AdaptiveLLM,根据推理任务负载特征,在张量交换和张量重算中实现卸载策略的自适应选择。为了评估推理任务负载特征,AdaptiveLLM通过算子粒度计算复杂度分析建立黑盒机器学习(ML)模型,实现张量重算开销预测,通过细粒度KV Cache内存占用分析实现张量交换开销预测。为了进行卸载策略的自适应选择,AdaptiveLLM针对抢占调度阶段设计一种基于开销感知的内存优化策略,在GPU内存不足时选择开销较小的卸载方式。同时,针对启动调度阶段设计一种基于公平性的用户请求调度策略,在GPU内存空余时基于公平性原则调度更多的用户请求。实验结果表明,相比于当前广泛使用的LLM推理基准框架,AdaptiveLLM实现了整体吞吐率的提升,同时降低了平均带权周转时间,实现了公平调度。
-
关键词
大语言模型
推理
张量交换
张量重算
吞吐率
公平性
-
Keywords
Large Language Models(LLM)
inference
tensor swapping
tensor recomputation
throughput
fairness
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-