期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
资源受限场景下基于算子感知的大模型推理张量卸载方法
1
作者 张建锋 谢栋 +4 位作者 蹇松雷 李宝 王晓川 郭勇 余杰 《国防科技大学学报》 2025年第6期60-70,共11页
在一些资源受限场景下,大语言模型的高效推理部署面临严峻挑战。当前主流的模型推理优化技术,虽然在一定程度上提高了模型推理效率,但是仍然存在部署粒度较为粗糙、推理精度较差等问题。根据不同算子对GPU亲和度不同的发现,提出算子感... 在一些资源受限场景下,大语言模型的高效推理部署面临严峻挑战。当前主流的模型推理优化技术,虽然在一定程度上提高了模型推理效率,但是仍然存在部署粒度较为粗糙、推理精度较差等问题。根据不同算子对GPU亲和度不同的发现,提出算子感知张量卸载(operator-aware tensor offloading,OATO)方法。OATO能够提取算子的语义知识,并基于此设计了智能算子调度算法,可以生成全局最优模型部署方案。同时,将OATO方法集成进最新的大模型推理框架Llama.cpp中,实现了算子感知的张量卸载增强推理引擎OALlama.cpp。实验结果表明,相比于业内最先进的推理引擎Llama.cpp和FlexGen,OALlama.cpp在3种大模型上均取得最好的推理性能,尤其是在LlaMA3-8B模型GPU加载75%权重的场景下,OALlama.cpp的首词生成速度相比FlexGen和Llama.cpp提升近1倍。 展开更多
关键词 大语言模型 资源受限 模型推理 算子GPU亲和度 算子感知张量卸载方法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部