期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
资源受限场景下基于算子感知的大模型推理张量卸载方法
1
作者
张建锋
谢栋
+4 位作者
蹇松雷
李宝
王晓川
郭勇
余杰
《国防科技大学学报》
2025年第6期60-70,共11页
在一些资源受限场景下,大语言模型的高效推理部署面临严峻挑战。当前主流的模型推理优化技术,虽然在一定程度上提高了模型推理效率,但是仍然存在部署粒度较为粗糙、推理精度较差等问题。根据不同算子对GPU亲和度不同的发现,提出算子感...
在一些资源受限场景下,大语言模型的高效推理部署面临严峻挑战。当前主流的模型推理优化技术,虽然在一定程度上提高了模型推理效率,但是仍然存在部署粒度较为粗糙、推理精度较差等问题。根据不同算子对GPU亲和度不同的发现,提出算子感知张量卸载(operator-aware tensor offloading,OATO)方法。OATO能够提取算子的语义知识,并基于此设计了智能算子调度算法,可以生成全局最优模型部署方案。同时,将OATO方法集成进最新的大模型推理框架Llama.cpp中,实现了算子感知的张量卸载增强推理引擎OALlama.cpp。实验结果表明,相比于业内最先进的推理引擎Llama.cpp和FlexGen,OALlama.cpp在3种大模型上均取得最好的推理性能,尤其是在LlaMA3-8B模型GPU加载75%权重的场景下,OALlama.cpp的首词生成速度相比FlexGen和Llama.cpp提升近1倍。
展开更多
关键词
大语言模型
资源受限
模型推理
算子
GPU亲和度
算子感知张量卸载方法
在线阅读
下载PDF
职称材料
题名
资源受限场景下基于算子感知的大模型推理张量卸载方法
1
作者
张建锋
谢栋
蹇松雷
李宝
王晓川
郭勇
余杰
机构
国防科技大学计算机学院
出处
《国防科技大学学报》
2025年第6期60-70,共11页
基金
国家自然科学基金创新群体资助项目(62421002)
国防科技大学自主科研基金资助项目(24-ZZCX-JDZ-07)。
文摘
在一些资源受限场景下,大语言模型的高效推理部署面临严峻挑战。当前主流的模型推理优化技术,虽然在一定程度上提高了模型推理效率,但是仍然存在部署粒度较为粗糙、推理精度较差等问题。根据不同算子对GPU亲和度不同的发现,提出算子感知张量卸载(operator-aware tensor offloading,OATO)方法。OATO能够提取算子的语义知识,并基于此设计了智能算子调度算法,可以生成全局最优模型部署方案。同时,将OATO方法集成进最新的大模型推理框架Llama.cpp中,实现了算子感知的张量卸载增强推理引擎OALlama.cpp。实验结果表明,相比于业内最先进的推理引擎Llama.cpp和FlexGen,OALlama.cpp在3种大模型上均取得最好的推理性能,尤其是在LlaMA3-8B模型GPU加载75%权重的场景下,OALlama.cpp的首词生成速度相比FlexGen和Llama.cpp提升近1倍。
关键词
大语言模型
资源受限
模型推理
算子
GPU亲和度
算子感知张量卸载方法
Keywords
large language models
resource constraints
model inference
GPU affinities of operators
operator-aware tensor offloading approach
分类号
TP181 [自动化与计算机技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
资源受限场景下基于算子感知的大模型推理张量卸载方法
张建锋
谢栋
蹇松雷
李宝
王晓川
郭勇
余杰
《国防科技大学学报》
2025
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部