-
题名端智能推理加速技术综述
- 1
-
-
作者
章晋睿
龙婷婷
张德宇
许愿
任炬
张尧学
-
机构
清华大学计算机与科学技术系
中南大学计算机学院
-
出处
《电子学报》
北大核心
2025年第4期1063-1102,共40页
-
基金
国家重点研发计划(No.2022YFF0604502)
国家自然科学基金(No.62122095,No.62341201)。
-
文摘
智能下沉是迈向泛在智能时代的必经之路,也推动了端智能(on-device intelligence)技术的飞速发展.通过在终端设备直接部署运行深度学习模型,端智能在实时性、安全性、个性化等方面具有天然优势,已在自动驾驶、卫星侦察、虚拟现实/增强现实(Virtual Reality/Augmented Reality,VR/AR)等众多场景广泛应用.然而,随着深度学习模型参数量不断增大,端侧受限的硬件资源已难以支撑不断增长的计算开销.为提升终端设备在模型推理的计算效率,研究人员从模型算法、编译软件、设备硬件等多个层面开展了系统性优化,有效推动了端智能的发展与演进.本文从算法、软硬件结合优化等方面对现有端侧深度学习模型推理优化工作进行了总结,涵盖模型压缩技术、模型-软件-硬件的协同设计、模型异构并行部署策略以及大模型的端侧优化技术.最后,本文梳理了当前端智能推理加速技术所面临的挑战,并对未来发展趋势进行了展望.
-
关键词
端智能
模型压缩
推理加速
深度学习
软硬件结合优化
-
Keywords
on-device intelligence
model compression
inference acceleration
deep learning
collaborative design of model-software-hardware
-
分类号
TP393.0
[自动化与计算机技术—计算机应用技术]
-