期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
DAQ:基于分治策略的自适应VisionTransformer低位宽量化方法
1
作者 吕倩茹 许金伟 +1 位作者 姜晶菲 李东升 《计算机研究与发展》 北大核心 2025年第6期1530-1546,共17页
视觉Transformer(Vision Transformer,ViT)模型在计算机视觉领域的多项任务中取得显著效果.但ViT的复杂结构和计算开销限制了其在边缘计算设备中的部署.训练后量化(post-training quantization,PTQ)技术被广泛应用于ViT模型轻量化中以... 视觉Transformer(Vision Transformer,ViT)模型在计算机视觉领域的多项任务中取得显著效果.但ViT的复杂结构和计算开销限制了其在边缘计算设备中的部署.训练后量化(post-training quantization,PTQ)技术被广泛应用于ViT模型轻量化中以解决实际部署难题,但现有PTQ方法在低位宽量化中的性能损失较大.针对低比特量化场景,ViT的量化敏感层(如Softmax)与计算密集层(如线性变换)存在显著空间错位,且非高斯分布的激活值中隐含97%的类高斯聚集特性.由此,基于标准分数z-score方法提出分治自适应量化(divide-and-conquer and adaptive quantization,DAQ)方法,通过量化敏感度-计算-存储开销联合分析与硬件协同设计,实现精度与效率的联合优化.DAQ构建动态分治量化机制,通过动态感知的z-score方法实现正常值/离群值双域分割,均匀关联量化2个值域.在4-bit量化下,DAQ方法在分类任务上的Top-1精度最大提升4.37个百分点,目标检测任务最大精度提升达8.2个百分点,与基线模型相比误差平均低于0.4个百分点,超过最佳全精度模型0.1个百分点,接近实现无损的低位宽量化.另一方面,DAQ在硬件兼容设上适配TensorCore的INT4/INT8内核,以量化定点计算来减轻线性计算压力.实验表明,DAQ硬件适配后对线性计算部分有43%~86%的加速效果,为资源受限场景提供了算法-硬件协同优化的量化部署范式. 展开更多
关键词 视觉Transformer(ViT) 训练后量化(PTQ) 离群值 低比特量化 Z-SCORE 均匀关联量化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部