为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(...为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(neural processing unit, NPU)实现硬件加速。在传统的模型剪枝和量化基础上,采用通道剪枝结合混合精度量化的方法,在保证模型性能的前提下最大程度压缩网络模型。硬件部署推理实验结果表明,该方法可实现对原始模型压缩7.75倍,模型推理速度提升2.55倍,实验验证了该方法对ResNet模型的压缩和硬件推理加速具有一定效果。展开更多
针对自动驾驶决策计算低功耗、低延时、高精度的需求,文章设计一种支持混合精度运算的深度强化学习自动驾驶决策算法的硬件加速器。通过多运算单元重构方式设计乘累加单元(multiply-and-accumulate unit, MAC),支持多种精度模式的计算,...针对自动驾驶决策计算低功耗、低延时、高精度的需求,文章设计一种支持混合精度运算的深度强化学习自动驾驶决策算法的硬件加速器。通过多运算单元重构方式设计乘累加单元(multiply-and-accumulate unit, MAC),支持多种精度模式的计算,提高加速器的灵活性,降低量化模型的部署成本;通过多层次优化数据流,提高复用程度,优化加速器能耗比。在随机潜在演员评论家(stochastic latent actor-critic, SLAC)自动驾驶决策算法上测试该硬件加速器,结果表明:有效算力达到18.3 GOPS,是CPU的10.7倍,GPU的3.3倍;能效比达到2.197 GOPS/W,是CPU的104倍,GPU的28倍。同时提出一种高位数据编码(most significant bit data coding, MSB-DC)方法实现层内混合精度特征图计算,实验结果表明,该方法能以较少的延迟成本有效降低量化所带来的误差。展开更多
文摘为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(neural processing unit, NPU)实现硬件加速。在传统的模型剪枝和量化基础上,采用通道剪枝结合混合精度量化的方法,在保证模型性能的前提下最大程度压缩网络模型。硬件部署推理实验结果表明,该方法可实现对原始模型压缩7.75倍,模型推理速度提升2.55倍,实验验证了该方法对ResNet模型的压缩和硬件推理加速具有一定效果。
文摘针对自动驾驶决策计算低功耗、低延时、高精度的需求,文章设计一种支持混合精度运算的深度强化学习自动驾驶决策算法的硬件加速器。通过多运算单元重构方式设计乘累加单元(multiply-and-accumulate unit, MAC),支持多种精度模式的计算,提高加速器的灵活性,降低量化模型的部署成本;通过多层次优化数据流,提高复用程度,优化加速器能耗比。在随机潜在演员评论家(stochastic latent actor-critic, SLAC)自动驾驶决策算法上测试该硬件加速器,结果表明:有效算力达到18.3 GOPS,是CPU的10.7倍,GPU的3.3倍;能效比达到2.197 GOPS/W,是CPU的104倍,GPU的28倍。同时提出一种高位数据编码(most significant bit data coding, MSB-DC)方法实现层内混合精度特征图计算,实验结果表明,该方法能以较少的延迟成本有效降低量化所带来的误差。