为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(...为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(neural processing unit, NPU)实现硬件加速。在传统的模型剪枝和量化基础上,采用通道剪枝结合混合精度量化的方法,在保证模型性能的前提下最大程度压缩网络模型。硬件部署推理实验结果表明,该方法可实现对原始模型压缩7.75倍,模型推理速度提升2.55倍,实验验证了该方法对ResNet模型的压缩和硬件推理加速具有一定效果。展开更多
为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理...为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理、任务自动映射、通讯任务乱序执行等机制。实验结果表明,该动态调度协处理器不仅能够实现任务级乱序执行等基本设计目标,还具有极低的调度开销,相较于基于动态记分牌算法的调度器,运行多个子孔径距离压缩算法的时间降低达17.13%。研究结果证明文章设计的动态调度协处理器能够有效优化目标场景下的任务调度效果。展开更多
文摘为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(neural processing unit, NPU)实现硬件加速。在传统的模型剪枝和量化基础上,采用通道剪枝结合混合精度量化的方法,在保证模型性能的前提下最大程度压缩网络模型。硬件部署推理实验结果表明,该方法可实现对原始模型压缩7.75倍,模型推理速度提升2.55倍,实验验证了该方法对ResNet模型的压缩和硬件推理加速具有一定效果。
文摘为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理、任务自动映射、通讯任务乱序执行等机制。实验结果表明,该动态调度协处理器不仅能够实现任务级乱序执行等基本设计目标,还具有极低的调度开销,相较于基于动态记分牌算法的调度器,运行多个子孔径距离压缩算法的时间降低达17.13%。研究结果证明文章设计的动态调度协处理器能够有效优化目标场景下的任务调度效果。