-
题名TDC转置卷积硬件加速器的设计与优化
- 1
-
-
作者
王国庆
严利民
-
机构
上海大学机电工程与自动化学院微电子研究与开发中心
-
出处
《西安电子科技大学学报》
北大核心
2025年第2期156-166,共11页
-
基金
国家自然科学基金(52107112)。
-
文摘
转置卷积在深度学习(Deep Learning, DL)任务中应用广泛,但是在小型快速超分辨率卷积神经网络(Fast Super-Resolution Convolutional Neural Network-small, FSRCNN-s)中已经成为推理阶段的主要性能瓶颈,因此设计高效的转置卷积硬件加速器至关重要。基于转换转置卷积为卷积(Transforming Deconvolution to Convolution, TDC)算法,将步长为2的转置卷积软件推理流程转换为4路并行的直接卷积硬件实现,验证了不完美映射情况下算法和硬件加速器的正确性。完成转置卷积加速器设计后,选择FSRCNN-s×2网络进行端到端部署,采用软硬件协同设计和8位整数(Integer 8-bit, INT8)量化调度策略平衡转置卷积推理精度和速度之间的矛盾。实验结果表明,设计的转置卷积硬件加速器精度损失在0.5dB以内,相比CPU基线推理速度缩短到17ms。对比其他转置卷积加速器,设计的整数推理加速器显著降低了数字信号处理器(Digital Signal Processor, DSP)资源占用,将DSP效率提高为0.200每秒十亿次运算(Giga Operations Per Second, GOPS)/DSP,为低位宽整数推理转置卷积加速器设计提供参考。
-
关键词
卷积神经网络
转置卷积
转换转置卷积为卷积算法
INT8量化
硬件加速器
-
Keywords
convolutional neural network
transposed convolution
Transforming Deconvolution to Convolution(TDC)algorithm
INT8 quantization
hardware accelerator
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-