-
题名结合算子选择的卷积神经网络显存优化算法
被引量:1
- 1
-
-
作者
魏晓辉
周博文
李洪亮
徐哲文
-
机构
吉林大学计算机科学与技术学院
-
出处
《吉林大学学报(理学版)》
CAS
北大核心
2024年第2期302-310,共9页
-
基金
吉林省自然科学基金面上项目(批准号:20230101062JC)。
-
文摘
针对卷积神经网络训练中自动算子选择算法在较大的显存压力下性能下降的问题,将卸载、重计算与卷积算子选择统一建模,提出一种智能算子选择算法。该算法权衡卸载和重计算引入的时间开销与更快的卷积算子节省的时间,寻找卸载、重计算和卷积算子选择的调度,解决了自动算子选择算法性能下降的问题.实验结果表明,该智能算子选择算法比重计算-自动算子选择算法缩短了13.53%训练时间,比已有的卸载/重计算-自动算子选择算法缩短了4.36%的训练时间.
-
关键词
显存
卷积神经网络训练
卷积算子
卸载
重计算
-
Keywords
memory
convolutional neural network training
convolutional operator
offloading
recomputing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向分布式卷积神经训练网络的FPGA加速器设计
- 2
-
-
作者
张小军
王俊英
王晓静
韩钦
王正荣
张德学
-
机构
山东科技大学电子信息工程学院
高效能服务器和存储技术国家重点实验室
-
出处
《实验室研究与探索》
CAS
北大核心
2023年第9期100-104,113,共6页
-
基金
山东省自然科学基金联合基金项目(ZR2019LZH001)
山东省本科教学改革项目(M2020149)
山东省研究生案例库项目(SDYAL19081)。
-
文摘
为提高卷积神经网络(CNN)训练速度,设计一种基于FPGA的分布式CNN加速器。采用数据并行分布式架构,通过多FPGA并行计算提高CNN的训练速度。分析各层数据依赖性,调整矩阵卷积运算顺序,实现层内和层间的细粒度流水线。针对卷积运算消耗过多存储资源,设计一种数据拼接存储结构,有效节省存储资源。为实现多FPGA互联,采用40G光纤传输数据,同时优化Ring-Allreduce传输模式,减少板间数据传递的延迟。针对Mnist数据集,选用16 bit定点量化,不同层间选用不同量化方案,减小梯度下降误差。测试表明,基于Intel Arria 10硬件平台,设计的2 FPGA和3 FPGA架构相对于单FPGA可分别实现1.99、2.98的加速比。
-
关键词
分布式
现场可编程门阵列
卷积神经网络训练
定点量化
-
Keywords
distributed
field programmable gate array(FPGA)
convolutional neural net training
fixed-point quantization
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-