期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
结合算子选择的卷积神经网络显存优化算法 被引量:1
1
作者 魏晓辉 周博文 +1 位作者 李洪亮 徐哲文 《吉林大学学报(理学版)》 CAS 北大核心 2024年第2期302-310,共9页
针对卷积神经网络训练中自动算子选择算法在较大的显存压力下性能下降的问题,将卸载、重计算与卷积算子选择统一建模,提出一种智能算子选择算法。该算法权衡卸载和重计算引入的时间开销与更快的卷积算子节省的时间,寻找卸载、重计算和... 针对卷积神经网络训练中自动算子选择算法在较大的显存压力下性能下降的问题,将卸载、重计算与卷积算子选择统一建模,提出一种智能算子选择算法。该算法权衡卸载和重计算引入的时间开销与更快的卷积算子节省的时间,寻找卸载、重计算和卷积算子选择的调度,解决了自动算子选择算法性能下降的问题.实验结果表明,该智能算子选择算法比重计算-自动算子选择算法缩短了13.53%训练时间,比已有的卸载/重计算-自动算子选择算法缩短了4.36%的训练时间. 展开更多
关键词 显存 卷积神经网络训练 卷积算子 卸载 重计算
在线阅读 下载PDF
面向分布式卷积神经训练网络的FPGA加速器设计
2
作者 张小军 王俊英 +3 位作者 王晓静 韩钦 王正荣 张德学 《实验室研究与探索》 CAS 北大核心 2023年第9期100-104,113,共6页
为提高卷积神经网络(CNN)训练速度,设计一种基于FPGA的分布式CNN加速器。采用数据并行分布式架构,通过多FPGA并行计算提高CNN的训练速度。分析各层数据依赖性,调整矩阵卷积运算顺序,实现层内和层间的细粒度流水线。针对卷积运算消耗过... 为提高卷积神经网络(CNN)训练速度,设计一种基于FPGA的分布式CNN加速器。采用数据并行分布式架构,通过多FPGA并行计算提高CNN的训练速度。分析各层数据依赖性,调整矩阵卷积运算顺序,实现层内和层间的细粒度流水线。针对卷积运算消耗过多存储资源,设计一种数据拼接存储结构,有效节省存储资源。为实现多FPGA互联,采用40G光纤传输数据,同时优化Ring-Allreduce传输模式,减少板间数据传递的延迟。针对Mnist数据集,选用16 bit定点量化,不同层间选用不同量化方案,减小梯度下降误差。测试表明,基于Intel Arria 10硬件平台,设计的2 FPGA和3 FPGA架构相对于单FPGA可分别实现1.99、2.98的加速比。 展开更多
关键词 分布式 现场可编程门阵列 卷积神经网络训练 定点量化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部