-
题名IR-GCN:二值图卷积神经网络推理加速器
- 1
-
-
作者
于启航
文渊博
杜子东
-
机构
中国科学院计算技术研究所处理器芯片国家重点实验室
中国科学院大学
-
出处
《高技术通讯》
CAS
北大核心
2024年第10期1024-1035,共12页
-
基金
国家重点研发计划(2022YFB4501601)
国家自然科学基金(62222214,61925208,U19B2019,U22A2028)
中国科学院稳定支持基础研究领域青年国家团队计划(YSBR-029)资助项目。
-
文摘
针对图卷积神经网络(GCN)中数据规模庞大、不适合边缘端低功耗处理器高效推理计算的问题,本文提出一种将新型二值数据量化算法(IR-Net)应用于GCN模型推理计算的方法,并设计了对应的硬件加速器IR-GCN。同时,针对计算过程中工作负载分布不均衡的问题,实现了一种负载均衡模块设计,显著提高了计算效率。实验结果表明,在较小精度损失范围内,IR-GCN加速器可以同时降低计算延迟以及访存开销。与现有性能最优的研究相比,IR-GCN加速器平均具有2.4倍的计算加速比、7.9倍的功耗降低、13.7倍的芯片面积减少以及21.0倍的访存量降低。
-
关键词
图卷积神经网络(GCN)
二值神经网络(BNN)
硬件加速器
-
Keywords
graph convolutional neural network(GCN)
binary neural network(BNN)
hardware accelerator
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名Bi-SCNN:二值随机混合神经网络加速器
- 2
-
-
作者
于启航
文渊博
杜子东
-
机构
中国科学院计算技术研究所处理器芯片国家重点实验室
中国科学院大学
上海处理器技术创新中心
-
出处
《高技术通讯》
北大核心
2024年第12期1243-1255,共13页
-
基金
国家重点研发计划(2022YFB4501601)
国家自然科学基金(62222214,61925208,U19B2019,U22A2028)
中国科学院稳定支持基础研究领域青年团队计划(YSBR-029)资助项目。
-
文摘
二值神经网络(BNN)具有硬件友好的特性,但为了保证计算精度,在输入层仍需要使用浮点或定点计算,增加了硬件开销。针对该问题,本文将另一种同样具有硬件友好特性的随机计算方法应用于BNN,实现了BNN输入层的高效计算,并设计了二值随机混合计算架构Bi-SCNN。首先,在BNN输入层使用高精度的随机运算单元,实现了与定点计算近似的精度;其次,通过在处理单元(PE)内和PE间2个层次对随机数生成器进行复用,并优化运算单元,有效降低了硬件开销;最后,根据输入数据的特性对权值配置方式进行优化,进而降低了整体计算延迟。相比于现有性能最优的BNN加速器,Bi-SCNN在保证计算精度的前提下,实现了2.4倍的吞吐量、12.6倍的能效比和2.2倍的面积效率提升,分别达到2.2 TOPS、7.3 TOPS·W^(-1)和1.8 TOPS·mm^(-2)。
-
关键词
二值神经网络(BNN)
随机计算(SC)
神经网络加速器
-
Keywords
binary neural network(BNN)
stochastic computing(SC)
deep learning accelerator
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名深度卷积的软硬件协同优化设计与实现
- 3
-
-
作者
齐豪
刘少礼
李威
-
机构
中国科学技术大学计算机科学与技术学院
上海寒武纪信息科技有限公司
中国科学院计算技术研究所处理器芯片国家重点实验室
-
出处
《高技术通讯》
CAS
2022年第7期696-707,共12页
-
基金
国家重点研发计划(2020AAA0103802)
国家自然科学基金(61732002,61925208,61732007,61906179,U20A20227)
+1 种基金
中国科学院战略性先导科技专项(XDBS01050200)
北京智源人工智能研究院和中国科学院青年创新促进会和科学探索奖资助项目。
-
文摘
近年来,深度学习技术被广泛应用。由于移动设备同时受到算力和功耗的限制,很多轻量级的网络被提出,比如Xception、MobileNet系列等。在这些轻量级网络中,深度卷积的层数占网络中所有卷积层数的31%~50%,故如何优化深度卷积的运算是一个值得研究的问题。通用中央处理器(CPU)、固定运算器长度的单指令多数据流(SIMD)处理器均无法高效处理神经网络中的各种规模的深度卷积,性能较低。针对这一问题,本文提出了一种软硬件结合的方法优化深度卷积的计算,通过一个多种权值传输模式的硬件架构设计,结合软件模式选择、数据拆分等优化方式,在提高运算效率的同时减少了访存量。实验结果表明,使用该方法实现的深度卷积加速器,相比通用CPU最大可达9.3倍的性能加速,相比运算器长度为64的单核SIMD处理器最大可达29.3倍的性能加速。
-
关键词
神经网络
深度卷积
加速器
软硬件协同优化
计算效率
-
Keywords
neural network
depthwise convolution
accelerator
software and hardware collaborative optimization
computing efficiency
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-