期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
MRNDA:一种基于资源受限片上网络的深度神经网络加速器组播机制研究 被引量:1
1
作者 欧阳一鸣 王奇 +2 位作者 汤飞扬 周武 李建华 《电子学报》 EI CAS CSCD 北大核心 2024年第3期872-884,共13页
片上网络(Network-on-Chip,NoC)在多处理器系统中得到了广泛的应用.近年来,有研究提出了基于NoC的深度神经网络(Deep Neural Network,DNN)加速器.基于NoC的DNN加速器设计利用NoC连接神经元计算设备,能够极大地减少加速器对片外存储的访... 片上网络(Network-on-Chip,NoC)在多处理器系统中得到了广泛的应用.近年来,有研究提出了基于NoC的深度神经网络(Deep Neural Network,DNN)加速器.基于NoC的DNN加速器设计利用NoC连接神经元计算设备,能够极大地减少加速器对片外存储的访问从而减少加速器的分类延迟和功耗.但是,若采用传统的单播NoC,大量的一对多数据包会极大的提高加速器的通信延迟.并且,目前的深度神经网络规模往往非常庞大,而NoC的核心数量是有限的.因此,文中提出了一种针对资源受限的NoC的组播方案.该方案利用有限数量的处理单元(Processor Element,PE)来计算大型的DNN,并且利用特殊的树形组播加速网络来减少加速器的通信延迟.仿真结果表明,和基准情况相比,本文提出的组播机制使加速器的分类延迟最高降低了86.7%,通信延迟最高降低了88.8%,而它的路由器面积和功耗仅占基准路由器的9.5%和10.3%. 展开更多
关键词 片上网络 深度神经网络加速器 组播 路由器架构 多物理网络
在线阅读 下载PDF
基于神经网络加速器的FPGA语音情感识别系统 被引量:1
2
作者 乔栋 陈章进 +1 位作者 邓良 张廓 《计算机应用与软件》 北大核心 2024年第10期163-169,246,共8页
针对现有语音情感识别系统的部署功耗高、不具有便携性的缺点,提出一种基于神经网络加速器的FPGA语音情感识别系统设计。在FPGA上实现语音MFCC(Mel Frequency Cepstrum Coefficient)特征的提取,便于进行识别;为神经网络加速器设计指令... 针对现有语音情感识别系统的部署功耗高、不具有便携性的缺点,提出一种基于神经网络加速器的FPGA语音情感识别系统设计。在FPGA上实现语音MFCC(Mel Frequency Cepstrum Coefficient)特征的提取,便于进行识别;为神经网络加速器设计指令生成算法,将网络模型部署在神经网络加速器实现语音情感识别。整个系统主要硬件资源消耗为37078个LUT和153个DSP,支持在主流FPGA平台上的部署。经过检验,语音情感识别系统的指令运算误差可达0.06以下,输出误差为0.0004以下,满足语音情感识别的需求。 展开更多
关键词 MFCC 语音情感识别 神经网络加速器 FPGA
在线阅读 下载PDF
Bi-SCNN:二值随机混合神经网络加速器
3
作者 于启航 文渊博 杜子东 《高技术通讯》 北大核心 2024年第12期1243-1255,共13页
二值神经网络(BNN)具有硬件友好的特性,但为了保证计算精度,在输入层仍需要使用浮点或定点计算,增加了硬件开销。针对该问题,本文将另一种同样具有硬件友好特性的随机计算方法应用于BNN,实现了BNN输入层的高效计算,并设计了二值随机混... 二值神经网络(BNN)具有硬件友好的特性,但为了保证计算精度,在输入层仍需要使用浮点或定点计算,增加了硬件开销。针对该问题,本文将另一种同样具有硬件友好特性的随机计算方法应用于BNN,实现了BNN输入层的高效计算,并设计了二值随机混合计算架构Bi-SCNN。首先,在BNN输入层使用高精度的随机运算单元,实现了与定点计算近似的精度;其次,通过在处理单元(PE)内和PE间2个层次对随机数生成器进行复用,并优化运算单元,有效降低了硬件开销;最后,根据输入数据的特性对权值配置方式进行优化,进而降低了整体计算延迟。相比于现有性能最优的BNN加速器,Bi-SCNN在保证计算精度的前提下,实现了2.4倍的吞吐量、12.6倍的能效比和2.2倍的面积效率提升,分别达到2.2 TOPS、7.3 TOPS·W^(-1)和1.8 TOPS·mm^(-2)。 展开更多
关键词 二值神经网络(BNN) 随机计算(SC) 神经网络加速器
在线阅读 下载PDF
华为昇腾神经网络加速器性能评测与优化 被引量:14
4
作者 鲁蔚征 张峰 +3 位作者 贺寅烜 陈跃国 翟季冬 杜小勇 《计算机学报》 EI CAS CSCD 北大核心 2022年第8期1618-1637,共20页
华为昇腾是一款新型神经网络加速器.与GPU相比,昇腾加速器专门面向神经网络计算,设计了专用计算单元,核心算力集中在低精度,基于昇腾的软件栈与GPU有所差异.现有研究大多专注于GPU上的深度学习负载性能分析和优化,由于昇腾平台推出不久... 华为昇腾是一款新型神经网络加速器.与GPU相比,昇腾加速器专门面向神经网络计算,设计了专用计算单元,核心算力集中在低精度,基于昇腾的软件栈与GPU有所差异.现有研究大多专注于GPU上的深度学习负载性能分析和优化,由于昇腾平台推出不久且具有新的体系结构特征,其实际表现仍有待探索.为深入挖掘昇腾的性能和优化方法,本文对其进行了系统性的评测和分析,包括:(1)基于标准数据集在四个端到端神经网络(ResNet、Transformer、DeepFM和LSTM)上对昇腾和GPU的性能和功耗进行了对比;(2)研究了昇腾上深度学习框架、算子和混合精度训练优化策略;(3)测试三个计算密集型算子(全连接、卷积和RNN)的浮点计算能力、硬件利用率和访存性能.评测结果表明:华为昇腾加速器适合进行稠密型神经网络工作负载,且功耗低于GPU;使用昇腾进行模型训练,需要将神经网络模型从32位精度量化到16位精度.针对昇腾的体系结构和编译软件栈特点,本文提出如下优化策略:深度学习框架开发时应进行整图编译构建,进行算子融合;算子开发时应合理设置分块大小,尽量使用低精度实现算子;模型训练时要合理设置混合精度参数. 展开更多
关键词 深度学习 神经网络加速器 华为昇腾 高性能计算 评测基准
在线阅读 下载PDF
基于FPGA模拟的阻变神经网络加速器评估方法 被引量:2
5
作者 石永泉 景乃锋 《计算机工程》 CAS CSCD 北大核心 2021年第12期209-214,共6页
基于阻变器件的存算一体神经网络加速器需在架构设计初期进行仿真评估,确保神经网络精度符合设计要求,但传统阻变神经网络加速器的软件模拟器运行速度较慢,难以应对大规模网络的架构评估需求。为加快仿真评估速度,设计一种基于现场可编... 基于阻变器件的存算一体神经网络加速器需在架构设计初期进行仿真评估,确保神经网络精度符合设计要求,但传统阻变神经网络加速器的软件模拟器运行速度较慢,难以应对大规模网络的架构评估需求。为加快仿真评估速度,设计一种基于现场可编程门阵列(FPGA)模拟的阻变神经网络加速器评估方法,分析现有阻变神经网络加速器的架构通用性,利用FPGA资源的高度并行性和运行时指令驱动的灵活模拟方式,通过硬件资源的分时复用实现多层次存算一体架构和指令集的功能模拟及主流神经网络的快速性能评估。实验结果表明,针对不同规模的忆阻器阵列和深度神经网络,该评估方法相比MNSIM和DNN NeuroSim软件模拟器运行速度分别提升了40.0~252.9倍和194.7~234.2倍。 展开更多
关键词 神经网络加速器 存算一体 现场可编程门阵列 忆阻器 模拟器 深度神经网络
在线阅读 下载PDF
面向高能效加速器的二值化神经网络设计和训练方法
6
作者 李佳骏 许浩博 +4 位作者 王郁杰 肖航 王颖 韩银和 李晓维 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2023年第6期961-969,共9页
针对二值化神经网络加速器计算溢出和乘法器依赖的问题,提出一套二值化神经网络设计及其训练方法.首先设计能够模拟溢出的矩阵乘法,保证模型部署后不丢失准确率;然后优化卷积层和激活函数,缓解溢出总量;再设计移位批标准化层,使二值化... 针对二值化神经网络加速器计算溢出和乘法器依赖的问题,提出一套二值化神经网络设计及其训练方法.首先设计能够模拟溢出的矩阵乘法,保证模型部署后不丢失准确率;然后优化卷积层和激活函数,缓解溢出总量;再设计移位批标准化层,使二值化神经网络摆脱对乘法运算的依赖,并有效地降低访存;最后针对改进的模型提出基于溢出启发的协同训练框架,确保模型训练能够收敛.实验结果表明,与10个主流的关键词激活方法相比,在准确率无明显损失的情况下,所提方法使片上计算规模减少超过49.1%,并为加速器带来至少21.0%的速度提升. 展开更多
关键词 二值化神经网络 深度学习 模型训练 神经网络加速器
在线阅读 下载PDF
面向深度神经网络加速芯片的高效硬件优化策略 被引量:7
7
作者 张萌 张经纬 +2 位作者 李国庆 吴瑞霞 曾晓洋 《电子与信息学报》 EI CSCD 北大核心 2021年第6期1510-1517,共8页
轻量级神经网络部署在低功耗平台上的解决方案可有效用于无人机(UAV)检测、自动驾驶等人工智能(AI)、物联网(IOT)领域,但在资源有限情况下,同时兼顾高精度和低延时来构建深度神经网络(DNN)加速器是非常有挑战性的。该文针对此问题提出... 轻量级神经网络部署在低功耗平台上的解决方案可有效用于无人机(UAV)检测、自动驾驶等人工智能(AI)、物联网(IOT)领域,但在资源有限情况下,同时兼顾高精度和低延时来构建深度神经网络(DNN)加速器是非常有挑战性的。该文针对此问题提出一系列高效的硬件优化策略,包括构建可堆叠共享计算引擎(PE)以平衡不同卷积中数据重用和内存访问模式的不一致;提出了可调的循环次数和通道增强方法,有效扩展加速器与外部存储器之间的访问带宽,提高DNN浅层网络计算效率;优化了预加载工作流,从整体上提高了异构系统的并行度。经Xilinx Ultra96 V2板卡验证,该文的硬件优化策略有效地改进了iSmart3-SkyNet和SkrSkr-SkyNet类的DNN加速芯片设计。结果显示,优化后的加速器每秒处理78.576帧图像,每幅图像的功耗为0.068 J。 展开更多
关键词 深度神经网络 目标检测 神经网络加速器 低功耗 硬件优化
在线阅读 下载PDF
面向脉动阵列加速器的软硬件协同容错设计
8
作者 魏晓辉 关泽宇 +2 位作者 王晨洋 岳恒山 吴旗 《计算机科学》 北大核心 2025年第5期91-100,共10页
近年来,随着模型推理精度的不断提高,卷积神经网络(CNN)在安全关键领域得到了广泛应用。为了满足CNN在实时性、高性能和低功耗计算方面的需求,领域专用架构的CNN加速器应运而生。其中,脉动阵列架构凭借其结构简单和高并行度等优势被广... 近年来,随着模型推理精度的不断提高,卷积神经网络(CNN)在安全关键领域得到了广泛应用。为了满足CNN在实时性、高性能和低功耗计算方面的需求,领域专用架构的CNN加速器应运而生。其中,脉动阵列架构凭借其结构简单和高并行度等优势被广泛应用。然而,由于制程变异和设备老化等因素的影响,脉动阵列容易发生Stuck-At故障(SAF),进而可能导致灾难性事故。因此,制定针对脉动阵列的容错策略显得尤为重要。然而,现有的容错策略存在时间和资源开销大、网络参数修改过多等问题。为实现高效且低开销的轻量级容错策略,拟挖掘CNN的固有容错能力,对部分影响较小的SAF进行松弛处理,以减少整体容错开销。同时,充分考虑脉动阵列的计算特性,提出了行(列)交换和权重拆分两种软硬件协同容错设计,有效缓解SAF对模型推理精度的影响。实验结果表明,相较于传统行(列)跳过策略和选择保护策略,所提软硬件协同容错策略在执行效率和模型精度恢复方面更具优势。 展开更多
关键词 卷积神经网络 容错设计 Stuck-At故障 脉动阵列 卷积神经网络加速器
在线阅读 下载PDF
面向多模型工作负载的弹性计算加速器架构研究
9
作者 张军 王兴宾 苏玉兰 《高技术通讯》 北大核心 2025年第7期698-710,共13页
针对多模型工作负载在深度神经网络(deep neural network,DNN)加速器上部署时服务质量下降的问题,本文提出新的加速器体系结构EnsBooster,该架构能够为多模型的高效推理提供经济高效的并行执行模式。首先,设计了弹性脉动阵列,将较大的... 针对多模型工作负载在深度神经网络(deep neural network,DNN)加速器上部署时服务质量下降的问题,本文提出新的加速器体系结构EnsBooster,该架构能够为多模型的高效推理提供经济高效的并行执行模式。首先,设计了弹性脉动阵列,将较大的脉动阵列划分为多个较小的脉动子阵列,以满足多模型并行执行的灵活性和可扩展性需求。其次,提出了时空复用资源分配策略,充分利用时空共享来提高底层计算资源的使用效率。最后,提出分层调度机制,在粗粒度层面,采用提前退出调度来降低多模型推理的计算负担;在细粒度层面,采用抢占调度机制利用多模型的互补性和数据局部性抢占空闲计算资源,最大限度地提高硬件资源和带宽利用率。使用一组不同的多模型工作负载基准进行的评估表明,EnsBooster架构在吞吐量、能耗降低方面有显著提高。 展开更多
关键词 深度神经网络加速器 集成学习 多模型工作负载 弹性计算 脉动阵列 抢占调度
在线阅读 下载PDF
支持CNN与LSTM的二值权重神经网络芯片 被引量:5
10
作者 张士长 王郁杰 +6 位作者 肖航 许浩博 李佳骏 王颖 张浩天 李晓维 韩银和 《高技术通讯》 CAS 2021年第2期122-128,共7页
深度神经网络在图像分类、语音识别、视频检测等领域都取得了巨大的成功,这些领域主要采用了卷积神经网络(CNN)、长短期记忆(LSTM)中的一种或者两种网络类型。由于CNN和LSTM网络结构的差异使得现有深度神经网络加速器无法同时高效支持... 深度神经网络在图像分类、语音识别、视频检测等领域都取得了巨大的成功,这些领域主要采用了卷积神经网络(CNN)、长短期记忆(LSTM)中的一种或者两种网络类型。由于CNN和LSTM网络结构的差异使得现有深度神经网络加速器无法同时高效支持这两种网络类型。权重二值化使得加速器对于CNN和LSTM的同时支持更加高效,同时使得计算复杂度和访存量大幅降低,使得神经网络加速器能够获得更高的能效,并且二值权重对中小规模神经网络模型的精度损失的影响非常有限。本文提出了一种高效支持CNN与LSTM的二值权重神经网络加速器设计结构,该结构在运行CNN和LSTM网络模型时,其核心运算单元利用率超过已有加速器,并且该加速器通过了片上系统(SoC)芯片验证,经过芯片实测,该加速器芯片能效在SoC系统级别达到了6.43 TOPS/W。 展开更多
关键词 卷积神经网络(CNN) 长短期记忆(LSTM) 神经网络加速器 二值权重 片上系统(SoC)
在线阅读 下载PDF
一种负载均衡的LSTM硬件加速器设计 被引量:1
11
作者 查羿 潘红兵 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第5期733-739,共7页
神经网络在嵌入式端的应用日益广泛,为满足嵌入式端低功耗,低延迟等特点,通常的解决方案是针对长短记忆序列LSTM模型(Long-Short Term Memory)进行压缩,并定制专用的硬件加速器.当LSTM模型经过剪枝等压缩操作后,其网络模型将变得稀疏且... 神经网络在嵌入式端的应用日益广泛,为满足嵌入式端低功耗,低延迟等特点,通常的解决方案是针对长短记忆序列LSTM模型(Long-Short Term Memory)进行压缩,并定制专用的硬件加速器.当LSTM模型经过剪枝等压缩操作后,其网络模型将变得稀疏且不规则,会给PE(Process Element)运算单元带来负载不均衡的问题.通过排序的方法,将权重矩阵按一定的规则重新分发给各个PE单元,并在此基础上针对稀疏化的模型定制专用的硬件单元.在赛灵思zynq系列XCZU9EG.2FFVB1156E开发板上进行实验,实验结果显示,当PE单元多消耗0.314%硬件资源的情况下,其运算速度取得了2%的提升. 展开更多
关键词 神经网络加速器 模型压缩 负载均衡 嵌入式设计
在线阅读 下载PDF
基于BP算法的片上学习CNN硬件加速器 被引量:2
12
作者 王飞 张多利 +2 位作者 汪杨 王泽中 宋宇鲲 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2021年第8期1059-1064,共6页
为了适应便携式应用场合卷积神经网络(convolutional neural network,CNN)硬件加速器片上学习功能的需要,文章设计了一种多核并行运算的CNN硬件加速器,利用运算器内嵌缓存结构与运算过程分割和数据复用,减少运算器和存储器之间的数据交... 为了适应便携式应用场合卷积神经网络(convolutional neural network,CNN)硬件加速器片上学习功能的需要,文章设计了一种多核并行运算的CNN硬件加速器,利用运算器内嵌缓存结构与运算过程分割和数据复用,减少运算器和存储器之间的数据交互,提高CNN运算的并行度,提升训练和推理过程的效率。该架构包含1组二维运算阵列和激活函数运算模块,以及相应的数据分配器和指令存储器;以1个16单元的CNN加速器设计为例,验证了所设计CNN加速器架构运行多种CNN模型时的性能和运算准确性。实验结果表明,文中提出的加速器架构与Intel9400F CPU相比,最大误差为8.0437×10^(-6),识别精度下降0.63%,运行速度提高7.67倍。 展开更多
关键词 卷积神经网络(CNN)加速器 片上学习 现场可编程门阵列(FPGA) TOEPLITZ矩阵
在线阅读 下载PDF
基于FPGA的机器学习硬件加速研究进展 被引量:16
13
作者 王超 王腾 +1 位作者 马翔 周学海 《计算机学报》 EI CSCD 北大核心 2020年第6期1161-1182,共22页
随着日益剧增的海量数据信息的产生以及数据挖掘算法的广泛应用,人们已经进入了大数据时代.在数据规模飞速增长的前提下,如何高效稳定的存取数据信息以及加快数据挖掘算法的执行已经成为学术界和工业界急需解决的关键问题.机器学习算法... 随着日益剧增的海量数据信息的产生以及数据挖掘算法的广泛应用,人们已经进入了大数据时代.在数据规模飞速增长的前提下,如何高效稳定的存取数据信息以及加快数据挖掘算法的执行已经成为学术界和工业界急需解决的关键问题.机器学习算法作为数据挖掘应用的核心组成部分,吸引了越来越多研究者的关注,而利用新型的软硬件手段来加速机器学习算法已经成为了目前的研究热点之一.本文主要针对基于ASIC和FPGA等硬件平台设计的机器学习加速器进行了归纳与总结.首先,本文先介绍了机器学习算法,对代表性的算法进行了分析和归纳.接下来对加速器可能的着眼点进行了列举综述,以各种机器学习硬件加速器为主要实例介绍了目前主流的加速器设计和实现,并围绕加速器结构进行简单分类和总结.最后本文对机器学习算法硬件加速这个领域进行了分析,并对目前的发展趋势做出了展望. 展开更多
关键词 机器学习 FPGA 加速器 大数据 神经网络加速器
在线阅读 下载PDF
基于深度学习的舰船目标检测算法与硬件加速 被引量:7
14
作者 李磊 徐国伟 +1 位作者 李文婧 宋庆增 《计算机应用》 CSCD 北大核心 2021年第S01期162-166,共5页
现有基于深度学习的检测算法,虽然有效提高了高分辨率遥感图像中的舰船目标检测准确率,但是由于其网络结构非常复杂,导致计算量和参数量巨大。为了满足实际应用中的实时性要求,采用异构硬件加速,并进行了相应的算法优化。为了更好地贴... 现有基于深度学习的检测算法,虽然有效提高了高分辨率遥感图像中的舰船目标检测准确率,但是由于其网络结构非常复杂,导致计算量和参数量巨大。为了满足实际应用中的实时性要求,采用异构硬件加速,并进行了相应的算法优化。为了更好地贴合硬件,首先在YOLOV3算法的基础上,通过对主干网络进行改进,设计并实现了YOLOV3&MobileNetV3轻量化网络,这样可以极大地削减网络的参数规模和计算量。然后在现场可编程逻辑门阵列(FPGA)平台,通过设计卷积神经网络加速器,实现了高效的轻量化神经网络。最后实验结果表明,改进的神经网络在自主研发的FPGA加速架构上,在测试集中的船舰目标的检测达到了150帧每秒的检测速度以及0.872的F1值,能够更加快速并有效地检测船舰目标。 展开更多
关键词 舰船目标检测 轻量化神经网络 神经网络加速器 现场可编程门阵列
在线阅读 下载PDF
DNN在位级可组合架构上的数据流优化方法
15
作者 高汉源 宫磊 王腾 《计算机工程与应用》 CSCD 北大核心 2024年第18期147-157,共11页
位级可组合架构用于支持有多种数据位宽类型的神经网络计算。其硬件结构有较多变体,面对不同神经网络模型需额外设计程序调度。过程耗时,阻碍软硬件的快速迭代和部署,效果难以评估。相关的数据流建模工作缺乏位级计算描述和自动化方法... 位级可组合架构用于支持有多种数据位宽类型的神经网络计算。其硬件结构有较多变体,面对不同神经网络模型需额外设计程序调度。过程耗时,阻碍软硬件的快速迭代和部署,效果难以评估。相关的数据流建模工作缺乏位级计算描述和自动化方法。提出了基于数据流建模的自适应位级可组合架构上的数据调度优化方法解决上述问题。引入位级数据流建模,以多种循环原语和张量-索引关系矩阵,描述位级可组合硬件结构的特征和应用的数据调度过程。从建模表达中提取数据访问信息,统计数据复用情况,进行快速评估。构建了设计空间探索框架,针对不同应用和硬件设计约束自适应优化数据调度过程。利用索引匹配方法和循环变换方法进行设计采样,添加贪心规则进行剪枝,以提高探索效率。在多个应用程序和多种硬件结构约束下进行实验。结果表明对比先进的手动设计的加速器和数据调度,获得了更好的性能表现。 展开更多
关键词 神经网络加速器 可变位宽 数据流 设计空间探索
在线阅读 下载PDF
面向大规模卷积计算的多忆阻器阵列互连结构设计 被引量:1
16
作者 唐励勤 刁节涛 +5 位作者 陈长林 骆畅航 刘彪 刘思彤 张宇飞 王琴 《国防科技大学学报》 EI CAS CSCD 北大核心 2023年第5期222-230,共9页
针对现有多忆阻器阵列集成架构中存在的数据加载、读出效率低以及阵列协同灵活性差等问题,提出一种高效率、高灵活度的阵列互连架构。该架构所采用的数据加载策略支持多种权重映射模式下的数据复用,减少了片外数据访存需求;所采用的计... 针对现有多忆阻器阵列集成架构中存在的数据加载、读出效率低以及阵列协同灵活性差等问题,提出一种高效率、高灵活度的阵列互连架构。该架构所采用的数据加载策略支持多种权重映射模式下的数据复用,减少了片外数据访存需求;所采用的计算结果读出网络支持多个处理单元灵活组合实现不同规模卷积运算,以及计算结果的快速累加读出,进而提升了芯片灵活性和整体算力。在NeuroSim仿真平台上运行VGG-8网络进行的仿真实验表明,与MAX 2神经网络加速器相比,在仅增加6%面积开销的情况下,取得了146%的处理速度提升。 展开更多
关键词 忆阻器 多阵列互连 卷积运算 神经网络加速器
在线阅读 下载PDF
稀疏卷积计算高效数据加载与输出缓存策略 被引量:1
17
作者 刘彪 陈长林 +3 位作者 张宇飞 刘思彤 唐励勤 于红旗 《国防科技大学学报》 EI CAS CSCD 北大核心 2023年第5期212-221,共10页
针对现有神经网络加速器在处理稀疏神经网络时存在的数据加载效率低、乘加资源利用率低、输出缓存寻址逻辑复杂等问题,提出了稀疏卷积计算高效数据加载与输出缓存策略。将属于同一输入通道的非零输入特征图像数据和非零权重进行全对全... 针对现有神经网络加速器在处理稀疏神经网络时存在的数据加载效率低、乘加资源利用率低、输出缓存寻址逻辑复杂等问题,提出了稀疏卷积计算高效数据加载与输出缓存策略。将属于同一输入通道的非零输入特征图像数据和非零权重进行全对全乘累加运算,降低了非零数据配对难度,提高了乘加资源利用率;通过采用输入驻留计算,以及密集型循环加载特征图像数据,大幅减少了数据片外调取次数;优化了输出缓存设计,解决了现有方案中存在的输出缓存地址访问争用、存储拥塞等问题。实验表明,与采用类似架构的细粒度脉动加速器相比,在处理单元面积上减少了21.45%;在数据加载速度方面平均提高了117.71%在平均乘法器利用率方面提高了11.25%,达到89%。 展开更多
关键词 神经网络加速器 稀疏卷积神经网络 输入驻留 全对全计算
在线阅读 下载PDF
面向混合量化CNNs的可重构处理器设计 被引量:1
18
作者 常立博 张盛兵 《西北工业大学学报》 EI CAS CSCD 北大核心 2022年第2期344-351,共8页
为了解决已有卷积神经网络(convolution neural networks,CNNs)加速器,因无法适应混合量化CNN模型的计算模式和访存特性而引起加速器效率低的问题,设计了可适应混合量化模型的可重构计算单元、弹性片上缓存单元和宏数据流指令集。其中,... 为了解决已有卷积神经网络(convolution neural networks,CNNs)加速器,因无法适应混合量化CNN模型的计算模式和访存特性而引起加速器效率低的问题,设计了可适应混合量化模型的可重构计算单元、弹性片上缓存单元和宏数据流指令集。其中,采用了可根据CNN模型结构的重构多核结构以提高计算资源利用率,采用弹性存储结构以及基于Tile的动态缓存划分策略以提高片上数据复用率,采用可有效表达混合精度CNN模型计算和可重构处理器特性的宏数据流指令集以降低映射策略的复杂度。在Ultra96-V2平台上实现VGG-16和ResNet-50的计算性能达到216.6和214 GOPS,计算效率达到0.63和0.64 GOPS/DSP。同时,在ZCU102平台上实现ResNet-50的计算性能可达931.8 GOPS,计算效率可达0.40 GOPS/DSP,相较于其他类似CNN加速器,计算性能和计算效率分别提高了55.4%和100%。 展开更多
关键词 混合精度量化 卷积神经网络加速器 可重构计算
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部