期刊文献+
共找到86篇文章
< 1 2 5 >
每页显示 20 50 100
基于FPGA的卷积神经网络硬件加速器设计空间探索研究 被引量:2
1
作者 郭谦 贺光辉 《微电子学与计算机》 北大核心 2020年第8期66-71,共6页
为了解决基于FPGA的卷积神经网络硬件加速器资源分配的问题,提出一种基于细粒度流水线架构的设计空间探索方法.为了提高吞吐率,该方法主要使用了三种技术:1)通过对DSP进行多阶段分配,实现各级流水线平衡;2)利用可调节的中间值缓存,协调B... 为了解决基于FPGA的卷积神经网络硬件加速器资源分配的问题,提出一种基于细粒度流水线架构的设计空间探索方法.为了提高吞吐率,该方法主要使用了三种技术:1)通过对DSP进行多阶段分配,实现各级流水线平衡;2)利用可调节的中间值缓存,协调BRAM和DDR带宽资源;3)利用深度可分解卷积替换部分卷积层,减少网络整体计算量.为了验证提出的设计空间探索方法,在ZC-706FPGA上实现了YOLO2-tiny网络,结果表明与同类设计相比,本设计的吞吐率与能效比高,整体延时低. 展开更多
关键词 卷积神经网络硬件加速器 设计空间探索 细粒度流水线
在线阅读 下载PDF
基于FPGA的卷积神经网络硬件加速器设计 被引量:18
2
作者 秦华标 曹钦平 《电子与信息学报》 EI CSCD 北大核心 2019年第11期2599-2605,共7页
针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以... 针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。 展开更多
关键词 卷积神经网络 硬件加速 现场可编程逻辑门阵列 计算并行 深度流水
在线阅读 下载PDF
基于FPGA的卷积神经网络硬件加速器设计 被引量:3
3
作者 江瑜 朱铁柱 +3 位作者 蒋青松 丁晓文 张栋丞 李新澳 《电子器件》 CAS 北大核心 2023年第4期973-977,共5页
设计了基于卷积神经网络模型的加速器,实现并行化的卷积运算。研究中,完成可卷积神经网络重构硬件加速器搭建,并对加速器架构进行优化,实现在运算过程中对特征图尺寸的动态配置。实验结果表明,该设计在工作时钟频率为250 MHz,推理时间为... 设计了基于卷积神经网络模型的加速器,实现并行化的卷积运算。研究中,完成可卷积神经网络重构硬件加速器搭建,并对加速器架构进行优化,实现在运算过程中对特征图尺寸的动态配置。实验结果表明,该设计在工作时钟频率为250 MHz,推理时间为50 ms,吞吐量峰值运算速度达到142.12 GOPS。发现该系统可以充分地发挥FPGA的低时延和高密度优势。 展开更多
关键词 卷积神经网络 加速器 吞吐量
在线阅读 下载PDF
用于卷积神经网络硬件加速器的3D DMA控制器
4
作者 王洪利 李建成 《中国集成电路》 2019年第8期38-42,共5页
在卷积神经网络硬件加速器(Convolutional Neural Networks Accelerator,CNNA)中,需要大量的数据访问和中间数据缓存,系统架构中负责数据传输的DMA控制器(Direct Memory Access Controller,DMAC),性能高低将直接影响整个加速器的算力。... 在卷积神经网络硬件加速器(Convolutional Neural Networks Accelerator,CNNA)中,需要大量的数据访问和中间数据缓存,系统架构中负责数据传输的DMA控制器(Direct Memory Access Controller,DMAC),性能高低将直接影响整个加速器的算力。针对传统DMAC传输三维图像特征(feature)和权重(weight)时,需多次加载数据到内存的问题,本文创新性的提出了一种专用于CNNA的3D(Width,Height,Channel)DMAC的设计。整个架构有四个DMAC,每个DMAC支持单通道传输,可以并行工作互不影响。设计的DMAC支持多种操作模式,除基本的直接内存访问模式,还包括3D模式,即支持3D图像数据控制,极大提高了加速器的工作效率。本设计已用verilog语言在RTL上建模,并对功能进行了综合、仿真和验证,结果表明设计满足应用需求。 展开更多
关键词 卷积神经网络 硬件加速器 CNNA DMAC
在线阅读 下载PDF
基于位串行卷积神经网络加速器的运动想象脑电信号识别系统
5
作者 程筱舒 王忆文 +2 位作者 娄鸿飞 丁玮然 李平 《电子科技大学学报》 北大核心 2025年第3期321-332,共12页
准确识别运动想象脑电信号是神经科学和生物医学工程领域的重要挑战。设计了基于位串行卷积神经网络加速器的脑电信号识别系统,充分利用其小体积、低能耗和高实时性的优势。从软件层面,介绍了脑电数据的预处理、特征提取及分类过程,并... 准确识别运动想象脑电信号是神经科学和生物医学工程领域的重要挑战。设计了基于位串行卷积神经网络加速器的脑电信号识别系统,充分利用其小体积、低能耗和高实时性的优势。从软件层面,介绍了脑电数据的预处理、特征提取及分类过程,并采用格拉姆角场转换将一维信号映射为二维特征图供网络处理。在硬件层面,提出了列暂存数据流和固定乘数原位串行乘法器等方法,在FPGA上实现了位串行卷积神经网络加速器的原型验证。实验表明,基于位串行LeNet-5加速器的FPGA实现对BCI竞赛Ⅳ数据集2a和2b的分类平均准确率分别达到95.68%和97.32%,kappa值分别为0.942和0.946,展现出的优异性为运动想象脑电信号识别的高效实现提供了思路。 展开更多
关键词 脑机接口 运动想象 卷积神经网络 硬件加速器 格拉姆角场
在线阅读 下载PDF
基于“存算一体”的卷积神经网络加速器
6
作者 卢莹莹 孙翔宇 +1 位作者 计炜梁 邢占强 《太赫兹科学与电子信息学报》 2025年第2期170-174,共5页
基于冯·诺伊曼架构的卷积神经网络(CNN)实现方案难以满足高性能与低功耗的要求,本文设计了一种基于“存算一体”架构的卷积神经网络加速器。利用可变电阻式存储器(RRAM)阵列实现“存算一体”架构,采用高效的数据输入管道及硬件处... 基于冯·诺伊曼架构的卷积神经网络(CNN)实现方案难以满足高性能与低功耗的要求,本文设计了一种基于“存算一体”架构的卷积神经网络加速器。利用可变电阻式存储器(RRAM)阵列实现“存算一体”架构,采用高效的数据输入管道及硬件处理单元进行大批量图像数据的处理,实现了高性能的数字图像识别。仿真结果表明,该卷积神经网络加速器有着更快的计算能力,其时钟频率可达100 MHz;此外,该结构综合得到的面积为300742μm^(2),为常规设计方法的56.6%。本文设计的加速模块在很大程度上提高了CNN加速器的速率并降低了能耗,仿真结果对高性能神经网络加速器设计有指导意义和参考作用。 展开更多
关键词 存算一体 卷积神经网络(CNN) 加速器 输入管道 处理单元
在线阅读 下载PDF
基于片上系统的可配置卷积神经网络加速器的设计与实现 被引量:1
7
作者 张立国 杨红光 +1 位作者 金梅 申前 《高技术通讯》 CAS 北大核心 2024年第7期744-754,共11页
针对现阶段卷积神经网络(CNN)加速器的设计只能部署在单一现场可编程门阵列(FPGA)平台、不支持硬件平台升级迭代的问题,设计了一种基于片上系统(SoC)的可配置CNN加速器。该加速器具备以下2个特点:(1)在电路设计中将数据位宽、中间缓存... 针对现阶段卷积神经网络(CNN)加速器的设计只能部署在单一现场可编程门阵列(FPGA)平台、不支持硬件平台升级迭代的问题,设计了一种基于片上系统(SoC)的可配置CNN加速器。该加速器具备以下2个特点:(1)在电路设计中将数据位宽、中间缓存空间大小、乘法器阵列(MAC)并行度作为一种可选配置参数,通过调整资源使用量,使得该加速器能够适配不同FPGA硬件;(2)提出了动态数据复用的策略,通过对比数据传输过程中不同复用方式下的总参数量差异,动态地选择复用方法,以减少数据传输的等待时间,提高乘法器阵列利用率。该方案在ZCU104板卡上进行了实验,实验结果表明,当数据位宽选择8、乘法器阵列并行度选择1024、核心运算模块工作在180 MHz时,卷积运算阵列峰值吞吐量为180 GOPs,功耗为3.75 W,能效比达到47.97 GOPs·W^(-1),对于VGG16网络,其卷积层的平均乘法器阵列利用率达到84.37%。 展开更多
关键词 卷积神经网络(CNN) 现场可编程门阵列(FPGA) CNN加速器 可配置 异构加速
在线阅读 下载PDF
面向微控制器的卷积神经网络加速器设计
8
作者 乔建华 吴言 +1 位作者 栗亚宁 雷光政 《电子器件》 CAS 2024年第1期48-54,共7页
针对目前嵌入式微控制器的性能难以满足实时图像识别任务的问题,提出一种适用于微控制器的卷积神经网络加速器。该加速器在卷积层设计了无阻塞的行并行乘法-加法树结构,获得了更高的硬件利用率;为了满足行并行的数据吞吐量,设计了卷积专... 针对目前嵌入式微控制器的性能难以满足实时图像识别任务的问题,提出一种适用于微控制器的卷积神经网络加速器。该加速器在卷积层设计了无阻塞的行并行乘法-加法树结构,获得了更高的硬件利用率;为了满足行并行的数据吞吐量,设计了卷积专用SRAM存储器。加速器将池化和激活单元融入数据通路,有效减少数据重复存取带来的时间开销。FPGA原型验证表明加速器的性能达到92.2 GOPS@100 MHz;基于TSMC 130 nm工艺节点进行逻辑综合,加速器的动态功耗为33 mW,面积为90 764.2μm^(2),能效比高达2 793 GOPS/W,比FPGA加速器方案提高了约100倍。该加速器低功耗、低成本的特性,有利于实现嵌入式系统在目标检测、人脸识别等机器视觉领域的广泛应用。 展开更多
关键词 卷积神经网络 并行计算 流水线 硬件加速器 专用集成电路
在线阅读 下载PDF
基于FPGA的卷积神经网络和视觉Transformer通用加速器
9
作者 李天阳 张帆 +2 位作者 王松 曹伟 陈立 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2663-2672,共10页
针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面... 针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面向FPGA的通用计算映射方法;其次,提出一种非线性与归一化加速单元,为计算机视觉神经网络模型中的多种非线性和归一化操作提供加速支持;然后,在Xilinx XCVU37P FPGA上实现了加速器设计。实验结果表明,所提出的非线性与归一化加速单元在提高吞吐量的同时仅造成很小的精度损失,ResNet-50和ViT-B/16在所提FPGA加速器上的性能分别达到了589.94 GOPS和564.76 GOPS。与GPU实现相比,能效比分别提高了5.19倍和7.17倍;与其他基于FPGA的大规模加速器设计相比,能效比有明显提高,同时计算效率较对比FPGA加速器提高了8.02%~177.53%。 展开更多
关键词 计算机视觉 卷积神经网络 TRANSFORMER FPGA 硬件加速器
在线阅读 下载PDF
一种基于FPGA的深度神经网络硬件加速器系统
10
作者 张雨豪 叶有时 +3 位作者 彭宇 张德正 阎之泓 王东 《空间控制技术与应用》 CSCD 北大核心 2024年第2期83-92,共10页
深度神经网络目标检测算法计算复杂度高、模型复杂,对硬件平台的算力有很高需求,针对以上问题,设计了一种基于现场可编程门阵列(field programmable gate array,FPGA)芯片的硬件专用加速器.通过软硬件协同方法,设计具有高并行度及深度... 深度神经网络目标检测算法计算复杂度高、模型复杂,对硬件平台的算力有很高需求,针对以上问题,设计了一种基于现场可编程门阵列(field programmable gate array,FPGA)芯片的硬件专用加速器.通过软硬件协同方法,设计具有高并行度及深度流水的片上架构,并使用模型量化、结构优化等方法对神经网络模型进行优化.在所设计的加速器系统中进行神经网络目标检测算法的部署,实现了高数据吞吐率、低功率消耗的FPGA神经网络计算,且模型精度损失低于1.2%,为在低能耗嵌入式平台上部署深度神经网络目标检测算法提供了有效解决方案,可广泛应用于机载、星载智能计算设备. 展开更多
关键词 FPGA 神经网络 硬件加速器 目标检测
在线阅读 下载PDF
基于FPGA的卷积神经网络加速器现状研究
11
作者 张坤 高博 +3 位作者 冀亚玮 谢宗甫 高飞 李宇东 《太赫兹科学与电子信息学报》 2024年第10期1142-1153,1167,共13页
近年来,得益于计算机运算能力的提升和互联网所产生的大量数据,深度学习(DL)技术取得了快速发展,其中最显著的卷积神经网络(CNN)在图像识别、目标检测、自然语言处理等领域已经成功实现商用。然而随着网络层数越来越深,对计算能力和内... 近年来,得益于计算机运算能力的提升和互联网所产生的大量数据,深度学习(DL)技术取得了快速发展,其中最显著的卷积神经网络(CNN)在图像识别、目标检测、自然语言处理等领域已经成功实现商用。然而随着网络层数越来越深,对计算能力和内存需求急剧上升,如何对卷积神经网络进行加速并在硬件加速器上部署的问题逐渐成为学术界研究的热点。从现场可编程门阵列(FPGA)开发神经网络的优势出发,介绍了FPGA的多种开发方式,详细论述了部署和加速卷积神经网络的各种优化策略,以及采用不同优化策略的FPGA卷积神经网络加速器的性能表现。最后,展望了FPGA卷积神经网络加速器的未来发展方向。 展开更多
关键词 卷积神经网络 FPGA加速器 网络压缩 卷积算法 脉动阵列
在线阅读 下载PDF
基于FPGA的卷积神经网络核素识别硬件加速方法研究 被引量:1
12
作者 王博 石睿 +2 位作者 刘敏俊 曾雄 王洲 《核电子学与探测技术》 CAS 北大核心 2024年第2期334-343,共10页
核素识别是核探测领域研究的关键技术之一,传统基于能谱解谱算法的核素识别仪器,实时性差,功耗较高,限制了实际应用中的识别效率,为了加快对放射性核素定性分析,本文提出了一种基于FPGA的卷积神经网络核素识别硬件加速方法。提出了一种... 核素识别是核探测领域研究的关键技术之一,传统基于能谱解谱算法的核素识别仪器,实时性差,功耗较高,限制了实际应用中的识别效率,为了加快对放射性核素定性分析,本文提出了一种基于FPGA的卷积神经网络核素识别硬件加速方法。提出了一种用于核素分类的轻量型一维卷积神经网络模型,再根据模型卷积层、池化层和全连接层的运算特点,利用并行流水线和加法树等硬件加速策略,将模型部署在Xilinx ZYNQ7020异构芯片中。实验结果表明,在FPGA中,测试集平均识别精度达到98.41%,单次识别耗时1.57 ms,与桌面端CPU相比,该硬件加速方法实现了64倍加速效果,功耗仅为2.115 W。在实际测试实验中,^(137)Cs单源识别精度为98%,^(137)Cs与^(60)Co混合源识别精度达到98.17%。该硬件加速方案满足低延时、低功耗等要求,适合于现场快速核素检测的场景,对便携式核素识别仪器开发具有重要的参考价值。 展开更多
关键词 能谱数据 核素识别 FPGA 卷积神经网络 硬件加速
在线阅读 下载PDF
机载超轻量化卷积神经网络加速器设计
13
作者 石添介 刘飞阳 张晓 《航空工程进展》 CSCD 2024年第2期188-194,共7页
卷积神经网络庞大的权重参数和复杂的网络层结构,使其计算复杂度过高,所需的计算资源和存储资源也随着网络层数的增加而快速增长,难以在资源和功耗有严苛要求的机载嵌入式计算系统中部署,制约了机载嵌入式计算系统朝着高智能化发展。针... 卷积神经网络庞大的权重参数和复杂的网络层结构,使其计算复杂度过高,所需的计算资源和存储资源也随着网络层数的增加而快速增长,难以在资源和功耗有严苛要求的机载嵌入式计算系统中部署,制约了机载嵌入式计算系统朝着高智能化发展。针对资源受限的机载嵌入式计算系统对超轻量化智能计算的需求,提出一套全流程的卷积神经网络模型优化加速方法,在对算法模型进行超轻量化处理后,通过组合加速算子搭建卷积神经网络加速器,并基于FPGA开展网络模型推理过程的功能验证。结果证明:本文搭建的加速器能够显著降低硬件资源占用率,获得良好的算法加速比,对机载嵌入式智能计算系统设计具有重要意义。 展开更多
关键词 嵌入式计算系统 卷积神经网络 轻量化 硬件加速器 FPGA验证
在线阅读 下载PDF
IR-GCN:二值图卷积神经网络推理加速器
14
作者 于启航 文渊博 杜子东 《高技术通讯》 CAS 北大核心 2024年第10期1024-1035,共12页
针对图卷积神经网络(GCN)中数据规模庞大、不适合边缘端低功耗处理器高效推理计算的问题,本文提出一种将新型二值数据量化算法(IR-Net)应用于GCN模型推理计算的方法,并设计了对应的硬件加速器IR-GCN。同时,针对计算过程中工作负载分布... 针对图卷积神经网络(GCN)中数据规模庞大、不适合边缘端低功耗处理器高效推理计算的问题,本文提出一种将新型二值数据量化算法(IR-Net)应用于GCN模型推理计算的方法,并设计了对应的硬件加速器IR-GCN。同时,针对计算过程中工作负载分布不均衡的问题,实现了一种负载均衡模块设计,显著提高了计算效率。实验结果表明,在较小精度损失范围内,IR-GCN加速器可以同时降低计算延迟以及访存开销。与现有性能最优的研究相比,IR-GCN加速器平均具有2.4倍的计算加速比、7.9倍的功耗降低、13.7倍的芯片面积减少以及21.0倍的访存量降低。 展开更多
关键词 卷积神经网络(GCN) 二值神经网络(BNN) 硬件加速器
在线阅读 下载PDF
基于数据局部相似性的卷积神经网络加速器
15
作者 蔡元鹏 孙文浩 陈松 《微电子学与计算机》 2024年第4期104-111,共8页
为提高卷积神经网络的处理速度,使用零梯度近似处理的卷积方法(梯度卷积)来提高数据的复用率,减少计算量。以卷积核为单位对数据进行梯度计算,针对不同网络的不同层次采用灵活的梯度阈值计算策略,以合理复用相邻窗口的卷积结果。将其中... 为提高卷积神经网络的处理速度,使用零梯度近似处理的卷积方法(梯度卷积)来提高数据的复用率,减少计算量。以卷积核为单位对数据进行梯度计算,针对不同网络的不同层次采用灵活的梯度阈值计算策略,以合理复用相邻窗口的卷积结果。将其中关键的梯度处理模块和卷积计算部分在现场可编程门阵列(Field-Programmable Gate Array,FPGA)上进行实现,与脉动阵列相结合以提高资源利用率,并针对负载不均衡的问题设计出适合梯度卷积的数据流。基于YOLOv3模型和Pascal VOC数据集的目标检测实验中,在付出较小精度损失的前提下,软件端减少约23.2%的计算量,结合硬件加速比约为17.8%。 展开更多
关键词 加速器 数据局部相似性 卷积神经网络 梯度卷积 现场可编程门阵列
在线阅读 下载PDF
面向图卷积神经网络的FPGA部署及加速研究 被引量:2
16
作者 高强 邵春霖 +1 位作者 李京润 沈宗凯 《现代电子技术》 北大核心 2024年第10期39-46,共8页
图卷积神经网络(GCN)算法在处理图结构数据任务中取得了突破性的成功,然而训练图卷积神经网络需要大量的内存空间及多次的随机内存访问等,这限制该算法的进一步部署应用。现有图卷积神经网络的部署及加速方案大多基于VitisHLS工具,该工... 图卷积神经网络(GCN)算法在处理图结构数据任务中取得了突破性的成功,然而训练图卷积神经网络需要大量的内存空间及多次的随机内存访问等,这限制该算法的进一步部署应用。现有图卷积神经网络的部署及加速方案大多基于VitisHLS工具,该工具利用C/C++进行开发,几乎没有采用硬件描述语言的方案,存在软硬件加速不彻底问题。针对上述问题,设计一种面向GCN的FPGA部署及加速架构。该架构主要由计算模块和存储模块构成,两者都是利用硬件描述语言实现。计算模块主要是用硬件描述语言来实现图卷积神经网络的关键算法,即将图卷积神经网络的关键算法映射到现场可编程门阵列中以实现硬件加速;缓存模块主要是调用ROM IP核以及定义二维寄存器组,对输入节点特征、归一化后的邻接矩阵、各个层的量化参数以及中间变量进行存储,从而提高GCN算法的并行度。首先在Pycharm平台上进行模型训练并提取参数进行量化,然后在Vivado平台上对图卷积神经网络进行设计和仿真测试,对比CPU、GPU的运算性能。实验结果表明,所设计的图卷积神经网络加速架构提升了模型的推理速度。 展开更多
关键词 卷积神经网络 FPGA加速器 硬件描述语言 计算模块 存储模块 参数量化
在线阅读 下载PDF
基于ZYNQ的可重构卷积神经网络加速器 被引量:10
17
作者 刘杰 葛一凡 +1 位作者 田明 马力强 《电子学报》 EI CAS CSCD 北大核心 2021年第4期729-735,共7页
针对卷积神经网络中卷积运算复杂度高、计算量大及算法在CPU和GPU上计算时存在延时及功耗限制问题,从提高现有硬件平台计算速率、降低功耗角度出发,设计了一种基于ZYNQ的具有高吞吐率和低功耗的可重构神经网络加速系统.为充分利用运算资... 针对卷积神经网络中卷积运算复杂度高、计算量大及算法在CPU和GPU上计算时存在延时及功耗限制问题,从提高现有硬件平台计算速率、降低功耗角度出发,设计了一种基于ZYNQ的具有高吞吐率和低功耗的可重构神经网络加速系统.为充分利用运算资源,探索了一种卷积运算循环优化电路;为降低带宽访问量,设计了一种数据在内存中的特殊排列方式.以VGG16网络为例,利用ZYNQ对系统进行加速,在计算性能上达到62.00GPOS的有效算力,分别是GPU和CPU的2.58倍和6.88倍,其MAC利用率高达98.20%,逼近Roofline模型理论值.加速器的计算功耗为2.0W,能效比为31.00GOPS/W,是GPU的112.77倍和CPU的334.41倍. 展开更多
关键词 FPGA 卷积神经网络 Roofline模型 硬件加速
在线阅读 下载PDF
一种基于FPGA的卷积神经网络加速器实现方案 被引量:2
18
作者 李莉 陈心宇 高文斌 《北京电子科技学院学报》 2022年第4期96-104,共9页
近年来在人工智能领域,卷积神经网络(CNN)因为其优异的算法性能获得广泛应用。由于CNN的模型结构及卷积运算具有高度并行性,FPGA加速CNN成为硬件加速CNN的重要解决方案。本文针对典型的卷积神经网络LeNet-5,提出一种采用卷积-池化-卷积... 近年来在人工智能领域,卷积神经网络(CNN)因为其优异的算法性能获得广泛应用。由于CNN的模型结构及卷积运算具有高度并行性,FPGA加速CNN成为硬件加速CNN的重要解决方案。本文针对典型的卷积神经网络LeNet-5,提出一种采用卷积-池化-卷积-池化-卷积五级层间流水线架构的卷积核间全并行、核内部分并行,输出部分并行加速方案,实现卷积神经网络卷积池化运算的硬件加速。实验结果表明,在129.8Mhz时钟频率及16bit定点精度的情况下,系统对单张图片的处理速度较CPU提高近337倍,能效比为13.68GOP/(s*W)。 展开更多
关键词 卷积神经网络 FPGA 硬件加速 流水线架构
在线阅读 下载PDF
基于FPGA的卷积神经网络加速技术研究
19
作者 薛慧敏 李坤坤 眭畅豪 《信息技术与信息化》 2024年第4期192-195,共4页
实现高性能且低功耗的神经网络功能具有重要的意义。为了让神经网络加速预测并使其高效节能,设计了卷积神经网络加速器。首先采集信息对训练好的CNN神经网络模型使用剪枝和量化对网络模型共同作用进行压缩;然后通过研究数据的存储方式... 实现高性能且低功耗的神经网络功能具有重要的意义。为了让神经网络加速预测并使其高效节能,设计了卷积神经网络加速器。首先采集信息对训练好的CNN神经网络模型使用剪枝和量化对网络模型共同作用进行压缩;然后通过研究数据的存储方式、流动过程、CNN网络的层结构等多个模块分别提出优化方案;最后在Xilinx的UltraSacle+系列的ZCU102板子上设计CNN网络加速器,使得所设计的加速器性能在前人的基础上有所改进。实验结果显示,CNN加速器的FPGA比CPU的计算速度提高了314.55倍,比GPU的能量效率提高了1.39倍,为卷积网络模型加速器以及门控单元GRU网络等其他网络模型的加速提供了有效参考。 展开更多
关键词 卷积神经网络 FPGA 硬件加速 模型压缩
在线阅读 下载PDF
TDC转置卷积硬件加速器的设计与优化
20
作者 王国庆 严利民 《西安电子科技大学学报》 北大核心 2025年第2期156-166,共11页
转置卷积在深度学习(Deep Learning, DL)任务中应用广泛,但是在小型快速超分辨率卷积神经网络(Fast Super-Resolution Convolutional Neural Network-small, FSRCNN-s)中已经成为推理阶段的主要性能瓶颈,因此设计高效的转置卷积硬件加... 转置卷积在深度学习(Deep Learning, DL)任务中应用广泛,但是在小型快速超分辨率卷积神经网络(Fast Super-Resolution Convolutional Neural Network-small, FSRCNN-s)中已经成为推理阶段的主要性能瓶颈,因此设计高效的转置卷积硬件加速器至关重要。基于转换转置卷积为卷积(Transforming Deconvolution to Convolution, TDC)算法,将步长为2的转置卷积软件推理流程转换为4路并行的直接卷积硬件实现,验证了不完美映射情况下算法和硬件加速器的正确性。完成转置卷积加速器设计后,选择FSRCNN-s×2网络进行端到端部署,采用软硬件协同设计和8位整数(Integer 8-bit, INT8)量化调度策略平衡转置卷积推理精度和速度之间的矛盾。实验结果表明,设计的转置卷积硬件加速器精度损失在0.5dB以内,相比CPU基线推理速度缩短到17ms。对比其他转置卷积加速器,设计的整数推理加速器显著降低了数字信号处理器(Digital Signal Processor, DSP)资源占用,将DSP效率提高为0.200每秒十亿次运算(Giga Operations Per Second, GOPS)/DSP,为低位宽整数推理转置卷积加速器设计提供参考。 展开更多
关键词 卷积神经网络 转置卷积 转换转置卷积卷积算法 INT8量化 硬件加速器
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部