期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
高性能YOLOv3-tiny嵌入式硬件加速器的混合优化设计
1
作者 谭会生 肖鑫凯 卿翔 《半导体技术》 CAS 北大核心 2025年第1期55-63,共9页
为解决在嵌入式设备中部署神经网络受算法复杂度、执行速度和硬件资源约束的问题,基于Zynq异构平台,设计了一个高性能的YOLOv3-tiny网络硬件加速器。在算法优化方面,将卷积层和批归一化层融合,使用8 bit量化算法,简化了算法流程;在加速... 为解决在嵌入式设备中部署神经网络受算法复杂度、执行速度和硬件资源约束的问题,基于Zynq异构平台,设计了一个高性能的YOLOv3-tiny网络硬件加速器。在算法优化方面,将卷积层和批归一化层融合,使用8 bit量化算法,简化了算法流程;在加速器架构设计方面,设计了可动态配置的层间流水线和高效的数据传输方案,缩短了推理时间,减小了存储资源消耗;在网络前向推理方面,针对卷积计算,基于循环展开策略,设计了8通道并行流水的卷积模块;针对池化计算,采用分步计算策略实现对连续数据流的高效处理;针对上采样计算,提出了基于数据复制的2倍上采样方法。实验结果表明,前向推理时间为232 ms,功耗仅为2.29 W,系统工作频率为200 MHz,达到了23.97 GOPS的实际算力。 展开更多
关键词 YOLOv3-tiny网络 异构平台 硬件加速器 动态配置架构 硬件混合优化 数据复制上采样
在线阅读 下载PDF
高性能Benes网络路由求解算法及硬件加速器
2
作者 秦梦远 刘宏伟 郝沁汾 《计算机工程与应用》 北大核心 2025年第14期163-175,共13页
光互连网络使用光交叉开关阵列实现光交换。大规模快速光交叉开关阵列多使用紧凑的Benes网络构建,以避免级联过多开关点导致较高物理链路损耗。但对Benes网络的路由求解将引入数百纳秒至数毫秒的开销,产生交换性能瓶颈。为降低此开销并... 光互连网络使用光交叉开关阵列实现光交换。大规模快速光交叉开关阵列多使用紧凑的Benes网络构建,以避免级联过多开关点导致较高物理链路损耗。但对Benes网络的路由求解将引入数百纳秒至数毫秒的开销,产生交换性能瓶颈。为降低此开销并消除性能瓶颈,提出一种利于高性能硬件实现的Benes网络完全重排求解算法,改进了传统Benes网络求解算法的求解次序,提高了并行度。提出基于该算法的硬件加速器,具有优良的频率特性,FPGA版本加速器固定耗时26ns可完成一次16×16Benes网络重构求解。通过流水线优化,将连续求解吞吐量提升至700MOPs。相比现有同类路由求解算法的FPGA实现,其求解速度提升9.85倍,连续求解吞吐量提升2.8倍。若使用ASIC技术而非FPGA构建加速器芯片,预计可将求解耗时降低至与开关阵列重构耗时相仿的水平,彻底消除性能瓶颈。 展开更多
关键词 Benes网络 重排求解算法 并行化 硬件加速器 FPGA
在线阅读 下载PDF
面向点云识别的最近邻搜索硬件加速器
3
作者 陈立 李桢旻 马宇晴 《合肥工业大学学报(自然科学版)》 北大核心 2025年第2期179-184,共6页
动态图卷积神经网络(dynamic graph convolutional neural network,DGCNN)作为点云识别主流算法之一,主要由边缘卷积层构成,而最近邻搜索操作占据边缘卷积层63%的计算时间。文章针对现有的最近邻搜索加速器准确率较低、速度较慢的问题,... 动态图卷积神经网络(dynamic graph convolutional neural network,DGCNN)作为点云识别主流算法之一,主要由边缘卷积层构成,而最近邻搜索操作占据边缘卷积层63%的计算时间。文章针对现有的最近邻搜索加速器准确率较低、速度较慢的问题,设计一种面向点云识别的最近邻搜索硬件加速器。该加速器采用基于点云分割的并行双调流水排序结构进行2轮双调排序,并用曼哈顿距离替代欧氏距离衡量点与点距离的远近。实验结果表明,在同样的实验环境配置下,相较于其他点云最近邻搜索加速器,文章设计的最近邻搜索加速器速度提升了3.6倍。 展开更多
关键词 最近邻搜索 硬件加速器 边缘卷积 双调排序 曼哈顿距离
在线阅读 下载PDF
TDC转置卷积硬件加速器的设计与优化
4
作者 王国庆 严利民 《西安电子科技大学学报》 北大核心 2025年第2期156-166,共11页
转置卷积在深度学习(Deep Learning, DL)任务中应用广泛,但是在小型快速超分辨率卷积神经网络(Fast Super-Resolution Convolutional Neural Network-small, FSRCNN-s)中已经成为推理阶段的主要性能瓶颈,因此设计高效的转置卷积硬件加... 转置卷积在深度学习(Deep Learning, DL)任务中应用广泛,但是在小型快速超分辨率卷积神经网络(Fast Super-Resolution Convolutional Neural Network-small, FSRCNN-s)中已经成为推理阶段的主要性能瓶颈,因此设计高效的转置卷积硬件加速器至关重要。基于转换转置卷积为卷积(Transforming Deconvolution to Convolution, TDC)算法,将步长为2的转置卷积软件推理流程转换为4路并行的直接卷积硬件实现,验证了不完美映射情况下算法和硬件加速器的正确性。完成转置卷积加速器设计后,选择FSRCNN-s×2网络进行端到端部署,采用软硬件协同设计和8位整数(Integer 8-bit, INT8)量化调度策略平衡转置卷积推理精度和速度之间的矛盾。实验结果表明,设计的转置卷积硬件加速器精度损失在0.5dB以内,相比CPU基线推理速度缩短到17ms。对比其他转置卷积加速器,设计的整数推理加速器显著降低了数字信号处理器(Digital Signal Processor, DSP)资源占用,将DSP效率提高为0.200每秒十亿次运算(Giga Operations Per Second, GOPS)/DSP,为低位宽整数推理转置卷积加速器设计提供参考。 展开更多
关键词 卷积神经网络 转置卷积 转换转置卷积为卷积算法 INT8量化 硬件加速器
在线阅读 下载PDF
时空图卷积网络的骨架识别硬件加速器设计
5
作者 谭会生 严舒琪 杨威 《电子测量技术》 北大核心 2024年第11期36-43,共8页
随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可... 随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可编程门阵列(FPGA),设计开发了一个基于时空图卷积神经网络的骨架识别硬件加速器。通过对原网络模型进行结构优化与数据量化,减少了FPGA实现约75%的计算量;利用邻接矩阵稀疏性的特点,提出了一种稀疏性矩阵乘加运算的优化方法,减少了约60%的乘法器资源消耗。经过对人体骨架识别实验验证,结果表明,在时钟频率100 MHz下,相较于CPU,FPGA加速ST-GCN单元,加速比达到30.53;FPGA加速人体骨架识别,加速比达到6.86。 展开更多
关键词 人体骨架识别 时空图卷积神经网络(ST-GCN) 硬件加速器 现场可编程门阵列(FPGA) 稀疏矩阵乘加运算硬件优化
在线阅读 下载PDF
一种基于FPGA的深度神经网络硬件加速器系统 被引量:2
6
作者 张雨豪 叶有时 +3 位作者 彭宇 张德正 阎之泓 王东 《空间控制技术与应用》 CSCD 北大核心 2024年第2期83-92,共10页
深度神经网络目标检测算法计算复杂度高、模型复杂,对硬件平台的算力有很高需求,针对以上问题,设计了一种基于现场可编程门阵列(field programmable gate array,FPGA)芯片的硬件专用加速器.通过软硬件协同方法,设计具有高并行度及深度... 深度神经网络目标检测算法计算复杂度高、模型复杂,对硬件平台的算力有很高需求,针对以上问题,设计了一种基于现场可编程门阵列(field programmable gate array,FPGA)芯片的硬件专用加速器.通过软硬件协同方法,设计具有高并行度及深度流水的片上架构,并使用模型量化、结构优化等方法对神经网络模型进行优化.在所设计的加速器系统中进行神经网络目标检测算法的部署,实现了高数据吞吐率、低功率消耗的FPGA神经网络计算,且模型精度损失低于1.2%,为在低能耗嵌入式平台上部署深度神经网络目标检测算法提供了有效解决方案,可广泛应用于机载、星载智能计算设备. 展开更多
关键词 FPGA 神经网络 硬件加速器 目标检测
在线阅读 下载PDF
面向小型边缘计算的深度可分离神经网络模型与硬件加速器设计
7
作者 孟群康 李强 +5 位作者 赵峰 庄莉 王秋琳 陈锴 罗军 常胜 《计算机应用研究》 CSCD 北大核心 2024年第3期861-865,879,共6页
神经网络参数量和运算量的扩大,使得在资源有限的硬件平台上流水线部署神经网络变得更加困难。基于此,提出了一种解决深度学习模型在小型边缘计算平台上部署困难的方法。该方法基于应用于自定义数据集的深度可分离网络模型,在软件端使... 神经网络参数量和运算量的扩大,使得在资源有限的硬件平台上流水线部署神经网络变得更加困难。基于此,提出了一种解决深度学习模型在小型边缘计算平台上部署困难的方法。该方法基于应用于自定义数据集的深度可分离网络模型,在软件端使用迁移学习、敏感度分析和剪枝量化的步骤进行模型压缩,在硬件端分析并设计了适用于有限资源FPGA的流水线硬件加速器。实验结果表明,经过软件端的网络压缩优化,这种量化部署模型具有94.60%的高准确率,16.64 M的较低的单次推理定点数运算量和0.079 M的参数量。此外,经过硬件资源优化后,在国产FPGA开发板上进行流水线部署,推理帧率达到了366 FPS,计算能效为8.57 GOPS/W。这一研究提供了一种在小型边缘计算平台上高性能部署深度学习模型的解决方案。 展开更多
关键词 边缘计算 深度可分离卷积 流水线部署 硬件加速器 FPGA
在线阅读 下载PDF
支持抑制型脉冲神经网络的硬件加速器
8
作者 钱平 韩睿 +4 位作者 谢凌东 罗旺 徐华荣 李松松 郑振东 《计算机工程与应用》 CSCD 北大核心 2024年第8期338-347,共10页
现有脉冲神经网络加速器的设计过多关注于硬件层面的功能完备性,缺少算法层面的相关协同优化以保证硬件计算效率。此外,传统的事件驱动型脉冲神经网络加速器没有考虑到脉冲神经元模型中普遍存在的脉冲抖动现象,因此不能实现对抑制型脉... 现有脉冲神经网络加速器的设计过多关注于硬件层面的功能完备性,缺少算法层面的相关协同优化以保证硬件计算效率。此外,传统的事件驱动型脉冲神经网络加速器没有考虑到脉冲神经元模型中普遍存在的脉冲抖动现象,因此不能实现对抑制型脉冲神经网络的支持。为解决上述问题,采用软硬件结合的方式,提出了一种支持抑制型脉冲神经网络加速器的设计方法。软件优化层面通过对脉冲神经网络计算冗余性的分析,提出了相应的近似计算方法以大幅降低脉冲神经网络的计算量;硬件设计层面提出了解决脉冲抖动问题的计算模块,并在此基础上设计了与近似计算方法相适应的并行计算结构。为验证设计的合理性,在XilinxZC706 FPGA上部署了加速器原型FEAS。在主流数据集上的测试结果显示,相较以往脉冲神经网络的加速器部署,FEAS在保持97.54%原有模型精度的情况下获得超过一个数量级的性能提升。 展开更多
关键词 脉冲神经网络 事件驱动 抑制型网络 近似计算 硬件加速器
在线阅读 下载PDF
高能效低延迟的BNN硬件加速器设计
9
作者 周培培 杜高明 +1 位作者 李桢旻 王晓蕾 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2024年第12期1655-1661,共7页
针对二值化神经网络(binary neural network,BNN)硬件设计过程中大量0值引发计算量增加以及BNN中同一权值数据与同一特征图数据多次重复运算导致计算周期和计算功耗增加的问题,文章分别提出全0值跳过方法和预计算结果缓存方法,有效减少... 针对二值化神经网络(binary neural network,BNN)硬件设计过程中大量0值引发计算量增加以及BNN中同一权值数据与同一特征图数据多次重复运算导致计算周期和计算功耗增加的问题,文章分别提出全0值跳过方法和预计算结果缓存方法,有效减少网络的计算量、计算周期和计算功耗;并基于现场可编程门阵列(field programmable gate array,FPGA)设计一款BNN硬件加速器,即手写数字识别系统。实验结果表明,使用所提出的全0值跳过方法和预计算结果缓存方法后,在100 MHz的频率下,设计的加速器平均能效可达1.81 TOPs/W,相较于其他BNN加速器,提升了1.27~4.34倍。 展开更多
关键词 二值化神经网络(BNN) 权值共享 重复运算 现场可编程门阵列(FPGA) 硬件加速器
在线阅读 下载PDF
基于FPGA/Nios-Ⅱ的矩阵运算硬件加速器设计 被引量:32
10
作者 许芳 席毅 +1 位作者 陈虹 靳伟伟 《电子测量与仪器学报》 CSCD 2011年第4期377-383,共7页
针对复杂算法中矩阵运算量大,计算复杂,耗时多,制约算法在线计算性能的问题,从硬件实现角度,研究基于FPGA/Nios-Ⅱ的矩阵运算硬件加速器设计,实现矩阵并行计算。首先根据矩阵运算的算法分析,设计了矩阵并行计算的硬件实现结构,并在Model... 针对复杂算法中矩阵运算量大,计算复杂,耗时多,制约算法在线计算性能的问题,从硬件实现角度,研究基于FPGA/Nios-Ⅱ的矩阵运算硬件加速器设计,实现矩阵并行计算。首先根据矩阵运算的算法分析,设计了矩阵并行计算的硬件实现结构,并在Modelsim中进行功能模块的仿真,然后将功能模块集成一个自定制组件,并通过Avalon总线与NiosⅡ主处理器通信,作为硬件加速器。最后在FPGA芯片中构建SoPC系统,并在Altera DE3开发板中进行矩阵实时计算测试。测试结果验证了基于FPGA/Nios-Ⅱ矩阵运算硬件加速器的正确性、可行性以及较高的计算性能。 展开更多
关键词 FPGA/Nios-Ⅱ 矩阵运算 硬件加速器 并行计算 实时测试验
在线阅读 下载PDF
一种用于自适应直方图均衡化的硬件加速器 被引量:4
11
作者 陆申阳 冉峰 +1 位作者 郭爱英 沈华明 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第3期401-412,共12页
针对动态直方图均衡(dynamic histogram equalization,DHE)算法处理效果不理想和算法应用不灵活的问题,提出了一种基于改进型自适应直方图均衡化算法的现场可编程逻辑门阵列(field programmable gate array,FPGA)硬件加速器的设计方法.... 针对动态直方图均衡(dynamic histogram equalization,DHE)算法处理效果不理想和算法应用不灵活的问题,提出了一种基于改进型自适应直方图均衡化算法的现场可编程逻辑门阵列(field programmable gate array,FPGA)硬件加速器的设计方法.该硬件加速器对直方图均衡化算法做了改进,实现了自适应地限制对比度拉伸;并且充分利用FPGA的并行体系架构和丰富的块存储资源的优点,采用规则的模块化的设计方法完成了设计.实验结果表明:改进的算法不会产生过度增强、放大噪声、丢失图像细节的现象;设计的硬件加速器在充分节约硬件资源的前提下能较好地满足实际应用的需求;在实时图像处理中一帧图像的处理时间约为0.1 ms,使图像增强算法在图像实时处理中的应用更加灵活方便. 展开更多
关键词 现场可编程逻辑门阵列 自适应 直方图 硬件加速器
在线阅读 下载PDF
高性能矩阵求逆硬件加速器的设计与实现 被引量:4
12
作者 于敬巨 张多利 宋宇鲲 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2018年第12期1652-1658,共7页
文章在分析Givens分解、上三角矩阵求逆及三角矩阵乘特征的基础上,提出了针对高密度复杂信号处理的原位替换并行矩阵求逆方法,并设计实现了基于此方法的矩阵求逆硬件加速器。该硬件加速器可以实现128阶以内任意2n阶单精度浮点实数矩阵... 文章在分析Givens分解、上三角矩阵求逆及三角矩阵乘特征的基础上,提出了针对高密度复杂信号处理的原位替换并行矩阵求逆方法,并设计实现了基于此方法的矩阵求逆硬件加速器。该硬件加速器可以实现128阶以内任意2n阶单精度浮点实数矩阵的求逆运算,与2GHz的羿龙通用处理器上软件实现相比可以获得200多倍的加速比。 展开更多
关键词 硬件加速器 矩阵求逆 Givens分解 并行计算
在线阅读 下载PDF
基于近端策略优化的阻变存储硬件加速器自动量化 被引量:2
13
作者 魏正 张兴军 +2 位作者 卓志敏 纪泽宇 李泳昊 《计算机研究与发展》 EI CSCD 北大核心 2022年第3期518-532,共15页
卷积神经网络在诸多领域已经取得超出人类的成绩.但是,随着模型存储开销和计算复杂性的不断增加,限制处理单元和内存单元之间数据交换的"内存墙"问题阻碍了其在诸如边缘计算和物联网等资源受限环境中的部署.基于阻变存储的硬... 卷积神经网络在诸多领域已经取得超出人类的成绩.但是,随着模型存储开销和计算复杂性的不断增加,限制处理单元和内存单元之间数据交换的"内存墙"问题阻碍了其在诸如边缘计算和物联网等资源受限环境中的部署.基于阻变存储的硬件加速器由于具有高集成度和低功耗等优势,被广泛应用于加速矩阵-向量乘运算,但是其不适合进行32 b浮点数计算,因此需要量化来降低数据精度.手工为每一层确定量化位宽非常耗时,近期的研究针对现场可编程门阵列(field programmable gate array,FPGA)平台使用基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的强化学习来进行自动量化,但需要将连续动作转换为离散动作,并通过逐层递减量化位宽来满足资源约束条件.基于此,提出基于近端策略优化(proximal policy optimization,PPO)算法的阻变存储硬件加速器自动量化,使用离散动作空间来避免动作空间转换步骤,设计新的奖励函数使PPO自动学习满足资源约束的最优量化策略,并给出软硬件设计改动以支持混合精度计算.实验结果表明:与粗粒度的量化相比,提出的方法可以减少20%~30%的硬件开销,而不引起模型准确度的过多损失.与其他自动量化相比,提出的方法搜索时间短,并且在相同的资源约束条件下可以进一步减少约4.2%的硬件开销.这为量化算法和硬件加速器的协同设计提供了参考. 展开更多
关键词 自动量化 强化学习 基于阻变存储的硬件加速器 神经网络 内存计算
在线阅读 下载PDF
一种SHA2硬件加速器的设计方法
14
作者 马占刚 李婷婷 曹喜信 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第6期1007-1014,共8页
针对SHA2硬件吞吐率难以提升的问题,提出一种提升SHA2硬件加速器性能的新方案。1)使用4 Kb的乒乓缓存存储填充好的消息块,使消息填充单元和哈希迭代运算单位两部分硬件电路得以两级流水并行处理。2)在哈希迭代运算中,提取对两轮哈希迭... 针对SHA2硬件吞吐率难以提升的问题,提出一种提升SHA2硬件加速器性能的新方案。1)使用4 Kb的乒乓缓存存储填充好的消息块,使消息填充单元和哈希迭代运算单位两部分硬件电路得以两级流水并行处理。2)在哈希迭代运算中,提取对两轮哈希迭代运算没有依赖性的计算作为预处理,使之与迭代运算的后处理部分形成真正的流水线处理,可以避免以往研究中的伪流水线问题。3)预处理和后处理部分均采用无进位链的3:2压缩器/4:2压缩器和快速加法器等电路,使关键路径明显变短,关键路径延迟明显变小。该方案还支持SHA2双哈希计算:直接对源操作数的摘要进行第二次哈希计算,得到双哈希计算的最后结果,减少外部存储器的访问次数和数据处理,从而提升SHA2双哈希计算的处理速度。 展开更多
关键词 SHA2 硬件加速器 流水线结构 3:2/4:2压缩器 双哈希计算
在线阅读 下载PDF
一种采用硬件加速器的卫星导航接收机通用验证平台
15
作者 陈雷 黄仰博 +1 位作者 葛锐 欧钢 《导航定位学报》 2014年第3期58-63,共6页
随着卫星导航接收机性能的倍增,接收机内数字集成电路规模日益庞大,仿真验证能力已经成为制约规模庞大、功能复杂的数字接收机集成电路设计制造的瓶颈。仿真验证作为芯片前端设计验证的重要环节正不断进步,传统的卫星导航接收机使用的NC... 随着卫星导航接收机性能的倍增,接收机内数字集成电路规模日益庞大,仿真验证能力已经成为制约规模庞大、功能复杂的数字接收机集成电路设计制造的瓶颈。仿真验证作为芯片前端设计验证的重要环节正不断进步,传统的卫星导航接收机使用的NC-Sim、ModeSim等软件仿真的速度劣势尽现,难以胜任大数据量仿真验证;现场可编程门阵列加载Chip-Scope在线仿真验证虽然速度很快,但是可见波形少,存储数据长度有限,无法设置触发条件,每次修改后需要花费大量的时间重新综合、布局布线,无法适应现代数字卫星导航接收机集成电路开发的需求。为适应北斗导航接收机数字基带芯片的开发需求,设计了一种采用Palladium硬件仿真加速器的卫星导航接收机通用验证平台,实时接收基带数据,完全模拟卫星导航接收机工作的实际状态。对大规模集成电路设计而言,与传统方法相比,具有综合时间最短、仿真时间最少、所有信号波形可见、数据存储长度大、触发条件可灵活配置的卓越性能。 展开更多
关键词 Palladium硬件仿真加速器 数字卫星导航接收机 通用验证平台
在线阅读 下载PDF
基于FPGA的语义信息处理加速器设计
16
作者 李俊锋 谭北海 +2 位作者 郑宇凡 陈汉杰 余荣 《电子测量技术》 北大核心 2025年第6期188-195,共8页
在语义通信中,图像语义信息处理高度依赖于计算复杂度高的卷积神经网络,尤其在处理高分辨率图像时,对计算性能要求更高,这对语义通信在边缘场景中的应用提出了巨大挑战。为此,本文提出了一种基于FPGA的语义信息处理加速器,创新性地将卷... 在语义通信中,图像语义信息处理高度依赖于计算复杂度高的卷积神经网络,尤其在处理高分辨率图像时,对计算性能要求更高,这对语义通信在边缘场景中的应用提出了巨大挑战。为此,本文提出了一种基于FPGA的语义信息处理加速器,创新性地将卷积神经网络编码器和rANS编码融合在同一硬件加速器中。具体而言,加速器采用融合乘累加器的脉动阵列架构、循环分块策略和双缓存结构,以充分利用FPGA的并行计算能力与片上存储资源,提升数据传输效率与计算性能。每个处理单元集成多个乘累加单元,可在每个时钟周期完成两个INT8乘法并局部累加。最终,对输出特征采用rANS进行8路并行编码,进一步压缩特征数据。实验结果表明,在ZCU104平台上,本设计在处理1080P图像时达到300.5 GOPS的吞吐量,能效比为66.77 GOPS/W,处理速度比Intel CPU提升约6倍,比ARM CPU提升约58倍。与其他FPGA加速器相比,BRAM效率分别提升约730%、40%和63%,能效比分别提升约802%、60%和3%,DSP效率分别提升约476%、70%和133%。所提出的加速器在性能上具有显著优势,可高效处理图像语义信息,具有广泛的实际应用意义。 展开更多
关键词 卷积神经网络 语义通信 图像压缩 FPGA 硬件加速器
在线阅读 下载PDF
基于位串行卷积神经网络加速器的运动想象脑电信号识别系统
17
作者 程筱舒 王忆文 +2 位作者 娄鸿飞 丁玮然 李平 《电子科技大学学报》 北大核心 2025年第3期321-332,共12页
准确识别运动想象脑电信号是神经科学和生物医学工程领域的重要挑战。设计了基于位串行卷积神经网络加速器的脑电信号识别系统,充分利用其小体积、低能耗和高实时性的优势。从软件层面,介绍了脑电数据的预处理、特征提取及分类过程,并... 准确识别运动想象脑电信号是神经科学和生物医学工程领域的重要挑战。设计了基于位串行卷积神经网络加速器的脑电信号识别系统,充分利用其小体积、低能耗和高实时性的优势。从软件层面,介绍了脑电数据的预处理、特征提取及分类过程,并采用格拉姆角场转换将一维信号映射为二维特征图供网络处理。在硬件层面,提出了列暂存数据流和固定乘数原位串行乘法器等方法,在FPGA上实现了位串行卷积神经网络加速器的原型验证。实验表明,基于位串行LeNet-5加速器的FPGA实现对BCI竞赛Ⅳ数据集2a和2b的分类平均准确率分别达到95.68%和97.32%,kappa值分别为0.942和0.946,展现出的优异性为运动想象脑电信号识别的高效实现提供了思路。 展开更多
关键词 脑机接口 运动想象 卷积神经网络 硬件加速器 格拉姆角场
在线阅读 下载PDF
基于FPGA的SAR图像目标检测加速器设计
18
作者 汤亮 王小华 陈立福 《现代雷达》 北大核心 2025年第6期30-38,共9页
主流的基于中央处理器(CPU)和图形处理器(GPU)的合成孔径雷达(SAR)图像目标检测算法,存在模型大、计算复杂度高、并行度低和功耗高等缺点,不适合部署在卫星和无人机等资源有限的平台上。文中在综合考虑板卡资源、功耗、推理速度和精度... 主流的基于中央处理器(CPU)和图形处理器(GPU)的合成孔径雷达(SAR)图像目标检测算法,存在模型大、计算复杂度高、并行度低和功耗高等缺点,不适合部署在卫星和无人机等资源有限的平台上。文中在综合考虑板卡资源、功耗、推理速度和精度的条件下,设计了一种基于现场可编程门阵列(FPGA)的SAR图像目标检测加速器。该加速器采用的网络模型为优化后的YOLOv4-tiny,模型通过16位定点数优化数据位宽并加入空洞卷积来替换标准卷积,从而缩减了网络模型及参数,以便于部署在资源受限的FPGA上;在FPGA卷积层的实现中,采用了多重循环展开并行和循环分块并行的方法来加速卷积运算。实验结果表明,优化的算法在FPGA上获得了15.24 GOPS的吞吐量,每张图像识别速度为256 ms,介于CPU与GPU之间,但是由于FPGA硬件功耗仅为3.06 W,所以所提算法的能效比分别达到了CPU和GPU的18.4倍和7.3倍。 展开更多
关键词 现场可编程门阵列 合成孔径雷达 硬件加速器 YOLOv4-tiny网络 目标检测
在线阅读 下载PDF
FPGA平台上动态硬件重构的Winograd神经网络加速器 被引量:1
19
作者 梅冰笑 滕文彬 +3 位作者 张弛 王文浩 李富强 苑福利 《计算机工程与应用》 CSCD 北大核心 2024年第22期323-334,共12页
为解决卷积神经网络在FPGA平台上进行硬件加速时存在的资源利用率低和资源受限问题,提出了一种基于FPGA动态部分重构技术和Winograd快速卷积的卷积神经网络加速器。该加速器通过运行时硬件重构对FPGA片上资源进行时分复用,采用流水线方... 为解决卷积神经网络在FPGA平台上进行硬件加速时存在的资源利用率低和资源受限问题,提出了一种基于FPGA动态部分重构技术和Winograd快速卷积的卷积神经网络加速器。该加速器通过运行时硬件重构对FPGA片上资源进行时分复用,采用流水线方式动态地将各个计算流水段配置到FPGA,各个流水段所对应的卷积计算核心使用Winograd算法进行定制优化,以在解决资源受限问题的同时最大程度地提升计算资源利用效率。针对该加速器架构,进一步构建了组合优化模型,用于搜索在特定FPGA硬件平台上部署特定网络模型的最优并行策略,并使用遗传算法进行设计空间求解。基于Xilinx VC709 FPGA平台对VGG-16网络模型进行部署和分析,综合仿真结果表明,所提出的设计方法能够在资源有限的FPGA上自适应地实现大型神经网络模型,加速器整体性能可以达到1078.3 GOPS,较以往加速器的性能和计算资源利用效率可以分别提升2.2倍和3.62倍。 展开更多
关键词 卷积神经网络 动态部分硬件重构 现场可编程门阵列(FPGA) 硬件加速器 Winograd快速卷积
在线阅读 下载PDF
规则压缩模型和灵活架构的Transformer加速器设计
20
作者 姜小波 邓晗珂 +1 位作者 莫志杰 黎红源 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第3期1079-1088,共10页
基于注意力机制的Transformer模型具有优越的性能,设计专用的Transformer加速器能大幅提高推理性能以及降低推理功耗。Transformer模型复杂性包括数量上和结构上的复杂性,其中结构上的复杂性导致不规则模型和规则硬件之间的失配,降低了... 基于注意力机制的Transformer模型具有优越的性能,设计专用的Transformer加速器能大幅提高推理性能以及降低推理功耗。Transformer模型复杂性包括数量上和结构上的复杂性,其中结构上的复杂性导致不规则模型和规则硬件之间的失配,降低了模型映射到硬件的效率。目前的加速器研究主要聚焦在解决模型数量上的复杂性,但对如何解决模型结构上的复杂性研究得不多。该文首先提出规则压缩模型,降低模型的结构复杂度,提高模型和硬件的匹配度,提高模型映射到硬件的效率。接着提出一种硬件友好的模型压缩方法,采用规则的偏移对角权重剪枝方案和简化硬件量化推理逻辑。此外,提出一个高效灵活的硬件架构,包括一种以块为单元的权重固定脉动运算阵列,同时包括一种准分布的存储架构。该架构可以高效实现算法到运算阵列的映射,同时实现高效的数据存储效率和降低数据移动。实验结果表明,该文工作在性能损失极小的情况下实现93.75%的压缩率,在FPGA上实现的加速器可以高效处理压缩后的Transformer模型,相比于中央处理器(CPU)和图形处理器(GPU)能效分别提高了12.45倍和4.17倍。 展开更多
关键词 自然语音处理 TRANSFORMER 模型压缩 硬件加速器 机器翻译
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部