期刊文献+
共找到283篇文章
< 1 2 15 >
每页显示 20 50 100
基于FPGA的MobileNetV1目标检测加速器设计 被引量:2
1
作者 严飞 郑绪文 +2 位作者 孟川 李楚 刘银萍 《现代电子技术》 北大核心 2025年第1期151-156,共6页
卷积神经网络是目标检测中的常用算法,但由于卷积神经网络参数量和计算量巨大导致检测速度慢、功耗高,且难以部署到硬件平台,故文中提出一种采用CPU与FPGA融合结构实现MobileNetV1目标检测加速的应用方法。首先,通过设置宽度超参数和分... 卷积神经网络是目标检测中的常用算法,但由于卷积神经网络参数量和计算量巨大导致检测速度慢、功耗高,且难以部署到硬件平台,故文中提出一种采用CPU与FPGA融合结构实现MobileNetV1目标检测加速的应用方法。首先,通过设置宽度超参数和分辨率超参数以及网络参数定点化来减少网络模型的参数量和计算量;其次,对卷积层和批量归一化层进行融合,减少网络复杂性,提升网络计算速度;然后,设计一种八通道核间并行卷积计算引擎,每个通道利用行缓存乘法和加法树结构实现卷积运算;最后,利用FPGA并行计算和流水线结构,通过对此八通道卷积计算引擎合理的复用完成三种不同类型的卷积计算,减少硬件资源使用量、降低功耗。实验结果表明,该设计可以对MobileNetV1目标检测进行硬件加速,帧率可达56.7 f/s,功耗仅为0.603 W。 展开更多
关键词 卷积神经网络 目标检测 FPGA MobileNetV1 并行计算 硬件加速
在线阅读 下载PDF
基于FPGA的SM4异构加速系统
2
作者 张全新 李可 +1 位作者 邵雨洁 谭毓安 《信息网络安全》 北大核心 2025年第7期1021-1031,共11页
国密SM4算法是WAPI无线网络标准中广泛使用的加密算法。目前,针对SM4加解密的研究主要集中于硬件实现结构优化,以提高吞吐量和安全性。同时,大数据和5G通信技术的发展对数据加解密的带宽和实时性提出了更高的要求。基于此背景,文章提出... 国密SM4算法是WAPI无线网络标准中广泛使用的加密算法。目前,针对SM4加解密的研究主要集中于硬件实现结构优化,以提高吞吐量和安全性。同时,大数据和5G通信技术的发展对数据加解密的带宽和实时性提出了更高的要求。基于此背景,文章提出一种基于FPGA的SM4异构加速系统,使用硬件实现SM4算法,并优化加解密性能;采用流式高速数据传输架构,支持多个SM4核并行工作,充分利用系统带宽;设计可配置接口,连接SM4与传输架构,提供足够的灵活性。系统于Xilinx XCVU9P FPGA上实现,支持随时更改SM4的负载和模式。测试得到SM4的最大工作频率为462 MHz,系统吞吐量高达92 Gbit/s,延迟仅为266μs。实验结果表明,与其他现有工作相比,该系统能获得更高的SM4工作频率和系统吞吐量,满足高带宽和低延迟的SM4加速需求。 展开更多
关键词 国密SM4算法 FPGA 硬件加速 传输架构
在线阅读 下载PDF
复杂三维体高效布尔运算技术的研究与实现
3
作者 张永亮 王家润 吴乾坤 《计算机应用与软件》 北大核心 2025年第1期249-257,327,共10页
高效、稳健的复杂三维体布尔运算是地理信息中的重点与难点。针对难点提出软硬件协同加速计算框架。在软件层面采用多种算法加速优化技术,包括:降维碰撞检测、三维多边形保留与丢弃的原则、新生成三维多边形的构建方法、三维线段与三维... 高效、稳健的复杂三维体布尔运算是地理信息中的重点与难点。针对难点提出软硬件协同加速计算框架。在软件层面采用多种算法加速优化技术,包括:降维碰撞检测、三维多边形保留与丢弃的原则、新生成三维多边形的构建方法、三维线段与三维多边形的高效求交、三维点或三维多边形与三维体包含关系的高效判断;基于以上加速优化技术提出一套高效的计算框架;在硬件层面基于GPU的众核算力加速计算,提出软硬件协同加速计算框架。实验证明,该计算框架高效性且稳健性,与现有的方法相比,软件层面计算框架效率提高3倍左右,软硬件协同加速框架将效率进一步提高3倍左右。 展开更多
关键词 加速优化技术 降维碰撞检测 高效 众核算力 软硬件协同加速
在线阅读 下载PDF
高性能YOLOv3-tiny嵌入式硬件加速器的混合优化设计
4
作者 谭会生 肖鑫凯 卿翔 《半导体技术》 CAS 北大核心 2025年第1期55-63,共9页
为解决在嵌入式设备中部署神经网络受算法复杂度、执行速度和硬件资源约束的问题,基于Zynq异构平台,设计了一个高性能的YOLOv3-tiny网络硬件加速器。在算法优化方面,将卷积层和批归一化层融合,使用8 bit量化算法,简化了算法流程;在加速... 为解决在嵌入式设备中部署神经网络受算法复杂度、执行速度和硬件资源约束的问题,基于Zynq异构平台,设计了一个高性能的YOLOv3-tiny网络硬件加速器。在算法优化方面,将卷积层和批归一化层融合,使用8 bit量化算法,简化了算法流程;在加速器架构设计方面,设计了可动态配置的层间流水线和高效的数据传输方案,缩短了推理时间,减小了存储资源消耗;在网络前向推理方面,针对卷积计算,基于循环展开策略,设计了8通道并行流水的卷积模块;针对池化计算,采用分步计算策略实现对连续数据流的高效处理;针对上采样计算,提出了基于数据复制的2倍上采样方法。实验结果表明,前向推理时间为232 ms,功耗仅为2.29 W,系统工作频率为200 MHz,达到了23.97 GOPS的实际算力。 展开更多
关键词 YOLOv3-tiny网络 异构平台 硬件加速器 动态配置架构 硬件混合优化 数据复制上采样
在线阅读 下载PDF
改进Camshift算法实时目标跟踪实现
5
作者 严飞 徐龙 +2 位作者 陈佳宇 姜栋 刘佳 《计算机工程与设计》 北大核心 2025年第1期314-320,F0003,共8页
为解决Camshift目标跟踪算法在跟踪目标遮挡时陷入局部最大值、跟踪目标快速移动导致跟踪丢失以及光照变化影响跟踪精度一系列问题,提出一种改进Camshift目标跟踪算法。利用自适应权重与H通道特征提取模板,融合Kalman滤波算法并引入巴... 为解决Camshift目标跟踪算法在跟踪目标遮挡时陷入局部最大值、跟踪目标快速移动导致跟踪丢失以及光照变化影响跟踪精度一系列问题,提出一种改进Camshift目标跟踪算法。利用自适应权重与H通道特征提取模板,融合Kalman滤波算法并引入巴氏距离遮挡判别法。非遮挡时,使用Kalman预测调整跟踪搜索区域;遮挡时,使用Kalman预测跟踪。实验结果表明,将改进后算法部署于FPGA硬件平台能够准确地跟踪快速运动、遮挡干扰目标,在1920×1080分辨率下理论跟踪帧率为98.17帧/s,对1080p@60 Hz以及多种分辨率视频输入下平均跟踪重叠率达到84.68%。 展开更多
关键词 目标跟踪 实时 图像处理 硬件加速 卡尔曼滤波 直方图 现场可编程逻辑门阵列
在线阅读 下载PDF
核脉冲峰值序列轻量化神经网络核素识别模型及其FPGA加速方法
6
作者 李超 石睿 +3 位作者 曾树鑫 徐鑫华 魏雨鸿 庹先国 《强激光与粒子束》 北大核心 2025年第5期139-149,共11页
放射性核素已在核医疗、核安保及无损检测等领域中广泛应用,而对其准确识别是放射性核素定性检测的基础。在便携式核素识别仪中,基于传统能谱分析方法存在延迟高、识别率低等不足。提出一种基于核脉冲峰值序列的核素识别轻量化神经网络... 放射性核素已在核医疗、核安保及无损检测等领域中广泛应用,而对其准确识别是放射性核素定性检测的基础。在便携式核素识别仪中,基于传统能谱分析方法存在延迟高、识别率低等不足。提出一种基于核脉冲峰值序列的核素识别轻量化神经网络模型及其FPGA硬件加速方法,通过引入深度可分离卷积和倒残差模块,并使用全局平均池化替代传统全连接层,构建了一种轻量化、高效的神经网络模型。针对网络训练数据集,通过蒙特卡罗工具包Geant4构建NaI(Tl)探测器模型,获取模拟能谱,再由核脉冲信号模拟仿真器根据能谱产生核脉冲信号序列,构建了16种核脉冲信号数据。最后,将训练好的模型通过量化、融合与并行计算等优化方法部署到PYNQ-Z2异构芯片,实现加速。实验结果表明,模型识别精度可达98.3%,相较传统卷积神经网络模型提高了13.2%,参数量仅为2 128。FPGA优化加速后单次识别耗时0.273 ms,功耗为1.94 W。 展开更多
关键词 核素识别 核信号 神经网络 FPGA 硬件加速
在线阅读 下载PDF
人工智能赋能的数字逻辑实验平台构建与实现
7
作者 王今雨 高海峰 +4 位作者 安健 王龙翔 刘松 唐新龙 周轩 《实验技术与管理》 北大核心 2025年第7期232-239,共8页
为解决数字逻辑实验课程案例缺少人工智能与硬件结合新兴技术、实验内容缺乏前瞻性与综合性问题,该文设计实现了基于FPGA脉动阵列的YOLO神经网络推理平台,基于该平台软硬件实现过程,构建了一系列实验案例,并通过测试验证了平台的实用性... 为解决数字逻辑实验课程案例缺少人工智能与硬件结合新兴技术、实验内容缺乏前瞻性与综合性问题,该文设计实现了基于FPGA脉动阵列的YOLO神经网络推理平台,基于该平台软硬件实现过程,构建了一系列实验案例,并通过测试验证了平台的实用性。该平台可以覆盖计算机类本科生多门硬件课程专题实验、开放创新实验以及毕业设计,有助于培养学生将人工智能与硬件设计相结合的创新思想,以及灵活运用课程知识动手解决实际工程问题的能力。 展开更多
关键词 自研实验平台 YOLO 数字逻辑 FPGA 硬件加速
在线阅读 下载PDF
面向向量部件的指数和对数函数优化方法
8
作者 沈洁 龙标 +2 位作者 黄春 唐滔 彭林 《计算机工程与科学》 北大核心 2025年第1期18-26,共9页
指数和对数函数是浮点计算中重要的超越函数,在不同应用领域使用广泛。现代处理器向量寄存器宽度呈现逐代增加的趋势,为了进一步提高上层应用对向量部件的利用率,研究向量指数和对数函数优化方法具有重要的科学价值和现实意义。针对现... 指数和对数函数是浮点计算中重要的超越函数,在不同应用领域使用广泛。现代处理器向量寄存器宽度呈现逐代增加的趋势,为了进一步提高上层应用对向量部件的利用率,研究向量指数和对数函数优化方法具有重要的科学价值和现实意义。针对现有向量函数实现的性能瓶颈,设计和实现了面向向量部件的指数和对数函数优化方法,包括基于硬件加速指令的向量查表优化、分支优化和精度性能取舍优化。模拟器上的实验表明,优化实现的向量指数和对数函数均达到业界高精度标准,函数性能优于当前最佳开源实现,加速比达1.44以上。真实应用测试进一步表明,应用程序在优化的向量函数支持下可以实现高效向量化,相比原始标量实现平均性能提升达2.53倍。 展开更多
关键词 指数函数 对数函数 向量化 查表优化 硬件加速指令
在线阅读 下载PDF
高性能Benes网络路由求解算法及硬件加速器
9
作者 秦梦远 刘宏伟 郝沁汾 《计算机工程与应用》 北大核心 2025年第14期163-175,共13页
光互连网络使用光交叉开关阵列实现光交换。大规模快速光交叉开关阵列多使用紧凑的Benes网络构建,以避免级联过多开关点导致较高物理链路损耗。但对Benes网络的路由求解将引入数百纳秒至数毫秒的开销,产生交换性能瓶颈。为降低此开销并... 光互连网络使用光交叉开关阵列实现光交换。大规模快速光交叉开关阵列多使用紧凑的Benes网络构建,以避免级联过多开关点导致较高物理链路损耗。但对Benes网络的路由求解将引入数百纳秒至数毫秒的开销,产生交换性能瓶颈。为降低此开销并消除性能瓶颈,提出一种利于高性能硬件实现的Benes网络完全重排求解算法,改进了传统Benes网络求解算法的求解次序,提高了并行度。提出基于该算法的硬件加速器,具有优良的频率特性,FPGA版本加速器固定耗时26ns可完成一次16×16Benes网络重构求解。通过流水线优化,将连续求解吞吐量提升至700MOPs。相比现有同类路由求解算法的FPGA实现,其求解速度提升9.85倍,连续求解吞吐量提升2.8倍。若使用ASIC技术而非FPGA构建加速器芯片,预计可将求解耗时降低至与开关阵列重构耗时相仿的水平,彻底消除性能瓶颈。 展开更多
关键词 Benes网络 重排求解算法 并行化 硬件加速器 FPGA
在线阅读 下载PDF
基于CNN的异构FPGA硬件加速器设计
10
作者 籍浩林 徐伟 +2 位作者 朴永杰 吴晓斌 高倓 《液晶与显示》 北大核心 2025年第3期448-456,共9页
受硬件平台算力以及存储资源的限制,利用嵌入式系统实现节能且高效的卷积神经网络(CNN)仍然是硬件设计人员面临的主要挑战。基于此,本文提出一种使用现场可编程门阵列片上系统(SoC)实现的异构嵌入式系统的完整设计。该设计采用了一种可... 受硬件平台算力以及存储资源的限制,利用嵌入式系统实现节能且高效的卷积神经网络(CNN)仍然是硬件设计人员面临的主要挑战。基于此,本文提出一种使用现场可编程门阵列片上系统(SoC)实现的异构嵌入式系统的完整设计。该设计采用了一种可级联的输入复用结构,同时在单个DSP中执行两个独立的乘法累加操作,在减少外部存储器的访问、提升系统效率的同时降低了功耗,相较于其他方案,其功率效率提升38.7%以上。该设计(框架)最终被成功部署于低成本设备上的大规模CNN网络,极大提升了网络模型的功率效率,基于ZYNQ XC7Z045设备上实现的功率效率甚至可达102 Gops/W。此外,当利用该框架进行VGG-16模型推断卷积层时,帧率可达10.9 fps,充分表明该设计在功率受限的环境中可以有效加速卷积神经网络的推理。 展开更多
关键词 硬件加速 卷积神经网络 FPGA 异构SoC
在线阅读 下载PDF
端智能推理加速技术综述
11
作者 章晋睿 龙婷婷 +3 位作者 张德宇 许愿 任炬 张尧学 《电子学报》 北大核心 2025年第4期1063-1102,共40页
智能下沉是迈向泛在智能时代的必经之路,也推动了端智能(on-device intelligence)技术的飞速发展.通过在终端设备直接部署运行深度学习模型,端智能在实时性、安全性、个性化等方面具有天然优势,已在自动驾驶、卫星侦察、虚拟现实/增强现... 智能下沉是迈向泛在智能时代的必经之路,也推动了端智能(on-device intelligence)技术的飞速发展.通过在终端设备直接部署运行深度学习模型,端智能在实时性、安全性、个性化等方面具有天然优势,已在自动驾驶、卫星侦察、虚拟现实/增强现实(Virtual Reality/Augmented Reality,VR/AR)等众多场景广泛应用.然而,随着深度学习模型参数量不断增大,端侧受限的硬件资源已难以支撑不断增长的计算开销.为提升终端设备在模型推理的计算效率,研究人员从模型算法、编译软件、设备硬件等多个层面开展了系统性优化,有效推动了端智能的发展与演进.本文从算法、软硬件结合优化等方面对现有端侧深度学习模型推理优化工作进行了总结,涵盖模型压缩技术、模型-软件-硬件的协同设计、模型异构并行部署策略以及大模型的端侧优化技术.最后,本文梳理了当前端智能推理加速技术所面临的挑战,并对未来发展趋势进行了展望. 展开更多
关键词 端智能 模型压缩 推理加速 深度学习 软硬件结合优化
在线阅读 下载PDF
基于FPGA的语义信息处理加速器设计
12
作者 李俊锋 谭北海 +2 位作者 郑宇凡 陈汉杰 余荣 《电子测量技术》 北大核心 2025年第6期188-195,共8页
在语义通信中,图像语义信息处理高度依赖于计算复杂度高的卷积神经网络,尤其在处理高分辨率图像时,对计算性能要求更高,这对语义通信在边缘场景中的应用提出了巨大挑战。为此,本文提出了一种基于FPGA的语义信息处理加速器,创新性地将卷... 在语义通信中,图像语义信息处理高度依赖于计算复杂度高的卷积神经网络,尤其在处理高分辨率图像时,对计算性能要求更高,这对语义通信在边缘场景中的应用提出了巨大挑战。为此,本文提出了一种基于FPGA的语义信息处理加速器,创新性地将卷积神经网络编码器和rANS编码融合在同一硬件加速器中。具体而言,加速器采用融合乘累加器的脉动阵列架构、循环分块策略和双缓存结构,以充分利用FPGA的并行计算能力与片上存储资源,提升数据传输效率与计算性能。每个处理单元集成多个乘累加单元,可在每个时钟周期完成两个INT8乘法并局部累加。最终,对输出特征采用rANS进行8路并行编码,进一步压缩特征数据。实验结果表明,在ZCU104平台上,本设计在处理1080P图像时达到300.5 GOPS的吞吐量,能效比为66.77 GOPS/W,处理速度比Intel CPU提升约6倍,比ARM CPU提升约58倍。与其他FPGA加速器相比,BRAM效率分别提升约730%、40%和63%,能效比分别提升约802%、60%和3%,DSP效率分别提升约476%、70%和133%。所提出的加速器在性能上具有显著优势,可高效处理图像语义信息,具有广泛的实际应用意义。 展开更多
关键词 卷积神经网络 语义通信 图像压缩 FPGA 硬件加速器
在线阅读 下载PDF
基于容错学习问题的全同态加密算法和硬件优化综述
13
作者 河人华 李冰 +3 位作者 杜一博 王颖 李晓维 韩银和 《计算机研究与发展》 北大核心 2025年第7期1738-1753,共16页
随着云计算、量子计算等技术的飞速发展,数据隐私面临严峻威胁.越来越多的用户将数据和应用程序存储在云端,但传统的安全技术难以保障云计算环境中的数据安全.在此背景下,引入全同态加密算法成为有效的解决方案之一.同时,基于格理论的... 随着云计算、量子计算等技术的飞速发展,数据隐私面临严峻威胁.越来越多的用户将数据和应用程序存储在云端,但传统的安全技术难以保障云计算环境中的数据安全.在此背景下,引入全同态加密算法成为有效的解决方案之一.同时,基于格理论的全同态加密技术具有天然的抗量子攻击能力,能够在加密状态下对数据进行任意计算,有效地为量子计算时代数据安全提供保障.尽管全同态加密有广阔的应用前景,但它存在计算和存储巨额开销的问题.为了推动全同态加密算法的应用和落地,算法和硬件领域的研究人员提出了多种解决方案并取得显著进展.归纳了主流的全同态加密技术以及分析整理算法计算库和全同态硬件加速的近5年相关工作的进展,最后展望了全同态加密技术. 展开更多
关键词 全同态加密 同态加密算法 全同态加密算法库 全同态加密硬件加速器 容错学习
在线阅读 下载PDF
CAInNet:面向AI加速的通算一体网内计算模型
14
作者 刘忠沛 杨翔瑞 +4 位作者 杨凌 高源航 吕高锋 王宝生 苏金树 《计算机学报》 北大核心 2025年第1期19-34,共16页
AI时代的到来对当今算力提出了双重挑战,一方面涉及推理,另一方面涉及分布式训练。将一部分分布式应用的计算任务卸载到高速网络的网卡或交换机能够潜在提升分布式应用的性能表现,并发挥网络的关键作用。如在交换机或网卡中卸载参数聚... AI时代的到来对当今算力提出了双重挑战,一方面涉及推理,另一方面涉及分布式训练。将一部分分布式应用的计算任务卸载到高速网络的网卡或交换机能够潜在提升分布式应用的性能表现,并发挥网络的关键作用。如在交换机或网卡中卸载参数聚合等计算功能能够有效降低模型训练时产生的大量通信开销。基于P4语言的可编程数据平面除了使网络协议定制更加灵活外,还使得网络数据平面能够为分布式应用提供简单的网内计算服务。然而,当前典型的基于P4语言的可编程数据平面架构如协议无关交换架构(PISA)在进行矩阵运算等方面还表现得不够高效。分析该缺陷的关键原因在于:PISA架构中的超长指令字计算引擎在处理大规模并行同构计算任务时效率不高。针对上述问题,提出了一种面向AI加速的通算一体网内计算模型CAInNet。该模型在传统可编程数据平面的基础上,创新性地融合了单指令多数据流(SIMD)与多指令多数据流(MIMD)两种计算模式,使得网络设备不仅能够支持协议无关网络分组处理,还能在分组传输过程中对承载AI推理与训练的数据做网内计算。为了验证CAInNet在网内计算以及网络可编程方面的能力和效果,我们在该模型中使用带内网络遥测实现网络可视化,并部署多层感知机(MLP)模型实现基于AI的报文分类,替代传统的基于TCAM查表的路由方法。实验表明,采用机器学习推理的报文分类方法在包含5k路由表项的场景下,其准确度高达98.3%,同时节省了98.7%的存储空间,有效地解决了路由爆炸问题。与现有方法相比,将机器学习推理部署在CAInNet中不增加可编程数据平面的处理延迟,且仅消耗适量计算资源。 展开更多
关键词 AI硬件加速 通算一体 网内计算 可编程网络 报文分类 深度神经网络
在线阅读 下载PDF
基于HLS的高精度位移测量算法的硬件加速设计
15
作者 陈昊然 王天昊 +5 位作者 路美娜 宋茂新 罗环 吴晓宇 骆冬根 裘桢炜 《系统工程与电子技术》 北大核心 2025年第2期341-351,共11页
针对高精度位移传感器对高速位移测量算法的运行速度、可移植性及降低研发成本的需求,提出一种基于高层次综合(high-level synthesis, HLS)技术的高精度测量算法的硬件加速设计方法。使用HLS技术实现C++语言到Verilog语言的综合,针对高... 针对高精度位移传感器对高速位移测量算法的运行速度、可移植性及降低研发成本的需求,提出一种基于高层次综合(high-level synthesis, HLS)技术的高精度测量算法的硬件加速设计方法。使用HLS技术实现C++语言到Verilog语言的综合,针对高精度位移测量算法设计策略,利用HLS技术中的流水化和数组重构等优化技术进行硬件加速,并将其封装为知识产权(intellectual property, IP)核,提高算法的可移植性。以Xilinx公司的Kintex-7系列现场可编程门阵列(field-programmable gate array, FPGA)芯片XC7K325TFFG676为载体的测量系统实验结果表明,整个算法耗时91.8μs,相比数字信号处理(digital signal processor, DSP)单元将运行时间缩短了308.2μs,测量精度达到44.44 nm,稳定性为49.20 nm,线性度为0.503‰。 展开更多
关键词 高层次综合技术 位移检测 现场可编程门阵列 硬件加速
在线阅读 下载PDF
基于位串行卷积神经网络加速器的运动想象脑电信号识别系统
16
作者 程筱舒 王忆文 +2 位作者 娄鸿飞 丁玮然 李平 《电子科技大学学报》 北大核心 2025年第3期321-332,共12页
准确识别运动想象脑电信号是神经科学和生物医学工程领域的重要挑战。设计了基于位串行卷积神经网络加速器的脑电信号识别系统,充分利用其小体积、低能耗和高实时性的优势。从软件层面,介绍了脑电数据的预处理、特征提取及分类过程,并... 准确识别运动想象脑电信号是神经科学和生物医学工程领域的重要挑战。设计了基于位串行卷积神经网络加速器的脑电信号识别系统,充分利用其小体积、低能耗和高实时性的优势。从软件层面,介绍了脑电数据的预处理、特征提取及分类过程,并采用格拉姆角场转换将一维信号映射为二维特征图供网络处理。在硬件层面,提出了列暂存数据流和固定乘数原位串行乘法器等方法,在FPGA上实现了位串行卷积神经网络加速器的原型验证。实验表明,基于位串行LeNet-5加速器的FPGA实现对BCI竞赛Ⅳ数据集2a和2b的分类平均准确率分别达到95.68%和97.32%,kappa值分别为0.942和0.946,展现出的优异性为运动想象脑电信号识别的高效实现提供了思路。 展开更多
关键词 脑机接口 运动想象 卷积神经网络 硬件加速器 格拉姆角场
在线阅读 下载PDF
基于FPGA的SAR图像目标检测加速器设计
17
作者 汤亮 王小华 陈立福 《现代雷达》 北大核心 2025年第6期30-38,共9页
主流的基于中央处理器(CPU)和图形处理器(GPU)的合成孔径雷达(SAR)图像目标检测算法,存在模型大、计算复杂度高、并行度低和功耗高等缺点,不适合部署在卫星和无人机等资源有限的平台上。文中在综合考虑板卡资源、功耗、推理速度和精度... 主流的基于中央处理器(CPU)和图形处理器(GPU)的合成孔径雷达(SAR)图像目标检测算法,存在模型大、计算复杂度高、并行度低和功耗高等缺点,不适合部署在卫星和无人机等资源有限的平台上。文中在综合考虑板卡资源、功耗、推理速度和精度的条件下,设计了一种基于现场可编程门阵列(FPGA)的SAR图像目标检测加速器。该加速器采用的网络模型为优化后的YOLOv4-tiny,模型通过16位定点数优化数据位宽并加入空洞卷积来替换标准卷积,从而缩减了网络模型及参数,以便于部署在资源受限的FPGA上;在FPGA卷积层的实现中,采用了多重循环展开并行和循环分块并行的方法来加速卷积运算。实验结果表明,优化的算法在FPGA上获得了15.24 GOPS的吞吐量,每张图像识别速度为256 ms,介于CPU与GPU之间,但是由于FPGA硬件功耗仅为3.06 W,所以所提算法的能效比分别达到了CPU和GPU的18.4倍和7.3倍。 展开更多
关键词 现场可编程门阵列 合成孔径雷达 硬件加速器 YOLOv4-tiny网络 目标检测
在线阅读 下载PDF
基于算力动态分配的稀疏卷积加速器
18
作者 秦学毅 陈桂林 +3 位作者 魏祥麟 于龙 范建华 刘恒 《计算机工程与应用》 北大核心 2025年第15期178-188,共11页
稀疏化卷积计算是降低卷积神经网络计算复杂度的重要手段。当前设计的稀疏化卷积加速器仍然面临两方面的问题:一是非零元素位置不固定导致索引逻辑复杂,索引计算时间长;二是简单地跳过零值元素导致计算资源闲置浪费。为解决这两个问题,... 稀疏化卷积计算是降低卷积神经网络计算复杂度的重要手段。当前设计的稀疏化卷积加速器仍然面临两方面的问题:一是非零元素位置不固定导致索引逻辑复杂,索引计算时间长;二是简单地跳过零值元素导致计算资源闲置浪费。为解决这两个问题,设计了一种基于算力动态分配的稀疏卷积加速器。设计了一种动态非零值索引,降低了索引的计算时间和内存需求。提出了一种算力动态分配算法,将多个通道卷积跳零后的数据分配至一组乘法器,降低非零数据配对难度,避免资源闲置。在Xilinx XC7V2000平台上的仿真评估结果显示,在进行稀疏卷积计算时,所设计加速器的性能达438.3 GOPs,DSP效率达到了0.43 GOPs/DSP,与6种现有卷积加速器相比,DSP效率提升了1.26倍至2.86倍。 展开更多
关键词 稀疏卷积 神经网络 硬件加速 多通道
在线阅读 下载PDF
一种地基云图分类算法及硬件加速实现
19
作者 冯琳 宋文强 徐伟 《电子测量与仪器学报》 北大核心 2025年第2期21-31,共11页
地基云的自动观测和识别对分析大气运动趋势和天气预测具有指导意义。针对目前地基云图分类算法准确率不高、在嵌入式终端部署困难的问题,提出了一种基于残差网络结构的地基云图分类网络模型GBcNet及基于ZYNQ的硬件实现架构,PS端用于加... 地基云的自动观测和识别对分析大气运动趋势和天气预测具有指导意义。针对目前地基云图分类算法准确率不高、在嵌入式终端部署困难的问题,提出了一种基于残差网络结构的地基云图分类网络模型GBcNet及基于ZYNQ的硬件实现架构,PS端用于加载模型的权重参数和云图数据,PL端实现DDR3读写控制和GBcNet的硬件加速。设计了滑窗、卷积层、池化层、批量归一化层和全连接层等模块的加速IP核。实验在CCSN数据集上进行,结果表明,提出的模型在PC端的准确率达到96.02%。采用现场可编程门阵列(FPGA)硬件加速后,准确率仍然保持在94.5%。与PC端模型的识别率相比,各云类的识别精度损失均不超过3%,整体精度损失小于1.5%;FPGA的最大资源占用不超过48%,单张地基云图推理时间为0.13 s。相较于现有地基云的识别方法,识别准确率高且推理时间较短。提出的识别模型和硬件加速方法为便携式地基云观测设备的研制提供了一种参考方案。 展开更多
关键词 图像分类 地基云图 硬件加速 FPGA 残差网络
在线阅读 下载PDF
基于剪枝与量化的ResNet模型硬件加速方法
20
作者 曾烨林 林栎 赵亮 《计算机工程与设计》 北大核心 2025年第6期1601-1608,共8页
为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(... 为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(neural processing unit, NPU)实现硬件加速。在传统的模型剪枝和量化基础上,采用通道剪枝结合混合精度量化的方法,在保证模型性能的前提下最大程度压缩网络模型。硬件部署推理实验结果表明,该方法可实现对原始模型压缩7.75倍,模型推理速度提升2.55倍,实验验证了该方法对ResNet模型的压缩和硬件推理加速具有一定效果。 展开更多
关键词 通道剪枝 神经网络处理器 混合精度量化 硬件加速 模型压缩 卷积神经网络 推理加速
在线阅读 下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部