期刊文献+
共找到281篇文章
< 1 2 15 >
每页显示 20 50 100
现场可编程门阵列在逆变器控制系统中的应用 被引量:3
1
作者 胡兵 陶生桂 毛明平 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第1期97-100,共4页
介绍了现场可编程门阵列 (FPGA)器件的内部结构特点及其在三点式逆变器控制电路上的应用 ,给出了该设计的仿真波形 。
关键词 现场可编程门列阵 甚高频 集成电路 硬件描述语言 逆变器 控制电路 PWM调制 调速性能
在线阅读 下载PDF
基于现场可编程门阵列的步进电机运动控制系统设计研究 被引量:1
2
作者 洪永强 林华星 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第2期194-198,共5页
提出一种在多用途步进电机运动控制系统中应用现场可编程门阵列(FPGA)实现多台步进电机可变细分脉冲分配器的方法.按照运动控制系统的多用途特性要求和可逆循环计数寻址EPROM的思想设计可变细分控制策略,将控制步进电机运转的矩形脉冲... 提出一种在多用途步进电机运动控制系统中应用现场可编程门阵列(FPGA)实现多台步进电机可变细分脉冲分配器的方法.按照运动控制系统的多用途特性要求和可逆循环计数寻址EPROM的思想设计可变细分控制策略,将控制步进电机运转的矩形脉冲波通过细分代码转换成阶梯近似、幅值恒定的正弦、余弦波.利用Verilog HDL硬件描述语言,并运用MAX+plus II开发软件,在单片FPGA上实现了多台步进电机的脉冲分配器,负责细分代码的生成与输出,并在FPGA片内集成了大部分的MCU外围接口电路,包括MCU的译码电路、键盘和中断接口电路,使MCU软件结构和外围电路大为简化.结果表明,系统扩展方便,可移植性高,具有广泛的适应性. 展开更多
关键词 步进电机 细分控制 现场可编程门阵列 硬件描述语言
在线阅读 下载PDF
基于现场可编程门阵列的SMS4故障检测实现
3
作者 辛小霞 王奕 李仁发 《计算机应用》 CSCD 北大核心 2015年第2期420-423,共4页
硬件实现的SMS4加密算法计算过程中容易出现故障,为防止攻击者利用故障信息进行故障攻击从而破解SMS4算法,提出一种针对SMS4算法的故障检测方案。该方案首先分析了硬件实现的SMS4算法出现故障的位置及其影响,然后在关键路径上建立了3个... 硬件实现的SMS4加密算法计算过程中容易出现故障,为防止攻击者利用故障信息进行故障攻击从而破解SMS4算法,提出一种针对SMS4算法的故障检测方案。该方案首先分析了硬件实现的SMS4算法出现故障的位置及其影响,然后在关键路径上建立了3个检测点,通过实时监测检测点来定位算法执行过程中出现的故障。一旦成功检测到故障,立即重新执行算法以保证攻击者难以获取有效的故障信息。将提出的方案和原无故障检测的算法分别在Xilinx公司的Virtex-7和Altera公司的Cyclone II EP2C35F76C6两个现场可编程门阵列(FPGA)上综合实现,在Virtex-7上,提出的带故障检测的方案比原算法占用逻辑资源增加30%,吞吐量相当;在EP2C35F76C6上比原算法增加0.1%的硬件资源,吞吐量达到原来的93%。实验结果表明,在尽量不影响吞吐量的前提下,提出的方案占用硬件资源小,并且可以有效地检测出故障,从而避免SMS4算法受到故障攻击。 展开更多
关键词 SMS4算法 硬件实现 故障攻击 故障检测 现场可编程门阵列
在线阅读 下载PDF
面向处理器功能验证的硬件化System Verilog断言设计 被引量:1
4
作者 张子卿 石侃 +2 位作者 徐烁翔 王梁辉 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1436-1449,共14页
功能验证在处理器芯片开发流程中所占用的时间超过70%,因此优化提升功能验证环节的效率非常必要.软件仿真等传统验证方法提供了包括断言等多种验证机制,以提升验证的细粒度可见性和自检查能力,但是软件仿真运行速度较慢,在高效性方面有... 功能验证在处理器芯片开发流程中所占用的时间超过70%,因此优化提升功能验证环节的效率非常必要.软件仿真等传统验证方法提供了包括断言等多种验证机制,以提升验证的细粒度可见性和自检查能力,但是软件仿真运行速度较慢,在高效性方面有明显不足.基于FPGA的硬件原型验证方法能极大地加速验证性能,但其调试能力较弱,虽能快速发现漏洞,但难以定位漏洞出现的具体位置和根本原因,存在有效性不足难题.为同时解决上述功能验证有效性与高效性的问题,提出一种将不可综合的断言语言SVA(SystemVerilog Assertion)自动转换成逻辑等效但可综合的RTL电路的方法,聚焦于断言这一类对设计进行非全局建模、纵向贯穿各抽象层级的验证方式,对基于全局指令集架构(instruction set architecture,ISA)模型的验证能力进行补足.同时,结合FPGA细粒度并行化、高度可扩展的优势,对处理器的验证过程进行硬件加速,提升了处理器的开发效率.实现了一个端到端的硬件断言平台,集成对SVA进行硬件化的完整工具链,并统计运行在FPGA上的硬件化断言的触发和覆盖率情况.实验表明,和软件仿真相比,所提方法能取得超过2万倍的验证效率提升. 展开更多
关键词 断言 处理器验证 硬件仿真 现场可编程逻辑门阵列 原型验证
在线阅读 下载PDF
高速可编程网络创新实验设备设计与实现
5
作者 崔波 刘中金 +3 位作者 李勇 苏厉 金德鹏 曾烈光 《计算机工程》 CAS CSCD 2014年第5期313-316,共4页
面向下一代网络的新协议和体系架构研究是当前网络研究的重要组成部分,而基于实际设备的实验验证是证明研究结果正确性的主要途径。针对基于软件或传统网络设备的验证方式在有效性、灵活性等方面的不足,提出一种支持网络创新实验验证的... 面向下一代网络的新协议和体系架构研究是当前网络研究的重要组成部分,而基于实际设备的实验验证是证明研究结果正确性的主要途径。针对基于软件或传统网络设备的验证方式在有效性、灵活性等方面的不足,提出一种支持网络创新实验验证的高速网络硬件设备解决方案。该方案基于现场可编程门阵列设计,将控制平面与数据平面解耦合,同时采用高性能的网络与存储模块,满足网络创新实验对设备可编程、高性能、灵活管理控制等方面的需求。基于此方案设计并实现TNIP网络处理板卡。实验结果证明,该板卡支持高达16 Gb/s的网络通信,可以应用于复杂的网络创新实验。 展开更多
关键词 网络设备 网络创新 实验平台 可编程硬件 现场可编程门阵列设计 虚拟化
在线阅读 下载PDF
基于HLS的高精度位移测量算法的硬件加速设计
6
作者 陈昊然 王天昊 +5 位作者 路美娜 宋茂新 罗环 吴晓宇 骆冬根 裘桢炜 《系统工程与电子技术》 北大核心 2025年第2期341-351,共11页
针对高精度位移传感器对高速位移测量算法的运行速度、可移植性及降低研发成本的需求,提出一种基于高层次综合(high-level synthesis, HLS)技术的高精度测量算法的硬件加速设计方法。使用HLS技术实现C++语言到Verilog语言的综合,针对高... 针对高精度位移传感器对高速位移测量算法的运行速度、可移植性及降低研发成本的需求,提出一种基于高层次综合(high-level synthesis, HLS)技术的高精度测量算法的硬件加速设计方法。使用HLS技术实现C++语言到Verilog语言的综合,针对高精度位移测量算法设计策略,利用HLS技术中的流水化和数组重构等优化技术进行硬件加速,并将其封装为知识产权(intellectual property, IP)核,提高算法的可移植性。以Xilinx公司的Kintex-7系列现场可编程门阵列(field-programmable gate array, FPGA)芯片XC7K325TFFG676为载体的测量系统实验结果表明,整个算法耗时91.8μs,相比数字信号处理(digital signal processor, DSP)单元将运行时间缩短了308.2μs,测量精度达到44.44 nm,稳定性为49.20 nm,线性度为0.503‰。 展开更多
关键词 高层次综合技术 位移检测 现场可编程门阵列 硬件加速
在线阅读 下载PDF
一种硬件在环远程在线实验系统设计与实现
7
作者 唐永鹤 井靖 +1 位作者 刘春玲 朱兵 《实验室研究与探索》 北大核心 2025年第4期51-55,60,共6页
针对硬件类在线实验真实体验感不强、灵活性不足的问题,以嵌入式系统设计课程在线实验为例,设计并实现了一种硬件在环远程在线实验系统。采用三维建模技术模拟线下模块选择、连线等操作,并将相应操作自动投射到后台的实体硬件设备上,同... 针对硬件类在线实验真实体验感不强、灵活性不足的问题,以嵌入式系统设计课程在线实验为例,设计并实现了一种硬件在环远程在线实验系统。采用三维建模技术模拟线下模块选择、连线等操作,并将相应操作自动投射到后台的实体硬件设备上,同时采用摄像头远程监测硬件设备的实验现象,增强在线实验的真实体验感。采用现场可编程门阵列(FPGA)作为传感器模块与核心控制板之间的桥梁,通过自动生成和下载FPGA配置逻辑,实现传感器模块与核心控制板的透明动态连接,增强系统的灵活性。结果表明,该系统不仅真实体验感强、操作方便,还克服了硬件类实验的时空限制,大幅拓展了学生参与实验的时间与空间,可有效提升实验设备的利用率。 展开更多
关键词 硬件在环 在线实验 嵌入式系统 三维建模 现场可编程门阵列
在线阅读 下载PDF
适用于SVG控制系统的硬件在环实时仿真平台设计 被引量:1
8
作者 王志远 韩峰 +3 位作者 郭聪 石国辉 温源 殷晓飞 《电力系统及其自动化学报》 北大核心 2025年第1期151-158,共8页
在静止无功发生器投运前对其控制装置进行功能验证,这对缩短研发周期和保证设备的安全稳定运行至关重要,为此提出一种适用于静止无功发生器控制系统的硬件在环实时仿真平台设计方法。首先,基于MATLAB Simulink Real-Time环境对静止无功... 在静止无功发生器投运前对其控制装置进行功能验证,这对缩短研发周期和保证设备的安全稳定运行至关重要,为此提出一种适用于静止无功发生器控制系统的硬件在环实时仿真平台设计方法。首先,基于MATLAB Simulink Real-Time环境对静止无功发生器一次回路等效建模,模拟主回路系统实时运行和故障工况;然后,为有效平衡仿真计算量和仿真精度,对静止无功发生器模块拓扑电路进行分析得到等效电路模型,并采用现场可编程门阵列搭建静止无功发生器基于模块等效的快速仿真模型;最后,通过静止无功发生器在直流调压、定功率控制阶跃响应和高压穿越工况下的仿真分析,验证了所提平台的精准性和有效性。 展开更多
关键词 静止无功发生器 现场可编程门阵列 硬件在环 实时仿真
在线阅读 下载PDF
FPGA软硬件编程方法的模块化关节控制器设计 被引量:2
9
作者 张奇 谢宗武 +1 位作者 刘宏 蔡鹤皋 《电机与控制学报》 EI CSCD 北大核心 2013年第8期91-99,共9页
为了提高机器人关节控制的性能,设计了一套基于现场可编程门阵列(FPGA)软硬件编程方法的模块化关节控制器。在控制器中,传感器采集和电流矢量控制采用标准硬件描述语言VHDL编写以提高电流控制的带宽,电流控制周期为50μs。机器人关节控... 为了提高机器人关节控制的性能,设计了一套基于现场可编程门阵列(FPGA)软硬件编程方法的模块化关节控制器。在控制器中,传感器采集和电流矢量控制采用标准硬件描述语言VHDL编写以提高电流控制的带宽,电流控制周期为50μs。机器人关节控制律在NiosⅡ处理器中以C语言实现,控制周期为200μs。自顶向下的层次化设计方法应用于矢量控制知识产权(IP)核设计,并给出矢量控制中的坐标变换、PI调节算法等功能模块的数据流图,整个矢量控制计算耗时3.48μs。该关节控制器应用到7自由度机器人中。实验结果表明,关节位置和电机力矩跟踪效果较好,且控制器对机器人构型不敏感。 展开更多
关键词 现场可编程门阵列 矢量控制 硬件编程 关节控制器
在线阅读 下载PDF
基于Verilog HDL的约束MPC的FPGA硬件实现
10
作者 季冬冬 许芳 +1 位作者 梅钦 陈虹 《控制工程》 CSCD 北大核心 2016年第8期1208-1214,共7页
为提高模型预测控制(Model Predictive Control,MPC)的在线计算性能,拓展其在快速动态系统中的实际应用,给出了一种基于Verilog硬件描述语言(Hardware Description Language,HDL)的MPC控制器的FPGA(Field Programmable Gate Array,FPGA... 为提高模型预测控制(Model Predictive Control,MPC)的在线计算性能,拓展其在快速动态系统中的实际应用,给出了一种基于Verilog硬件描述语言(Hardware Description Language,HDL)的MPC控制器的FPGA(Field Programmable Gate Array,FPGA)硬件实现方法,并采用基于惩罚函数的粒子群优化算法(Particle Swarm Optimization,PSO)用于在线求解MPC的约束优化问题。首先,通过Verilog HDL编写实现矩阵运算模块、PSO求解模块,充分利用PSO的并行搜索能力和FPGA的并行计算结构提高MPC的在线计算性能,最后进行模块综合实现基于FPGA的约束MPC控制器。以电子节气门为被控对象进行控制器的实时验证,结果表明设计的MPC-FPGA控制器能够很好地满足电子节气门的快速跟踪要求,并验证了控制器的有效性和实时性。 展开更多
关键词 模型预测控制 verilog HDL 现场可编程门阵列 粒子群优化算法 实时实验
在线阅读 下载PDF
时空图卷积网络的骨架识别硬件加速器设计
11
作者 谭会生 严舒琪 杨威 《电子测量技术》 北大核心 2024年第11期36-43,共8页
随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可... 随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可编程门阵列(FPGA),设计开发了一个基于时空图卷积神经网络的骨架识别硬件加速器。通过对原网络模型进行结构优化与数据量化,减少了FPGA实现约75%的计算量;利用邻接矩阵稀疏性的特点,提出了一种稀疏性矩阵乘加运算的优化方法,减少了约60%的乘法器资源消耗。经过对人体骨架识别实验验证,结果表明,在时钟频率100 MHz下,相较于CPU,FPGA加速ST-GCN单元,加速比达到30.53;FPGA加速人体骨架识别,加速比达到6.86。 展开更多
关键词 人体骨架识别 时空图卷积神经网络(ST-GCN) 硬件加速器 现场可编程门阵列(FPGA) 稀疏矩阵乘加运算硬件优化
在线阅读 下载PDF
基于Verilog语言的数字交叉连接矩阵设计
12
作者 华熹曦 赵雷 +2 位作者 许新新 王琳 李惠军 《计算机工程与应用》 CSCD 北大核心 2007年第4期82-84,共3页
通过改进传统数字交叉连接矩阵的单元结构,详细介绍了基于Verilog语言的SDXC矩阵设计的一种新方法。此矩阵可实现2条STM-1输入信号中任意等级支路之间的无阻塞时隙交换。文章着重阐述了交叉连接矩阵实时、自适应交换功能的原理及实现方... 通过改进传统数字交叉连接矩阵的单元结构,详细介绍了基于Verilog语言的SDXC矩阵设计的一种新方法。此矩阵可实现2条STM-1输入信号中任意等级支路之间的无阻塞时隙交换。文章着重阐述了交叉连接矩阵实时、自适应交换功能的原理及实现方法,并给出了系统的功能仿真波形图。 展开更多
关键词 verilog语言 数字交叉连接 同步数字体系 现场可编程门阵列
在线阅读 下载PDF
基于FPGA的图像处理硬件加速系统的设计 被引量:3
13
作者 张灿宇 封岸松 +2 位作者 张华良 易星 王俊彭 《计算机工程与设计》 北大核心 2024年第3期723-731,共9页
为解决图像处理算法越来越复杂,普通的计算平台已满足不了当前需求的问题,根据现场可编程门阵列(field programmable gate array, FPGA)的并行计算特点对FAST角点检测算法和Sobel边缘检测算法进行硬件加速,采用HLS(high-level synthesis... 为解决图像处理算法越来越复杂,普通的计算平台已满足不了当前需求的问题,根据现场可编程门阵列(field programmable gate array, FPGA)的并行计算特点对FAST角点检测算法和Sobel边缘检测算法进行硬件加速,采用HLS(high-level synthesis, HLS)高层次综合技术对两种算法进行设计并进行相应的优化。为提升系统整体性能,在FPGA上实现全部视频输入输出接口和图像算法的完整通路,通过FPGA算法电路与OpenCV算法程序进行对比,前者的图像处理速度快于后者9~11倍,系统功耗也仅为1.9 W,图像检测可达56 fps,满足实时图像处理要求,为以后设计复杂的图像处理系统提供了参考。 展开更多
关键词 现场可编程门阵列 硬件加速 高层次综合技术 图像处理 PYNQ-Z2 角点检测 边缘检测
在线阅读 下载PDF
轻量级卷积神经网络的硬件加速方法 被引量:1
14
作者 吕文浩 支小莉 童维勤 《计算机工程与设计》 北大核心 2024年第3期699-706,共8页
为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单... 为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。 展开更多
关键词 硬件协同优化 现场可编程门阵列 轻量级卷积神经网络 移位量化 并行计算 硬件加速 开放式计算语言
在线阅读 下载PDF
zk-SNARK中数论变换的硬件加速方法研究 被引量:3
15
作者 赵海旭 柴志雷 +2 位作者 花鹏程 王锋 丁冬 《计算机科学与探索》 CSCD 北大核心 2024年第2期538-552,共15页
简洁非交互式零知识证明能够生成长度固定的证明并快速进行验证,极大地推动了零知识证明在数字签名、区块链及分布式存储等领域的应用。但其证明的生成过程极其耗时且需要被频繁调用,其中数论变换是证明生成过程的主要运算之一。然而现... 简洁非交互式零知识证明能够生成长度固定的证明并快速进行验证,极大地推动了零知识证明在数字签名、区块链及分布式存储等领域的应用。但其证明的生成过程极其耗时且需要被频繁调用,其中数论变换是证明生成过程的主要运算之一。然而现有的通用数论变换硬件加速方法难以满足其在简洁非交互式零知识证明中大规模、高位宽的要求。针对该问题,提出一种数论变换多级流水硬件计算架构。针对高位宽计算需求对高位模运算进行优化,设计了低时延蒙哥马利模乘单元;为了加速大规模计算,通过二维子任务划分将大规模数论变换任务划分为小规模独立子任务,并通过消除数据依赖实现了子任务间计算流水;在子任务多轮蝶形运算之间采用数据重排机制,有效缓解了访存需求并实现了不同步长蝶形运算间的计算流水。所提出的数论变换计算架构可以根据现场可编程门阵列(FPGA)片上资源灵活扩展,方便部署在不同规模的FPGA上以获得最大加速效果。所提出的硬件架构使用高层次综合(HLS)开发并基于OpenCL框架在AMD Xilinx Alveo U50实现了整套异构加速系统。实验结果表明,相比于PipeZK中的数论变换加速模块,该方法获得了1.95倍的加速比;在运行当前主流的简洁非交互式零知识证明开源项目bellman时,相比于AMD Ryzen 95900X单核及12核分别获得了27.98倍和1.74倍的加速比,并分别获得了6.9倍、6倍的能效提升。 展开更多
关键词 现场可编程门阵列(FPGA) 简洁非交互式零知识证明(zk-SNARK) 模乘 数论变换 硬件加速
在线阅读 下载PDF
一种面积高效的双态可配置NTT硬件加速器 被引量:1
16
作者 朱敏 肖昊 《信息网络安全》 CSCD 北大核心 2024年第6期959-967,共9页
矩阵向量乘法是基于格的后量子密码(Post-Quantum Cryptography,PQC)方案的主要计算瓶颈。利用数论变换(Number Theoretic Transform,NTT)能将矩阵向量乘法的计算复杂度从O(N^(2))降到O(Nlog_(2)N),从而可以进一步提高后量子密码方案的... 矩阵向量乘法是基于格的后量子密码(Post-Quantum Cryptography,PQC)方案的主要计算瓶颈。利用数论变换(Number Theoretic Transform,NTT)能将矩阵向量乘法的计算复杂度从O(N^(2))降到O(Nlog_(2)N),从而可以进一步提高后量子密码方案的计算速度。文章基于现场可编程门阵列(Field Programmable Gate Array,FPGA)提出了一种面积高效的双态可配置NTT硬件加速器,能高效地执行Kyber和Dilithium算法中的NTT运算。文章所提方案使用的模乘器通过查找表(Look Up Table,LUT)技术压缩数据位宽降低取模成本后,利用KRED算法对结果约简。此外,结合优化后的无冲突NTT数据流,文章所提出的双态可配置NTT加速器可以高效完成计算。文章所提出的NTT硬件加速器在Xilinx Artix-7平台上进行了验证。相较于参考文献方案,文章所提出的双态可配置NTT硬件加速器在保持对Kyber和Dilithium算法通用性的同时,在计算性能和硬件开销等方面表现更好。 展开更多
关键词 后量子密码 快速数论变换 模乘 硬件加速 现场可编程门阵列
在线阅读 下载PDF
基于FPGA的软硬件协同纠删码编码加速方案
17
作者 杨思捷 陈俊奇 +1 位作者 王勇 李树林 《计算机工程》 CAS CSCD 北大核心 2024年第2期224-231,共8页
纠删码容错技术已广泛应用于分布式存储系统,相较于多副本容错技术能显著降低数据存储成本,并且具有更高的数据通信可靠性和安全性,但在数据存储过程中不可避免地会引入额外的计算开销并增加编码时延,导致数据写入吞吐量降低。针对该问... 纠删码容错技术已广泛应用于分布式存储系统,相较于多副本容错技术能显著降低数据存储成本,并且具有更高的数据通信可靠性和安全性,但在数据存储过程中不可避免地会引入额外的计算开销并增加编码时延,导致数据写入吞吐量降低。针对该问题,提出一种基于现场可编程门列阵(FPGA)的纠删码编码加速方案。首先,利用FPGA的高速并行计算优势对纠删码算法进行硬件加速,并实现并行处理和时序优化。然后,针对上位机与FPGA之间因传输速率和处理速率不一致造成内存中的数据溢出问题,在FPGA上拓展了片外DDR3接口用于数据缓存,提高了通信可靠性,并利用DDR3的随机存取特点实现对数据块的分片。最后,设计基于FPGA的纠删码编码硬件加速架构进行实验验证。实验结果表明,与主流Jerasure 2.0开源纠删码库相比,该方案的数据写入吞吐量提升了2.7~93.0倍,尤其对于小文件的编码写入性能提升更为显著。 展开更多
关键词 纠删码 现场可编程门阵列 硬件加速 分布式存储 模块化设计
在线阅读 下载PDF
FPGA平台上动态硬件重构的Winograd神经网络加速器 被引量:1
18
作者 梅冰笑 滕文彬 +3 位作者 张弛 王文浩 李富强 苑福利 《计算机工程与应用》 CSCD 北大核心 2024年第22期323-334,共12页
为解决卷积神经网络在FPGA平台上进行硬件加速时存在的资源利用率低和资源受限问题,提出了一种基于FPGA动态部分重构技术和Winograd快速卷积的卷积神经网络加速器。该加速器通过运行时硬件重构对FPGA片上资源进行时分复用,采用流水线方... 为解决卷积神经网络在FPGA平台上进行硬件加速时存在的资源利用率低和资源受限问题,提出了一种基于FPGA动态部分重构技术和Winograd快速卷积的卷积神经网络加速器。该加速器通过运行时硬件重构对FPGA片上资源进行时分复用,采用流水线方式动态地将各个计算流水段配置到FPGA,各个流水段所对应的卷积计算核心使用Winograd算法进行定制优化,以在解决资源受限问题的同时最大程度地提升计算资源利用效率。针对该加速器架构,进一步构建了组合优化模型,用于搜索在特定FPGA硬件平台上部署特定网络模型的最优并行策略,并使用遗传算法进行设计空间求解。基于Xilinx VC709 FPGA平台对VGG-16网络模型进行部署和分析,综合仿真结果表明,所提出的设计方法能够在资源有限的FPGA上自适应地实现大型神经网络模型,加速器整体性能可以达到1078.3 GOPS,较以往加速器的性能和计算资源利用效率可以分别提升2.2倍和3.62倍。 展开更多
关键词 卷积神经网络 动态部分硬件重构 现场可编程门阵列(FPGA) 硬件加速器 Winograd快速卷积
在线阅读 下载PDF
高能效低延迟的BNN硬件加速器设计
19
作者 周培培 杜高明 +1 位作者 李桢旻 王晓蕾 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2024年第12期1655-1661,共7页
针对二值化神经网络(binary neural network,BNN)硬件设计过程中大量0值引发计算量增加以及BNN中同一权值数据与同一特征图数据多次重复运算导致计算周期和计算功耗增加的问题,文章分别提出全0值跳过方法和预计算结果缓存方法,有效减少... 针对二值化神经网络(binary neural network,BNN)硬件设计过程中大量0值引发计算量增加以及BNN中同一权值数据与同一特征图数据多次重复运算导致计算周期和计算功耗增加的问题,文章分别提出全0值跳过方法和预计算结果缓存方法,有效减少网络的计算量、计算周期和计算功耗;并基于现场可编程门阵列(field programmable gate array,FPGA)设计一款BNN硬件加速器,即手写数字识别系统。实验结果表明,使用所提出的全0值跳过方法和预计算结果缓存方法后,在100 MHz的频率下,设计的加速器平均能效可达1.81 TOPs/W,相较于其他BNN加速器,提升了1.27~4.34倍。 展开更多
关键词 二值化神经网络(BNN) 权值共享 重复运算 现场可编程门阵列(FPGA) 硬件加速器
在线阅读 下载PDF
改进Camshift算法实时目标跟踪实现
20
作者 严飞 徐龙 +2 位作者 陈佳宇 姜栋 刘佳 《计算机工程与设计》 北大核心 2025年第1期314-320,F0003,共8页
为解决Camshift目标跟踪算法在跟踪目标遮挡时陷入局部最大值、跟踪目标快速移动导致跟踪丢失以及光照变化影响跟踪精度一系列问题,提出一种改进Camshift目标跟踪算法。利用自适应权重与H通道特征提取模板,融合Kalman滤波算法并引入巴... 为解决Camshift目标跟踪算法在跟踪目标遮挡时陷入局部最大值、跟踪目标快速移动导致跟踪丢失以及光照变化影响跟踪精度一系列问题,提出一种改进Camshift目标跟踪算法。利用自适应权重与H通道特征提取模板,融合Kalman滤波算法并引入巴氏距离遮挡判别法。非遮挡时,使用Kalman预测调整跟踪搜索区域;遮挡时,使用Kalman预测跟踪。实验结果表明,将改进后算法部署于FPGA硬件平台能够准确地跟踪快速运动、遮挡干扰目标,在1920×1080分辨率下理论跟踪帧率为98.17帧/s,对1080p@60 Hz以及多种分辨率视频输入下平均跟踪重叠率达到84.68%。 展开更多
关键词 目标跟踪 实时 图像处理 硬件加速 卡尔曼滤波 直方图 现场可编程逻辑门阵列
在线阅读 下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部