期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于HLS的高精度位移测量算法的硬件加速设计
1
作者 陈昊然 王天昊 +5 位作者 路美娜 宋茂新 罗环 吴晓宇 骆冬根 裘桢炜 《系统工程与电子技术》 北大核心 2025年第2期341-351,共11页
针对高精度位移传感器对高速位移测量算法的运行速度、可移植性及降低研发成本的需求,提出一种基于高层次综合(high-level synthesis, HLS)技术的高精度测量算法的硬件加速设计方法。使用HLS技术实现C++语言到Verilog语言的综合,针对高... 针对高精度位移传感器对高速位移测量算法的运行速度、可移植性及降低研发成本的需求,提出一种基于高层次综合(high-level synthesis, HLS)技术的高精度测量算法的硬件加速设计方法。使用HLS技术实现C++语言到Verilog语言的综合,针对高精度位移测量算法设计策略,利用HLS技术中的流水化和数组重构等优化技术进行硬件加速,并将其封装为知识产权(intellectual property, IP)核,提高算法的可移植性。以Xilinx公司的Kintex-7系列现场可编程门阵列(field-programmable gate array, FPGA)芯片XC7K325TFFG676为载体的测量系统实验结果表明,整个算法耗时91.8μs,相比数字信号处理(digital signal processor, DSP)单元将运行时间缩短了308.2μs,测量精度达到44.44 nm,稳定性为49.20 nm,线性度为0.503‰。 展开更多
关键词 高层次综合技术 位移检测 现场可编程门阵列 硬件加速
在线阅读 下载PDF
基于HLS的实时图像去雾实现 被引量:7
2
作者 齐乐 张小刚 姚航 《计算机工程》 CAS CSCD 北大核心 2016年第5期224-229,共6页
户外图像或视频受到大气中烟雾的影响,存在模糊不清及颜色偏移等问题,在很大程度上影响户外视频系统正常稳定工作。现有的去雾算法计算复杂度较高,仅依靠软件对视频级进行去雾有一定难度。针对这一现状,分析暗原色先验去雾算法的计算瓶... 户外图像或视频受到大气中烟雾的影响,存在模糊不清及颜色偏移等问题,在很大程度上影响户外视频系统正常稳定工作。现有的去雾算法计算复杂度较高,仅依靠软件对视频级进行去雾有一定难度。针对这一现状,分析暗原色先验去雾算法的计算瓶颈,利用高级层次综合(HLS)工具实现去雾算法的硬件化,使用流水线技术将去雾算法运行在现场可编程门阵列上。实验结果表明,在保证去雾质量的前提下,对于1080P的实时场景,可以达到每秒45帧以上的处理速度,基本满足高清视频去雾的需求。 展开更多
关键词 暗通道 去雾 视频 现场可编程门阵列 实时 高级层次综合工具
在线阅读 下载PDF
使用HLS开发FPGA异构加速系统:问题、优化方法和机遇 被引量:4
3
作者 徐诚 郭进阳 +3 位作者 李超 王靖 汪陶磊 赵杰茹 《计算机科学与探索》 CSCD 北大核心 2023年第8期1729-1748,共20页
目前,现场可编程门阵列(field programmable gate array,FPGA)由于可编程性与出色的能效比受到了学术界与工业界的青睐,但是传统的基于硬件描述语言的FPGA开发方式面临编程挑战。硬件描述语言区别于通常使用的高级语言,阻碍了软件开发者... 目前,现场可编程门阵列(field programmable gate array,FPGA)由于可编程性与出色的能效比受到了学术界与工业界的青睐,但是传统的基于硬件描述语言的FPGA开发方式面临编程挑战。硬件描述语言区别于通常使用的高级语言,阻碍了软件开发者对FPGA的利用。高层次综合(high-level synthesis,HLS)使得开发者可以从高级语言如C/C++层面直接进行FPGA硬件层面的开发,是解决这一问题的首选,受到了广泛的关注。近年来,学术界有许多关于HLS的工作,致力于解决HLS应用过程中的各类问题,并提升通过HLS开发的系统的性能。围绕使用HLS开发FPGA异构系统这一问题,以一种异构系统开发者的视角,列举了可行的优化方向。在编译优化层面,HLS工具可以通过插入编译指导与设计高效的空间探索算法,自动生成性能较高的RTL设计;在访存优化层面,HLS工具可以设立缓冲区,拆分并复制数据,以提升系统整体带宽;在并行优化层面,HLS工具可以实现语句级、任务级以及板卡级的并行。一些如DSL的技术虽然不能直接提升异构加速系统的性能,但是可以进一步提升HLS工具的可用性。最后,总结了当前HLS面临的一些挑战,并对HLS的未来研究方向进行了展望。 展开更多
关键词 现场可编程门阵列(FPGA) 高层次综合 异构系统 高级语言 编译优化
在线阅读 下载PDF
基于粒子群的HLS的自动化架构实现
4
作者 吴家飞 黄晞 施文灶 《计算机应用与软件》 北大核心 2018年第9期22-26,37,共6页
随着数据挖掘、深度学习等领域的火热的发展,在嵌入式设备实现深度学习等计算量较大的算法已经成为一种趋势。由于传统CPU和GPU平台已经难以保证算法实时性的情况下,利用FPGA高性能低功耗的特点对复杂算法实现硬件加速,有着较好的优势... 随着数据挖掘、深度学习等领域的火热的发展,在嵌入式设备实现深度学习等计算量较大的算法已经成为一种趋势。由于传统CPU和GPU平台已经难以保证算法实时性的情况下,利用FPGA高性能低功耗的特点对复杂算法实现硬件加速,有着较好的优势。利用Xilinx公司的HLS工具,基于粒子群算法设计一套硬件加速方法。该方法可实现算法优化方案的自动化寻找,极大地提升了设计效率。实验结果表明,该优化方法在寻找一般算法的较优方案上具有一定程度上的通用性。 展开更多
关键词 FPGA 模糊离散粒子群算法 高层次综合(hls)
在线阅读 下载PDF
基于卷积神经网络的内窥镜图像识别及FPGA实现
5
作者 刘生山 林金朝 +2 位作者 庞宇 王元发 周前能 《现代电子技术》 北大核心 2025年第11期156-162,共7页
为提高内窥镜病灶识别准确率和速度,减少检测仪器功耗,针对现有VGG16网络模型参数量大、FPGA加速困难等缺陷,文中提出一种改进VGG的图像识别电路系统,并将该系统首次应用于内窥镜图像病灶识别。首先,通过软件技术优化VGG算法卷积层和全... 为提高内窥镜病灶识别准确率和速度,减少检测仪器功耗,针对现有VGG16网络模型参数量大、FPGA加速困难等缺陷,文中提出一种改进VGG的图像识别电路系统,并将该系统首次应用于内窥镜图像病灶识别。首先,通过软件技术优化VGG算法卷积层和全连接层,增加自适应平均池化层;然后设计优化的卷积IP核,实现卷积和最大池化FPGA加速。为减少模型参数量,有效降低FPGA资源消耗,将改进网络层和批归一化层融合。实验结果表明,改进后的网络模型平均识别准确率为95.59%,模型大小为35.90 MB,相比原始网络准确率提升了3.24%,模型参数量减少92.99%。FPGA板级检测时间为0.55 s/张,相较ARM端和CPU端检测时间减少1509.06 s/张和0.14 s/张。通过优化和改进,提出的电路系统显著提升了内窥镜病灶识别的效率和准确率,有效降低了硬件资源消耗。 展开更多
关键词 卷积神经网络 VGG模型 FPGA 内窥镜图像识别 高层次综合工具 软硬协同
在线阅读 下载PDF
基于FPGA的永磁同步电机速度控制 被引量:1
6
作者 于长松 刘曰涛 +2 位作者 姜佩岑 邹大林 祝保财 《组合机床与自动化加工技术》 北大核心 2024年第4期131-134,140,共5页
针对永磁同步电机(PMSM)速度控制器中采用传统PI控制存在响应速度慢、超调量大以及容易出现积分饱和等问题,设计了采取Anti-Windup策略的速度控制器,并在现场可编辑逻辑门阵列(FPGA)中实现对PMSM的控制。首先采用高层次综合技术(HLS)对P... 针对永磁同步电机(PMSM)速度控制器中采用传统PI控制存在响应速度慢、超调量大以及容易出现积分饱和等问题,设计了采取Anti-Windup策略的速度控制器,并在现场可编辑逻辑门阵列(FPGA)中实现对PMSM的控制。首先采用高层次综合技术(HLS)对PMSM伺服控制关键模块完成建模,其次封装成IP核导入到工程中,最后下载到FPGA芯片上完成对PMSM的控制。经过与传统PI控制器实验比较,使用该速度控制方法超调量减小到4.3%,在负载处转速下降了14r/min,调节时间为0.01s,具有良好的动态性能和抗干扰性能,满足永磁同步电机伺服控制系统的应用需求。 展开更多
关键词 现场可编辑逻辑门阵列 高层次综合技术 永磁同步电机 Anti-Windup策略
在线阅读 下载PDF
路径规划算法的高层综合设计研究
7
作者 赖李洋 郑锫骏 +1 位作者 梁海成 李华伟 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第11期4132-4140,共9页
随着机器人自动导航技术的快速发展,基于软件实现的路径规划算法在实时性上已无法满足许多应用场景的需求,这就要求对算法进行快速高效的硬件定制,从而获得低延时的性能加速。该文以机器人路径规划中的经典A*算法为对象,通过构建面向硬... 随着机器人自动导航技术的快速发展,基于软件实现的路径规划算法在实时性上已无法满足许多应用场景的需求,这就要求对算法进行快速高效的硬件定制,从而获得低延时的性能加速。该文以机器人路径规划中的经典A*算法为对象,通过构建面向硬件设计的C/C++数据结构和函数流程优化,采用高层综合(HLS)实现快速的硬件架构探索和选取较优的设计方案,并完成硬件FPGA综合。实验数据表明,相较于传统寄存器传输级(RTL)开发模式,基于HLS开发模式的路径规划算法在FPGA实现上在开发效率、硬件性能和资源占用率上都有显著提升,验证了高层综合在硬件定制中的可行性和成本优势。 展开更多
关键词 机器人自动导航 路径规划算法 高层综合 算法硬件加速
在线阅读 下载PDF
面向高层次综合的自定义指令自动识别方法
8
作者 肖成龙 林军 +1 位作者 王珊珊 王宁 《计算机应用》 CSCD 北大核心 2018年第7期2024-2031,2036,共9页
针对在高层次综合(HLS)过程中性能提升、功耗降低困难等问题,提出了一种面向高层次综合的自定义指令自动识别方法。在高层次综合过程之前实现对自定义指令的枚举和选择,从而为高层次综合提供通用的自定义指令识别方法。首先,将高层次源... 针对在高层次综合(HLS)过程中性能提升、功耗降低困难等问题,提出了一种面向高层次综合的自定义指令自动识别方法。在高层次综合过程之前实现对自定义指令的枚举和选择,从而为高层次综合提供通用的自定义指令识别方法。首先,将高层次源代码转换为控制数据流图(CDFG),实现了对源代码的预处理;其次,基于控制数据流图内的数据流图(DFG),采用子图枚举算法以自底而上的方式枚举出所有连通凸子图,有效提高了用户可灵活修改约束条件的能力;然后,分别从面积、性能和代码量三个角度考虑,利用子图选择算法选择部分最佳子图作为最终的自定义指令;最后,用所选的自定义指令重新生成新代码作为高层次综合工具的输入。与传统高层次综合相比,采用基于出现频率的模式选择可平均减少19.1%的面积,采用基于关键路径的子图选择可平均减少22.3%的时延。此外,与TD算法相比,所提算法的枚举效率平均提升70.8%。实验结果表明,自定义指令自动识别方法使高层次综合在电路设计中能够显著地提升性能,减少面积和代码量。 展开更多
关键词 自定义指令 数据流图 子图枚举算法 子图选择算法 高层次综合
在线阅读 下载PDF
基于FPGA的高性能可编程数据平面研究综述 被引量:6
9
作者 赵鹏 程光 赵德宇 《软件学报》 EI CSCD 北大核心 2023年第11期5330-5354,共25页
可编程数据平面(PDP)一方面支持网络应用的卸载与加速,给网络应用带来了革命性的发展机遇;另一方面支持新协议、新服务的快速实现和部署,促进了网络创新和演进,是近年来网络领域的研究热点.FPGA因其通用的计算架构、丰富的片内资源和扩... 可编程数据平面(PDP)一方面支持网络应用的卸载与加速,给网络应用带来了革命性的发展机遇;另一方面支持新协议、新服务的快速实现和部署,促进了网络创新和演进,是近年来网络领域的研究热点.FPGA因其通用的计算架构、丰富的片内资源和扩展接口提供了多种可编程数据平面的具体实现,支持更广范围的应用场景.同时,FPGA还为探索更通用的可编程数据平面抽象提供了可能.因此,基于FPGA的可编程数据平面受到了学术界与产业界的广泛关注.首先分类别阐述基于FPGA的可编程数据平面(F-PDP)抽象.接着,介绍基于F-PDP快速构建网络应用的关键技术的研究进展.之后,介绍基于F-PDP的新型可编程网络设备.此外,从提升网络性能、构建网络测量框架以及部署网络安全应用这3个方面,详细梳理近年来基于F-PDP的应用研究成果.最后,探讨F-PDP未来可能的研究趋势. 展开更多
关键词 可编程数据平面 现场可编程门阵列(FPGA) 编程抽象 高层次综合(hls)
在线阅读 下载PDF
基于ZYNQ的卷积神经网络加速器设计 被引量:5
10
作者 吴健 顾明剑 +2 位作者 曾长紊 邵春沅 范余茂 《计算机工程与设计》 北大核心 2022年第6期1572-1581,共10页
针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解... 针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解、并行展开充分发挥FPGA并行计算的优势。为验证卷积神经网络加速器的加速效果,将YOLO目标检测模型进行部署。实验结果表明,在PYNQ-Z2上达到了39.39 GOP/s的计算性能,是intel i5-2400 CPU的3.4倍,是ARM-Cortex A9 CPU的147.5倍。在相同FPGA平台上与之前的工作相较也有更高的性能。 展开更多
关键词 卷积神经网络(CNN) 现场可编程门阵列(FPGA) 高层次综合(hls) 硬件加速器 目标检测
在线阅读 下载PDF
基于卷积神经网络的单图像去雾模型硬件重构加速方法 被引量:2
11
作者 王官军 简春莲 向强 《计算机应用》 CSCD 北大核心 2022年第10期3184-3190,共7页
针对基于卷积神经网络(CNN)的单图像去雾模型在移动/嵌入式端部署难,不易用做实时视频去雾的问题,提出一种基于Zynq片上系统(SoC)的去雾模型硬件重构加速方法。首先,提出量化-反量化算法,对两个代表去雾模型进行量化;其次,基于视频流存... 针对基于卷积神经网络(CNN)的单图像去雾模型在移动/嵌入式端部署难,不易用做实时视频去雾的问题,提出一种基于Zynq片上系统(SoC)的去雾模型硬件重构加速方法。首先,提出量化-反量化算法,对两个代表去雾模型进行量化;其次,基于视频流存储器架构和软硬件协同、流水线等技术以及高级综合(HLS)工具,对量化后的去雾模型硬件重构并生成具有高性能扩展总线接口(AXI4)的硬件IP核。实验结果表明,在保证去雾效果的前提下,可以实现模型参数从float32到int5(5 bit)的量化,从而节省约84.4%的存储空间;所生成硬件IP核的最高像素时钟频率为182 Mpixel/s,能够实现1080P@60 frame/s的视频去雾;单帧640×480的雾图去雾仅需2.4 ms,而片上功耗仅为2.25 W。这种生成带有标准总线接口的硬件IP核也便于跨平台移植和部署,从而可以扩大这类去雾模型的应用范围。 展开更多
关键词 去雾 视频直接存储器访问 模型量化 模型重构 硬件IP核 高级综合
在线阅读 下载PDF
基于FPGA的可配置神经网络硬件设计 被引量:3
12
作者 訾晶 张旭欣 +1 位作者 王钰 金婕 《传感器与微系统》 CSCD 2020年第12期92-95,共4页
利用现场可编程门阵列(FPGA)器件可配置的优势,在FPGA上实现卷积神经网络,将训练后的网络参数按层、分块存放在FPGA的片上内存中,针对每层网络配置独立的计算阵列。利用高层次综合工具以及C++作为设计语言,调整优化硬件结构的设计,最后... 利用现场可编程门阵列(FPGA)器件可配置的优势,在FPGA上实现卷积神经网络,将训练后的网络参数按层、分块存放在FPGA的片上内存中,针对每层网络配置独立的计算阵列。利用高层次综合工具以及C++作为设计语言,调整优化硬件结构的设计,最后以CIFAR10数据集验证新结构的设计,将原有结构的图像分类效率提高了31%,同时降低了硬件资源占用。 展开更多
关键词 现场可编程门阵列 卷积神经网络 计算阵列 片上内存 高层次综合
在线阅读 下载PDF
基于FPGA动态重构的快速车牌识别系统 被引量:3
13
作者 訾晶 张旭欣 金婕 《传感器与微系统》 CSCD 2019年第12期69-72,共4页
FPGA有限的片上资源限制了复杂神经网络的实现,通过动态部分重构技术,完成2种软硬件方案设计。与纯软件方式相比,网络执行速度提高了3倍以上;自制车牌字符数据集,在Caffe网络框架下实现了99.45%的训练精度;最终,基于PYNQ-Z1开发板,完成... FPGA有限的片上资源限制了复杂神经网络的实现,通过动态部分重构技术,完成2种软硬件方案设计。与纯软件方式相比,网络执行速度提高了3倍以上;自制车牌字符数据集,在Caffe网络框架下实现了99.45%的训练精度;最终,基于PYNQ-Z1开发板,完成了快速车牌识别系统的设计。 展开更多
关键词 现场可编程门阵列 卷积神经网络 高层次综合 动态部分重构 车牌识别
在线阅读 下载PDF
高性能人脸识别加速器优化设计及FPGA实现 被引量:3
14
作者 吴进 张伟华 +1 位作者 席萌 代巍 《计算机工程与应用》 CSCD 北大核心 2020年第22期48-54,共7页
计算机视觉的快速发展对嵌入式产品的系统性能要求越来越高,传统的现场可编程门阵列(Field Programmable Gate Array,FPGA)平台存在计算吞吐未能很好匹配内存带宽,通用处理器对卷积神经网络(Convolutional Neural Network,CNN)的实现效... 计算机视觉的快速发展对嵌入式产品的系统性能要求越来越高,传统的现场可编程门阵列(Field Programmable Gate Array,FPGA)平台存在计算吞吐未能很好匹配内存带宽,通用处理器对卷积神经网络(Convolutional Neural Network,CNN)的实现效率不高,未能满足性能要求等问题。针对以上设计瓶颈,使用经典的LeNet-5神经网络模型,在Xilinx ZC706嵌入式开发平台上设计了一个高性能的人脸识别神经网络加速器,在高层次综合(High Level Synthesis,HLS)工具的基础上通过存储优化、定点量化、运算优化等方法对神经网络模型进行优化改进,实现了7层的CNN加速器。实验结果表明,CNN加速器的工作频率为200 MHz,相较于CPU,加速器实现了126倍加速,相较于GPU速度提升10倍以上,并且功耗仅为2.62 W。 展开更多
关键词 CNN加速器 现场可编程门阵列(FPGA) 高层次综合(hls) 存储优化 定点量化
在线阅读 下载PDF
基于FPGA的高光谱异常目标检测RXD算法加速方案
15
作者 郑毓轩 李云松 +2 位作者 师艳子 曲家慧 谢卫莹 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2018年第12期2556-2567,共12页
高光谱图像在带来丰富光谱信息的同时,其数据量大和维数高的特性也使得各种目标检测算法进行处理时往往产生庞大的运算量,所以采用可以实现高光谱异常目标检测算法的高速处理方案显得尤为迫切和重要。考虑到现场可编程门阵列(FPGA)强大... 高光谱图像在带来丰富光谱信息的同时,其数据量大和维数高的特性也使得各种目标检测算法进行处理时往往产生庞大的运算量,所以采用可以实现高光谱异常目标检测算法的高速处理方案显得尤为迫切和重要。考虑到现场可编程门阵列(FPGA)强大的并行计算能力和极具灵活的设计方式,针对高光谱异常目标检测RXD算法中协方差矩阵及其逆的计算量过大的问题,以分块并行和正交三角(QR)分解为主要加速思想,利用高层次综合(HLS)工具对算法进行优化,提出了RXD算法在FPGA平台上的加速方案。实验结果表明,所提出的基于FPGA平台的加速方案可以在保持算法检测性能的同时达到相较于CPU实现7. 04倍的加速,验证了加速方案的正确有效性。 展开更多
关键词 高光谱异常目标检测 RXD算法 分块并行 正交三角(QR)分解 高层次综合(hls) 加速方案
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部