期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
提升高性能计算程序性能可移植性的领域特定语言 被引量:2
1
作者 李韦 文渊博 +1 位作者 孙广中 陈云霁 《高技术通讯》 EI CAS 北大核心 2020年第2期141-149,共9页
高性能计算(HPC)应用程序大多基于标准函数库和编译制导语句进行编写,这种做法可以有效提升高性能计算应用的可编程性和可移植性。相比传统优化方法中针对单个函数库进行优化,本文的研究将优化注意力放到不同函数库调用之间,提出了一种... 高性能计算(HPC)应用程序大多基于标准函数库和编译制导语句进行编写,这种做法可以有效提升高性能计算应用的可编程性和可移植性。相比传统优化方法中针对单个函数库进行优化,本文的研究将优化注意力放到不同函数库调用之间,提出了一种用于高性能函数库的领域特定语言及编译器,实现了对原始C代码的源代码到源代码优化,解决了因为胶水代码而产生的高性能计算程序性能可移植性欠佳的问题。实验结果表明,在真实应用中,使用支持该领域特定语言的编译器,在通用处理器硬件架构上,可以取得相比原始版本最高4.89倍的优化加速;而在实验性的异构高峰值加速器架构上,可以取得最高8.21倍的优化加速。 展开更多
关键词 高性能计算(HPC) 可移植性 胶水代码 领域特定语言 编译器
在线阅读 下载PDF
多核处理器系统I/O访存优化研究 被引量:1
2
作者 李鹏 曾露 王焕东 《高技术通讯》 EI CAS 北大核心 2018年第6期488-499,共12页
本文提出了一种多核处理器自适应I/O直接缓存访问(ADCA)的方法以提升I/O访存的性能,降低对其他程序的影响。与传统直接缓存访问(DCA)不同的是,该方法利用了LRU栈特性,通过采样辅助标签目录的方式动态调整DCA可使用的cache空间,同时对I/... 本文提出了一种多核处理器自适应I/O直接缓存访问(ADCA)的方法以提升I/O访存的性能,降低对其他程序的影响。与传统直接缓存访问(DCA)不同的是,该方法利用了LRU栈特性,通过采样辅助标签目录的方式动态调整DCA可使用的cache空间,同时对I/O数据的替换和写内存策略进行优化。实验结果表明,与DCA方式相比,该方式使得I/O带宽提升了大约10%,而与SPEC和采用直接内存访问(DMA)方式的网络测试程序同时运行相比,SPEC定点和浮点性能分别提升了11. 5%和8. 9%。 展开更多
关键词 直接缓存访问(DCA) LRU栈特性 自适应 伪划分 优先替换
在线阅读 下载PDF
多核片上系统全局主动访存优化研究
3
作者 李鹏 曾露 +1 位作者 王焕东 章隆兵 《高技术通讯》 EI CAS 北大核心 2019年第3期203-212,共10页
本文提出了一种多核片上系统(MPSoC)全局主动访存调度优化方法(GPMS)来提升系统的访存性能。该方法利用IP(intellectual property)核的访存局部性和延迟容忍度,通过限制访存冲突的IP核使其在一个调度窗口内分别连续访问内存,从而减少访... 本文提出了一种多核片上系统(MPSoC)全局主动访存调度优化方法(GPMS)来提升系统的访存性能。该方法利用IP(intellectual property)核的访存局部性和延迟容忍度,通过限制访存冲突的IP核使其在一个调度窗口内分别连续访问内存,从而减少访存冲突次数,同时不存在访存冲突的IP核在调度窗口内一直保持内存的使用权,从而可以充分发挥内存控制器端访存队列调度的自由度和DRAM的bank级并行性。实验结果表明,当IP核间访存冲突严重时,该方法相比访存队列调度方式可以提升1到2倍的访存带宽。 展开更多
关键词 多核片上系统(MPSoC) 访存调度 访存局部性 延迟容忍度 服务质量
在线阅读 下载PDF
基于电路结构的测试捕获功耗优化方法 被引量:2
4
作者 许超 陈华军 +2 位作者 郝守青 卢新元 章隆兵 《高技术通讯》 EI CAS 北大核心 2019年第5期413-422,共10页
研究了扫描结构和测试捕获功耗优化技术,考虑到现有的测试捕获功耗优化技术会降低单个测试向量覆盖的故障点或存在硬件开销过大的问题,提出一种新的基于电路结构的测试捕获功耗优化方法。该方法充分利用芯片内部的电路结构,分析扫描单... 研究了扫描结构和测试捕获功耗优化技术,考虑到现有的测试捕获功耗优化技术会降低单个测试向量覆盖的故障点或存在硬件开销过大的问题,提出一种新的基于电路结构的测试捕获功耗优化方法。该方法充分利用芯片内部的电路结构,分析扫描单元之间扇入扇出的关系,并根据分析结果规划扫描单元在捕获阶段的捕获顺序以及需要修改结构的扫描单元。根据扫描链的条数添加相应的时钟控制结构,并提出一种新的扫描单元结构来避免数据捕获违例问题,在不增加测试向量的前提下降低测试捕获功耗。在ITC’99基准电路上的实验结果表明,采用上述优化方法后扫描单元的替换率在50%左右,捕获阶段的功耗能降低40%以上,扫描链条数越多,优化效果越明显。 展开更多
关键词 扫描单元 电路结构 测试捕获功耗 时钟控制结构 数据捕获违例
在线阅读 下载PDF
脚本语言执行引擎的模糊测试技术综述 被引量:1
5
作者 孙力立 武成岗 +3 位作者 许佳丽 张培华 唐博文 谢梦瑶 《高技术通讯》 CAS 2022年第12期1226-1235,共10页
脚本语言作为解释性语言,需要由脚本语言执行引擎动态解释执行。由于脚本语言的广泛应用,其执行引擎也在各种平台上得到广泛部署。因此,脚本语言执行引擎中的安全漏洞往往具有很高的安全影响。模糊测试作为一种有效的自动化漏洞挖掘方法... 脚本语言作为解释性语言,需要由脚本语言执行引擎动态解释执行。由于脚本语言的广泛应用,其执行引擎也在各种平台上得到广泛部署。因此,脚本语言执行引擎中的安全漏洞往往具有很高的安全影响。模糊测试作为一种有效的自动化漏洞挖掘方法,在挖掘脚本语言执行引擎的软件缺陷和漏洞方面也有重要作用。本文对近年来国内外学者在该领域的研究进行了系统的总结,介绍了模糊测试和脚本语言执行引擎的基本概念,整理了现有的脚本语言执行引擎的模糊测试工作的评价指标,分类梳理了脚本语言执行引擎的模糊测试工作,阐述了该领域所关注的研究问题和解决方法。最后,根据现有工作的不足和研究趋势,提出具有潜力的下一步研究方向。 展开更多
关键词 脚本语言执行引擎 模糊测试 漏洞挖掘 软件缺陷检测
在线阅读 下载PDF
片上波动影响下的Mesh结构时钟系统的性能分析方法 被引量:1
6
作者 王昊 杨梁 《高技术通讯》 北大核心 2017年第7期587-595,共9页
考虑到片上波动对Mesh结构时钟系统的影响,提出了一种基于统计理论的时钟系统性能分析方法。该方法的核心思想是在真实的解析函数难以求解的情况下,采用统计分析方法对该函数进行拟合。从两方面着手研究:如何拟合时钟偏差的概率分布;如... 考虑到片上波动对Mesh结构时钟系统的影响,提出了一种基于统计理论的时钟系统性能分析方法。该方法的核心思想是在真实的解析函数难以求解的情况下,采用统计分析方法对该函数进行拟合。从两方面着手研究:如何拟合时钟偏差的概率分布;如何拟合前驱动层时钟路径的时延对时钟偏差的影响。实验证明,时钟偏差的概率分布可用正态分布拟合,而前驱动层时钟路径的时延与时钟偏差的关系可采用多元线性回归模型进行拟合。因此,这套拟合方法使设计人员能够通过正态分布的概率分布函数评估不确定性约束是否合理;在设计后期,根据多元线性回归模型调节优化前驱动层,提高时钟系统的性能。 展开更多
关键词 时钟Mesh 正态分布 多元线性回归 片上波动
在线阅读 下载PDF
高性能GPU模拟器驱动设计研究 被引量:4
7
作者 赵士彭 张立志 +2 位作者 赵皓宇 苏孟豪 刘苏 《高技术通讯》 EI CAS 北大核心 2020年第5期435-442,共8页
在研究GPU驱动设计时,考虑到驱动的开发量较大,提出了一种基于Mesa开源驱动框架的GPU模拟器驱动设计方法,在Mesa开源驱动的开发框架下,实现了一整套高性能GPU模拟器的驱动设计。本设计可适配OpenGL等多款应用程序接口(API),同时基于开... 在研究GPU驱动设计时,考虑到驱动的开发量较大,提出了一种基于Mesa开源驱动框架的GPU模拟器驱动设计方法,在Mesa开源驱动的开发框架下,实现了一整套高性能GPU模拟器的驱动设计。本设计可适配OpenGL等多款应用程序接口(API),同时基于开源框架,大幅减小了开发难度。为了适配GPU模拟器的可编程性,在驱动设计中还集成了GPU的编译器设计,可将GLSL等编程语言转换为GPU中着色器的汇编代码,由着色器进行计算。根据模拟器驱动设计,提出了一套高性能GPU模拟器的接口设计,为模拟器各个模块提供了一套可读的驱动接口,指导了模拟器的结构设计。 展开更多
关键词 开源驱动 应用程序接口(API) 驱动设计 GPU模拟器 模拟器接口
在线阅读 下载PDF
基于授权机制的抗扫描旁路攻击方法研究 被引量:1
8
作者 卢新元 陈华军 +1 位作者 许超 王剑 《高技术通讯》 EI CAS 北大核心 2020年第9期875-883,共9页
研究了针对加密电路的扫描旁路攻击方法和安全扫描设计技术,考虑到现有的安全扫描设计存在故障覆盖率损失或者抵抗攻击性不足的问题,提出一种新的基于授权机制的抗扫描旁路攻击方法。该方法充分利用功能指令序列多样性和高复杂度的特点... 研究了针对加密电路的扫描旁路攻击方法和安全扫描设计技术,考虑到现有的安全扫描设计存在故障覆盖率损失或者抵抗攻击性不足的问题,提出一种新的基于授权机制的抗扫描旁路攻击方法。该方法充分利用功能指令序列多样性和高复杂度的特点,通过功能指令序列对测试模式进行授权,将测试模式分为非安全测试模式和安全测试模式。非安全测试模式下,加密电路的密钥被屏蔽,无法通过扫描测试获取。安全测试模式下,加密电路可以进行正常的扫描测试。实验结果表明,采用上述基于授权机制的抗扫描旁路攻击方法的电路后,不仅可以保证安全测试模式下扫描测试故障覆盖率不变,而且非安全测试模式下攻击者无法通过现有的攻击方式获取密钥。同原始电路相比,该方法只需要添加极少的硬件电路,面积开销仅为0.3%。 展开更多
关键词 扫描旁路攻击 密钥 功能指令 安全测试模式 扫描设计
在线阅读 下载PDF
基于电路结构的测试移位功耗优化方法
9
作者 许超 孟祥刚 +1 位作者 陈华军 卢新元 《高技术通讯》 EI CAS 北大核心 2019年第6期523-529,共7页
研究了扫描结构和测试功耗优化技术,考虑到现有的修改扫描单元结构降低测试移位功耗的方法存在冗余开销的问题,提出一种新的基于电路结构的测试移位功耗优化方法。该方法充分利用芯片内部的电路结构,通过分析扫描单元的扇出结构及其控制... 研究了扫描结构和测试功耗优化技术,考虑到现有的修改扫描单元结构降低测试移位功耗的方法存在冗余开销的问题,提出一种新的基于电路结构的测试移位功耗优化方法。该方法充分利用芯片内部的电路结构,通过分析扫描单元的扇出结构及其控制值,并根据分析结果和权重分配规则动态规划扫描单元的优化顺序,减少处理扫描单元的数量,避免产生冗余的测试开销。同时保证组合逻辑在移位过程中保持不翻转或者尽量不翻转,从而达到降低测试移位功耗的目的。在ITC’99基准电路上的实验结果表明,采用上述优化方法后组合逻辑的移位功耗降低了8.18%到96.98%,时序逻辑的移位功耗降低了41.92%到71.74%,与现有修改扫描单元的方法相比,面积开销节省了6.71%到20.95%。 展开更多
关键词 扫描单元 电路结构 测试移位功耗 动态规划 测试开销
在线阅读 下载PDF
基于社区结构的图数据预取器设计
10
作者 李策 章隆兵 《高技术通讯》 CAS 2022年第12期1251-1261,共11页
由于图数据规模庞大且结构不规则,图应用运行时会产生大量高延迟内存访问,大幅度降低了通用处理器的运行效率。本文采用软硬件结合的方式设计了图计算专用预取器,利用图数据访存特点以及社区结构的存储规律,通过对图数据进行混合预取,... 由于图数据规模庞大且结构不规则,图应用运行时会产生大量高延迟内存访问,大幅度降低了通用处理器的运行效率。本文采用软硬件结合的方式设计了图计算专用预取器,利用图数据访存特点以及社区结构的存储规律,通过对图数据进行混合预取,缩短了图计算访存的延迟,在含有较多社区的图数据集上获得了显著的性能收益。在不同图算法与图数据集上的实验表明,该预取器相对于无预取情况、流式预取器及传统图数据预取器,分别实现了65%~176%、6%~21%和4%~18%的性能提升。 展开更多
关键词 图计算 预取器 社区结构 存储规律 及时性
在线阅读 下载PDF
一种面向嵌入式图形处理器的访存子系统结构设计
11
作者 赵士彭 张立志 章隆兵 《高技术通讯》 CAS 2022年第2期152-160,共9页
嵌入式图形处理器(GPU)随着访存数据量越来越大,访存子系统在性能、面积及功耗等方面的瓶颈已经日益凸显。针对图形处理器的数据特点及访存需求,考虑到嵌入式图形处理器面积及功耗的约束,结合Godson GPU架构平台,提出了一种面向嵌入式... 嵌入式图形处理器(GPU)随着访存数据量越来越大,访存子系统在性能、面积及功耗等方面的瓶颈已经日益凸显。针对图形处理器的数据特点及访存需求,考虑到嵌入式图形处理器面积及功耗的约束,结合Godson GPU架构平台,提出了一种面向嵌入式图形处理器的访存子系统结构设计。该设计主要针对图形处理流水线的访存特点,对cache的结构进行了优化,并提出了一种基于链表方式的结构,提高了访存的效率,减少了面积且降低了功耗。为了使访存子系统适配并行图形流水线,提出了一种屏幕分区方法,可以在消除cache的一致性问题的同时,使访存子系统的负载更加均衡。该设计为嵌入式图形处理器的访存子系统设计提供了借鉴。 展开更多
关键词 图形处理器(GPU) 访存子系统 嵌入式处理器 链表设计
在线阅读 下载PDF
一种基于图形处理器压缩结构的预取结构设计
12
作者 赵士彭 张立志 章隆兵 《高技术通讯》 CAS 2022年第4期351-357,共7页
图形处理器(GPU)访存利用率已经成为影响其性能的关键瓶颈之一。在处理器设计中,访存的预取结构设计成为了提高访存利用率的主要方法之一。结合图形处理器的访存密集的特点,在提高预取性能的前提下,减小影响图形流水线正常效率成为热门... 图形处理器(GPU)访存利用率已经成为影响其性能的关键瓶颈之一。在处理器设计中,访存的预取结构设计成为了提高访存利用率的主要方法之一。结合图形处理器的访存密集的特点,在提高预取性能的前提下,减小影响图形流水线正常效率成为热门的研究方向。本文基于一种图形处理器无损压缩的结构,提出了一套图形处理器的预取结构设计。本预取结构设计可在访存密集型的图形流水线中有效提高访存利用率,并不影响当前图形流水线的效率。实验结果表明,在Godson GPU图形处理器平台上,与传统预取结构相比,针对访存密集型测试程序,cache命中率可以提高15%以上。针对访存空闲的测试程序,该设计不会对流水线产生负面影响。 展开更多
关键词 图形处理器(GPU) 访存子系统 预取结构 压缩结构
在线阅读 下载PDF
基于功耗计数器的处理器功耗实时估算方法
13
作者 贾凡 章隆兵 《高技术通讯》 CAS 北大核心 2024年第1期25-32,共8页
针对现有的2类处理器功耗实时估算方法的不足,本文开发了一种基于功耗计数器的处理器功耗实时估算方法。该方法结合了基于性能事件计数器和基于电路信号方法的优点,利用功耗计数器记录与处理器功耗密切相关的电路信号的变化次数,能够以... 针对现有的2类处理器功耗实时估算方法的不足,本文开发了一种基于功耗计数器的处理器功耗实时估算方法。该方法结合了基于性能事件计数器和基于电路信号方法的优点,利用功耗计数器记录与处理器功耗密切相关的电路信号的变化次数,能够以较小的观测粒度实时估算处理器的功耗,并且具有较低的硬件开销。本文在龙芯GS364处理器上实现并评估了该方法。结果表明,使用16个功耗计数器可以在512个时钟周期的粒度内实现0.83%的估算误差,与此同时,它的硬件开销只占处理器总面积的0.063%。 展开更多
关键词 功耗估算 功耗计数器 功耗管理 性能事件计数 LASSO回归
在线阅读 下载PDF
基于软硬件协同的细粒度安全域隔离机制
14
作者 李亚伟 章隆兵 王剑 《高技术通讯》 CAS 北大核心 2024年第1期33-45,共13页
基于内存篡改的攻击能够恶意地修改程序执行环境的关键数据,给程序提供一个安全可信的执行环境是抑制恶意软件的有效手段。本文提出了一种基于软硬件协同的解决方案,能够以函数调用为粒度,为程序执行提供相对隔离的安全执行环境。为了... 基于内存篡改的攻击能够恶意地修改程序执行环境的关键数据,给程序提供一个安全可信的执行环境是抑制恶意软件的有效手段。本文提出了一种基于软硬件协同的解决方案,能够以函数调用为粒度,为程序执行提供相对隔离的安全执行环境。为了配合软件,在底层提供了2大硬件支撑:load/store指令在访存时都要进行地址检查,同时也设置了访问属性;在硬件页表上增加了函数调用隔离域(CFID),在TLB转换时进行安全隔离的检查。提供了2种不同场合的数据共享访问策略,在GEM5上实现了原型系统,通过运行安全测试集,能够有效地隔离非安全环境。相比于虚拟机和特权级切换的方法,本文的硬件实现几乎没有切换损耗。在SPEC CPU 2006的测试集中,本文提出的硬件隔离机制总体性能损耗低于3%。 展开更多
关键词 细粒度 隔离执行 硬件安全 软硬件协同
在线阅读 下载PDF
LFF:一种面向大数据应用的众核处理器访存公平性调度机制 被引量:2
15
作者 张洋 李文明 +5 位作者 叶笑春 王达 范东睿 李宏亮 唐志敏 孙凝晖 《高技术通讯》 北大核心 2017年第2期103-111,共9页
研究了众核处理器的访存公平性问题。针对众核处理器距离访存资源较近的处理单元拥有较大的访存带宽而造成的访存公平性问题,提出了一种面向大数据应用的众核处理器访存公平性调度机制:最少最远(LFF)优先访存。这种机制的原理如下:依据... 研究了众核处理器的访存公平性问题。针对众核处理器距离访存资源较近的处理单元拥有较大的访存带宽而造成的访存公平性问题,提出了一种面向大数据应用的众核处理器访存公平性调度机制:最少最远(LFF)优先访存。这种机制的原理如下:依据处理单元距离访存资源的距离以及处理单元访存的次数来调度访存顺序,以保证各个处理单元的公平性。首先,访问次数较少的节点被赋予更高的访存优先权。其次,在具有相同访问次数的节点中,距离更远的节点优先访存。再次,在相同距离的节点中,已被选中优先次数少的有优先级。实验评估表明,该调度机制能够有效解决众核处理器的访存公平性问题,其公平性调度效果优于FR-FCFS,PAR-BS、ATLAS。在1024核情况下,系统异步率由FR-FCFS的15.5%降低到1.89%。 展开更多
关键词 大数据 众核处理器 公平性 调度
在线阅读 下载PDF
一种基于硬件的快速确定性重放方法 被引量:1
16
作者 章隆兵 李磊 +2 位作者 肖俊华 贺晓 王剑 《高技术通讯》 北大核心 2017年第6期487-494,共8页
针对多核处理器上并行程序执行不确定性所造成的并行调试难问题,提出了一种基于硬件的快速确定性重放方法——时间切割者。该方法采用面向并行的记录机制来区分出原执行中并行执行的访存指令块和非并行执行的指令块,并在重放执行中避免... 针对多核处理器上并行程序执行不确定性所造成的并行调试难问题,提出了一种基于硬件的快速确定性重放方法——时间切割者。该方法采用面向并行的记录机制来区分出原执行中并行执行的访存指令块和非并行执行的指令块,并在重放执行中避免串行执行那些在原执行中并行执行的访存指令块,从而使得重放执行的性能开销小。在多核模拟器Sim-Godson上的仿真实验结果表明:该方法的重放速度快,其性能开销仅为2%左右。此外,该方法还具有硬件支持简单特点,未来有望应用于国产多核处理器研制中。 展开更多
关键词 多核处理器 并行调试 确定性重放 多核模拟器 全局时钟
在线阅读 下载PDF
NDP-Ledger:面向区块链应用的通用高通量加速架构
17
作者 安述倩 李文明 +5 位作者 范志华 吴海彬 吴萌 王达 张浩 唐志敏 《高技术通讯》 EI CAS 北大核心 2020年第11期1093-1103,共11页
区块链技术由于去中心化及不可篡改等特性,广泛应用于数字货币、支付交易等领域,其算法对计算能力和存储访问能力有较高要求,导致传统冯诺依曼结构在面向区块链应用时能效比较低。3D堆叠存储器因可以缓解冯诺依曼结构的访存瓶颈,成为了... 区块链技术由于去中心化及不可篡改等特性,广泛应用于数字货币、支付交易等领域,其算法对计算能力和存储访问能力有较高要求,导致传统冯诺依曼结构在面向区块链应用时能效比较低。3D堆叠存储器因可以缓解冯诺依曼结构的访存瓶颈,成为了热门研究方向之一。本文基于3D堆叠存储器技术及数据流执行模式,提出了一种面向区块链应用的高通量近数据处理(NDP)架构,NDP-Ledger。本文深入分析和论证了区块链应用的计算特征及3D堆叠存储技术在区块链应用中的适应性问题,并基于数据流执行模式设计了一种通用的高并发区块链加速体系结构,使区块链加速器在满足通用性的前提下提高处理性能。模拟评估结果表明,本文提出的区块链通用加速器结构,在典型区块链应用处理方面的性能优于主流的CPU和GPU。 展开更多
关键词 区块链 3D堆叠存储 近数据处理(NDP) 数据流 通用加速器结构
在线阅读 下载PDF
多核片上系统主控式内存控制器预取
18
作者 李鹏 王剑 +1 位作者 曾露 王焕东 《高技术通讯》 EI CAS 北大核心 2019年第5期423-431,共9页
本文提出了一种多核片上系统(MPSoC)主控式内存控制器预取方法来解决多IP核导致内存控制器端预取资源竞争的问题。该方法综合考虑了不同访存流预取的及时性和访存冲突性,将预取数据及时性差的访存流进行过滤,使之在stream buffer资源紧... 本文提出了一种多核片上系统(MPSoC)主控式内存控制器预取方法来解决多IP核导致内存控制器端预取资源竞争的问题。该方法综合考虑了不同访存流预取的及时性和访存冲突性,将预取数据及时性差的访存流进行过滤,使之在stream buffer资源紧张的情况下不占用流缓冲空间,同时利用流缓冲地址记录表使得存在冲突的访存流优先使用stream buffer,进一步降低了访存冲突的概率。实验表明,该方法可以提升近20%的最大访存带宽,而对带宽需求小的访存IP核可以降低60%左右的访存延迟。 展开更多
关键词 多核片上系统(MPSoC) 及时性 访存冲突 预取 流缓冲
在线阅读 下载PDF
面向目标检测的卷积神经网络优化方法 被引量:3
19
作者 张志超 王剑 +1 位作者 章隆兵 肖俊华 《高技术通讯》 CAS 2022年第3期227-238,共12页
针对星载等功耗受限平台下遥感影像目标检测存在的高准确率、低功耗以及高吞吐量等要求,本文提出了一种面向目标检测的现场可编程门阵列(FPGA)卷积神经网络(CNN)优化方法。采用数据流调度技术以及基于乘法矩阵与前向加法链的卷积计算阵... 针对星载等功耗受限平台下遥感影像目标检测存在的高准确率、低功耗以及高吞吐量等要求,本文提出了一种面向目标检测的现场可编程门阵列(FPGA)卷积神经网络(CNN)优化方法。采用数据流调度技术以及基于乘法矩阵与前向加法链的卷积计算阵列设计对浮点卷积神经网络模型进行加速。利用该方法在FPGA开发板上实现了浮点卷积目标检测网络,在应用中达到了与原模型一致的准确率,平均准确率为97.59%,吞吐量达到了Titan X的22倍。与同类的FPGA加速浮点卷积方法对比,该方法的吞吐量以及能效比达到了最优。实验数据表明,该方案突破了浮点卷积加速的线速吞吐难点,解决了应用中存在的功耗、准确率以及吞吐量三者制衡的问题。 展开更多
关键词 卷积神经网络(CNN) 现场可编程门阵列(FPGA) 数据流调度 目标检测 加速
在线阅读 下载PDF
基于FPGA的浮点可分离卷积神经网络加速方法 被引量:2
20
作者 张志超 王剑 +1 位作者 章隆兵 肖俊华 《高技术通讯》 CAS 2022年第5期441-453,共13页
针对可分离卷积神经网络在星载飞机目标型号分类应用中存在的速度瓶颈以及功耗限制等问题,提出了一种基于现场可编程门阵列(FPGA)数据流调度的浮点深度分离卷积神经网络加速方法,对通用MobileNet的图像分类模型进行加速。采用基于乘法... 针对可分离卷积神经网络在星载飞机目标型号分类应用中存在的速度瓶颈以及功耗限制等问题,提出了一种基于现场可编程门阵列(FPGA)数据流调度的浮点深度分离卷积神经网络加速方法,对通用MobileNet的图像分类模型进行加速。采用基于乘法矩阵与前向加法树的深度分离卷积计算阵列设计,解决了深度分离卷积浮点加速的线速吞吐瓶颈。实验结果表明,基于FPGA的目标分类速度为633 FPS,功耗为22.226 W,运算性能为236.04 GFLOPS,计算速度达到了Titan Xp GPU的1.10~2.61倍,计算效能是Titan Xp GPU的7.44~18.66倍。在同类基于FPGA的浮点卷积加速方案中,该方法在运算性能及能效比上达到了最优。同时,该方法提供了与原模型一致性的图像分类准确率,解耦合了软硬件协同开发流程,降低了应用开发人员使用FPGA加速计算的门槛。 展开更多
关键词 深度可分离卷积 现场可编程门阵列(FPGA) 数据流调度 加速 图像分类
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部