期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
面向稀疏卷积神经网络的CGRA加速器研究 被引量:1
1
作者 谭龙 严明玉 +3 位作者 吴欣欣 李文明 吴海彬 范东睿 《高技术通讯》 CAS 北大核心 2024年第2期173-186,共14页
本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。Dy... 本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。DyCNN使用基于数据感知的指令动态过滤机制来滤除各计算单元中由于稀疏CNN中权值静态稀疏性和激活值动态稀疏性产生的大量无效计算和访存指令,使它们能像执行稠密网络一样高效复用一组指令。此外DyCNN利用基于负载感知的动静结合负载调度策略解决了稀疏导致的负载不均衡问题。实验结果表明,DyCNN运行稀疏CNN与运行密集CNN相比实现了平均1.69倍性能提升和3.04倍能效提升,比先进的GPU(cuSPARSE)和Cambricon-X上的解决方案分别实现了2.78倍、1.48倍性能提升和35.62倍、1.17倍能效提升。 展开更多
关键词 稀疏卷积神经网络(CNN) 专用加速结构 粗粒度可重构架构(cgra) 动态指令过滤 动态负载调度
在线阅读 下载PDF
面向CGRA循环流水映射的数据并行优化 被引量:5
2
作者 杨子煜 严明 +1 位作者 王大伟 李思昆 《计算机学报》 EI CSCD 北大核心 2013年第6期1280-1289,共10页
数据密集型应用中的核心循环消耗了程序的大量执行时间.如何实现核心循环在粗粒度可重构体系结构(CGRA)上的有效映射仍是当前研究领域的难点.为了在CGRA上最大程度开发应用并行性,降低循环访存开销,提高硬件资源利用率,文中提出一种新... 数据密集型应用中的核心循环消耗了程序的大量执行时间.如何实现核心循环在粗粒度可重构体系结构(CGRA)上的有效映射仍是当前研究领域的难点.为了在CGRA上最大程度开发应用并行性,降低循环访存开销,提高硬件资源利用率,文中提出一种新颖的面向CGRA循环流水映射的数据并行优化方法.通过定义一种新的可重构计算模型TMGC2以实现对循环的多条数据流水线并行加速.为避免并行化执行带来的额外存储体冲突问题影响CGRA执行性能,为后续循环映射创造良好的数据条件,引入存储体消除策略对数据进行重组,并结合数据重用图实现数据并行优化.实验表明,采用文中方法对已有CGRA循环流水映射方法进行优化,可以提高37.2%的数据吞吐量及41.3%的资源利用率. 展开更多
关键词 可重构计算 数据密集型应用 数据重组 数据重用 循环映射 粗粒度可重构体系结构
在线阅读 下载PDF
基于自路由互连网络的粗粒度可重构阵列结构 被引量:5
3
作者 陈锐 杨海钢 +2 位作者 王飞 贾瑞 王新刚 《电子与信息学报》 EI CSCD 北大核心 2014年第9期2251-2257,共7页
互连网络在粗粒度可重构结构(Coarse-Grained Reconfigurable Array,CGRA)中非常重要,对CGRA的性能、面积和功耗均有较大影响。为了减小互连网络导致的面积开销和功耗并提升CGRA的性能,该文提出一种具有自路由和无阻塞特性的互连网络,... 互连网络在粗粒度可重构结构(Coarse-Grained Reconfigurable Array,CGRA)中非常重要,对CGRA的性能、面积和功耗均有较大影响。为了减小互连网络导致的面积开销和功耗并提升CGRA的性能,该文提出一种具有自路由和无阻塞特性的互连网络,构建了一种层次型的网络拓扑结构。通过这种互连网络,任意一对处理单元之间均可以建立连接和交换数据,而且这种连接是自路由和无阻塞的。实验结果显示,与已有结构相比,该结构以至多增加14.1%的面积开销为代价,获得最高可达46.2%的整体性能提升。 展开更多
关键词 片上系统(SoC) 粗粒度可重构结构 互连网络 网络拓扑结构 自路由
在线阅读 下载PDF
基于粗粒度可重构阵列结构的多标准离散余弦变换设计 被引量:3
4
作者 陈锐 杨海钢 +2 位作者 王飞 贾瑞 喻伟 《电子与信息学报》 EI CSCD 北大核心 2015年第1期206-213,共8页
在视频信号的编解码流程中,离散余弦变换(DCT)是一个至关重要的环节,其决定了视频压缩的质量和效率。针对8×8尺寸的2维离散余弦变换,该文提出一种基于粗粒度可重构阵列结构(Coarse-Grained Reconfigurable Array,CGRA)的硬件电路... 在视频信号的编解码流程中,离散余弦变换(DCT)是一个至关重要的环节,其决定了视频压缩的质量和效率。针对8×8尺寸的2维离散余弦变换,该文提出一种基于粗粒度可重构阵列结构(Coarse-Grained Reconfigurable Array,CGRA)的硬件电路结构。利用粗粒度可重构阵列的可重配置的特性,实现在单一平台支持多个视频压缩编码标准的8×8 2维离散余弦变换。实验结果显示,这种结构每个时钟周期可以并行处理8个像素,吞吐率最高可达1.157×109像素/s。与已有结构相比,设计效率和功耗效率最高可分别提升4.33倍和12.3倍,并能够以最高30帧/s的帧率解码尺寸为4096×2048,格式为4:2:0的视频序列。 展开更多
关键词 粗粒度可重构阵列 视频压缩 离散余弦变换 功耗效率
在线阅读 下载PDF
基于粗粒度可重构架构的并行FFT算法实现 被引量:3
5
作者 曹鹏 杨锦江 梅晨 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第6期1174-1179,共6页
为了提升并行 FFT 算法的计算性能,基于粗粒度可重构架构 REMUS_LPP(reconfigurable embedded multimedia system,low performance processor)提出了一种新的复数 FFT 实现方法.在实现 FFT 算法过程中,首先通过局部串行方式完成... 为了提升并行 FFT 算法的计算性能,基于粗粒度可重构架构 REMUS_LPP(reconfigurable embedded multimedia system,low performance processor)提出了一种新的复数 FFT 实现方法.在实现 FFT 算法过程中,首先通过局部串行方式完成低阶部分,然后交换低阶部分结果后并行执行高阶部分.针对 RCA 内和 RCA 间的数据流优化,提出了流水气泡消除技术和数据块重排技术,从而提升了算法实现性能并降低了片上存储需求.芯片实测结果表明,提出的 FFT 算法实现方法的执行速度是其他同类并行计算架构的2.15~13.60倍,片上存储减少为其他方法的7.0%~28.1%. 展开更多
关键词 粗粒度可重构架构 并行FFT算法 REMUS_LPP
在线阅读 下载PDF
基于存储划分和路径重用的粗粒度可重构结构循环映射算法 被引量:2
6
作者 张兴明 袁开坚 高彦钊 《电子与信息学报》 EI CSCD 北大核心 2018年第6期1520-1524,共5页
目前针对粗粒度可重构结构循环映射的研究主要集中在操作布局和临时数据路由,缺乏考虑数据映射的研究,该文提出一种基于存储划分和路径重用的模调度映射流程。首先进行细粒度的存储划分找到合适的数据映射,提高数据存取的并行性,再用模... 目前针对粗粒度可重构结构循环映射的研究主要集中在操作布局和临时数据路由,缺乏考虑数据映射的研究,该文提出一种基于存储划分和路径重用的模调度映射流程。首先进行细粒度的存储划分找到合适的数据映射,提高数据存取的并行性,再用模调度寻找操作布局和临时数据路由,最后利用构建的路由开销模型平衡存储器路由和处理单元路由的使用,引入路径重用策略优化路由资源。实验结果表明,该方法在循环的启动间隔、每周期指令数和执行延迟等方面均具有良好的性能。 展开更多
关键词 粗粒度可重构结构 循环映射 存储划分 路径重用
在线阅读 下载PDF
关键循环到粗粒度可重构体系结构的存储感知映射 被引量:1
7
作者 杨子煜 赵鹏 +1 位作者 王大伟 李思昆 《国防科技大学学报》 EI CAS CSCD 北大核心 2012年第6期46-53,共8页
针对已有工作面向粗粒度可重构结构(CGRA)研究循环映射的不足,提出一种新颖的存储感知的关键循环映射方法 MALP。该方法定义RCP_CGRA体系结构模型并阐述关键循环到CGRA的映射问题,通过引入结合数组分簇的多面体数据域划分方法进行循环... 针对已有工作面向粗粒度可重构结构(CGRA)研究循环映射的不足,提出一种新颖的存储感知的关键循环映射方法 MALP。该方法定义RCP_CGRA体系结构模型并阐述关键循环到CGRA的映射问题,通过引入结合数组分簇的多面体数据域划分方法进行循环存储分析,根据分析结果,结合体系结构资源约束实现了循环的有效映射。实验结果表明,与已有的方法相比,MALP方法能够快速分析存储需求并有效降低循环映射的资源占用率,提高数据吞吐量,进一步提升了CGRA上循环映射的性能。 展开更多
关键词 循环映射 存储感知 粗粒度可重构体系结构 数据密集型应用
在线阅读 下载PDF
不跨层行操作并行RCA互连时延性能评估 被引量:1
8
作者 陈乃金 冯志勇 《天津大学学报(自然科学与工程技术版)》 EI CSCD 北大核心 2017年第4期429-436,共8页
针对三类行并行重构单元阵列互连时延性能评估问题,提出了一种通过节点映射和运行机制来评测互连时延的方法,基于前驱回溯不加旁节点不跨层时域映射算法,对点到点、路由传输、行列总线等互连RCA进行了时延分析和计算.实验结果表明,与路... 针对三类行并行重构单元阵列互连时延性能评估问题,提出了一种通过节点映射和运行机制来评测互连时延的方法,基于前驱回溯不加旁节点不跨层时域映射算法,对点到点、路由传输、行列总线等互连RCA进行了时延分析和计算.实验结果表明,与路由传输和行列总线互连相比,点到点互连在最大不跨层互连、不跨层累加互连、考虑互连执行总时延等方面均是最小的,从而表明了点到点重构单元阵列的互连时延优于路由器传输和行列总线互连. 展开更多
关键词 互连模式 粗粒度可重构体系结构 点到点互连 路由传输互连 行列总线互连
在线阅读 下载PDF
面向媒体的粗粒度可重构架构层次化存储设计
9
作者 曹鹏 梅晨 刘波 《上海交通大学学报》 EI CAS CSCD 北大核心 2014年第10期1389-1393,1399,共6页
为了优化粗粒度可重构架构REMUS-II(Reconfigurable Multimedia System 2)的数据流通路,使其能够完成高性能媒体解码,针对媒体算法的数据访问特征,对REMUS-II的片上存储与片外存储访问模块进行优化.片上存储通过二维数据传输和转置等访... 为了优化粗粒度可重构架构REMUS-II(Reconfigurable Multimedia System 2)的数据流通路,使其能够完成高性能媒体解码,针对媒体算法的数据访问特征,对REMUS-II的片上存储与片外存储访问模块进行优化.片上存储通过二维数据传输和转置等访问模式进行优化,片上数据传输效率分别平均提高了69.6%和15.1%.片外存储通过块缓存设计优化参考帧访问,平均减少37%的外存访问时间.经过层次化存储设计,REMUS-II数据流可满足计算需求,在200MHz主频下实现H.264算法和MPEG2算法高级档次的1 920像素×1 080像素高清分辨率实时解码. 展开更多
关键词 粗粒度可重构架构 媒体应用 层次化存储 高清解码
在线阅读 下载PDF
一种基于体系结构模板的粗粒度可重构SoC设计方法
10
作者 沈剑良 李思昆 +3 位作者 王观武 吕平 刘磊 刘勤让 《计算机工程与科学》 CSCD 北大核心 2016年第6期1071-1077,共7页
针对传统的面向应用领域的多核SoC体系结构设计方法存在系统结构探索空间大、设计复杂度高等问题,提出了一种基于体系结构模板的粗粒度可重构SoC系统架构设计方法。该设计方法以体系结构设计为中心,体系结构模板可重用、参数可配置,从... 针对传统的面向应用领域的多核SoC体系结构设计方法存在系统结构探索空间大、设计复杂度高等问题,提出了一种基于体系结构模板的粗粒度可重构SoC系统架构设计方法。该设计方法以体系结构设计为中心,体系结构模板可重用、参数可配置,从而缩小了体系结构设计探索空间,提高了体系结构设计效率,降低了应用程序编译器开发复杂性。最后,以密码处理领域为例,将模板参数实例化,构建了一个面向密码处理领域的多核可重构指令集处理器SoC系统(Multi-RISP SoC)。实验结果表明,MultiRISP SoC系统与几个典型可重构平台在性能上相当,但系统构建更为快速高效。 展开更多
关键词 体系结构模板 多核SoC系统体系结构 粗粒度可重构SoC
在线阅读 下载PDF
二维RCA空域映射Petri网时间性能分析
11
作者 陈乃金 《计算机工程与应用》 CSCD 2014年第23期41-46,90,共7页
为了更有效地优化粗粒度可重构单元阵列映射加速性能,提出了一种行节点无依赖约束的空域映射调度方法,基于相同条件下,采用时延Petri网对若干个按约束已经被划分映射到可重构单元阵列的数据流子图的运行情况进行了分析,通过一个实例比... 为了更有效地优化粗粒度可重构单元阵列映射加速性能,提出了一种行节点无依赖约束的空域映射调度方法,基于相同条件下,采用时延Petri网对若干个按约束已经被划分映射到可重构单元阵列的数据流子图的运行情况进行了分析,通过一个实例比较了行节点有依赖和无依赖的运行结果,结果表明该种空域映射方法具有可行性。 展开更多
关键词 粗粒度可重构计算机系统 PETRI网 可重构单元阵列 数据流图
在线阅读 下载PDF
一种面向序列密码的混合粒度并行运算单元 被引量:2
12
作者 曲彤洲 戴紫彬 +1 位作者 陈琳 刘燕江 《电子与信息学报》 EI CSCD 北大核心 2023年第1期78-86,共9页
针对可重构密码处理器对于不同域上的序列密码算法兼容性差、实现性能低的问题,该文分析了序列密码算法的多级并行性并提出了一种反馈移位寄存器(FSR)的预抽取更新模型。进而基于该模型设计了面向密码阵列架构的可重构反馈移位寄存器运... 针对可重构密码处理器对于不同域上的序列密码算法兼容性差、实现性能低的问题,该文分析了序列密码算法的多级并行性并提出了一种反馈移位寄存器(FSR)的预抽取更新模型。进而基于该模型设计了面向密码阵列架构的可重构反馈移位寄存器运算单元(RFAU),兼容不同有限域上序列密码算法的同时,采取并行抽取和流水处理策略开发了序列密码算法的反馈移位寄存器级并行性,从而有效提升了粗粒度可重构阵列(CGRA)平台上序列密码算法的处理性能。实验结果表明与其他可重构处理器相比,对于有限域(GF)(2)上的序列密码算法,RFAU带来的性能提升为23%~186%;对于GF(2u)域上的序列密码算法,性能提升达约66%~79%,且面积效率提升约64%~91%。 展开更多
关键词 粗粒度可重构阵列 序列密码算法 反馈移位寄存器 流水线
在线阅读 下载PDF
面向分组密码算法的高面积效率可重构架构 被引量:1
13
作者 杨锦江 曹鹏 杨军 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第5期939-944,共6页
为了提升安全应用中分组密码算法的面积效率,提出了一种基于粗粒度可重构计算的硬件架构.在可重构架构设计过程中采用了2种优化方案,即利用Benes网络优化可重构计算阵列的层间互联和基于配置信息的使用频度优化配置信息的组织方式.实验... 为了提升安全应用中分组密码算法的面积效率,提出了一种基于粗粒度可重构计算的硬件架构.在可重构架构设计过程中采用了2种优化方案,即利用Benes网络优化可重构计算阵列的层间互联和基于配置信息的使用频度优化配置信息的组织方式.实验结果表明:采用基于Benes网络的层间互联方案后,可重构阵列中层间互联的面积开销减少了51.61%;采用基于使用频度的配置信息层次化组织方式后,AES分组密码算法和DES分组密码算法的配置时间分别缩短了80%和88%,配置时间占总时间的百分数分别下降了42%和39%.这2种分组密码算法在该可重构架构上实现的面积效率为同类架构的3.95和1.51倍.因此,所提的2种优化方案能够有效降低面积开销,提高可重构架构的性能,有助于分组密码算法高面积效率的实现. 展开更多
关键词 分组密码算法 粗粒度可重构架构 层次化配置 面积效率
在线阅读 下载PDF
自适应二进制算术编码的动态可重构实现研究 被引量:2
14
作者 刘尧 蒋林 +1 位作者 李远成 山蕊 《电子测量技术》 北大核心 2022年第19期50-55,共6页
针对H.266/VVC视频编码标准下的上下文自适应二进制算术编码器编码速度慢、资源开销大的问题,面向可重构结构依据算法的内在并行特性优化了编码架构,并基于动态可重构阵列处理器设计实现了CABAC编码器常规编码模式下的并行映射方法,阵... 针对H.266/VVC视频编码标准下的上下文自适应二进制算术编码器编码速度慢、资源开销大的问题,面向可重构结构依据算法的内在并行特性优化了编码架构,并基于动态可重构阵列处理器设计实现了CABAC编码器常规编码模式下的并行映射方法,阵列结构能够根据编码输入对优化后的算法进行动态重构,在避免专用硬件编码器较高的资源开销情况下利用软件重构的方法实现熵编码过程,保证编码准确性的同时提高了视频数据流编码效率,为此类运算密集型算法的硬件实现提供了更为灵活高效的参考途径。仿真结果表明,映射实现的编码过程中每个编码周期完成5个二进制序列的编码,平均编码效率达到384.13 Mbin/s。基于FPGA的测试结果表明,软件重构方法与专用硬件实现的编码器相比,资源开销降低且编码效率提升5.47%,与同类型可重构视频编码结构相比,编码效率提升7.03%。 展开更多
关键词 可重构计算 自适应二进制算术编码 并行映射 阵列处理器 熵编码
在线阅读 下载PDF
应用定制可重构流水线的动态存储管理
15
作者 王观武 杜孔飞 李思昆 《计算机研究与发展》 EI CSCD 北大核心 2015年第S2期171-177,共7页
可重构体系结构因为丰富的硬件资源和可重构互连网络,可以提供接近专用集成电路的性能和接近通用处理器的灵活性.首先介绍了一种面向领域应用的应用定制可重构流水线体系结构,可带来计算性能的显著提升;其次介绍了面向应用定制可重构流... 可重构体系结构因为丰富的硬件资源和可重构互连网络,可以提供接近专用集成电路的性能和接近通用处理器的灵活性.首先介绍了一种面向领域应用的应用定制可重构流水线体系结构,可带来计算性能的显著提升;其次介绍了面向应用定制可重构流水线的存储管理方法,存储问题对可重构体系结构性能发挥至关重要.该方法基于配置信息动态管理数据输入、地址计算与访存操作分离,可以实现多种寻址方式,使在硬件上运行的硬件流水线高效流动.实验证明,相对于设置专用访存单元的可重构系统,节省了计算资源同时保证了流水线效率. 展开更多
关键词 应用定制 可重构流水线 存储管理 存储优化 粗粒度可重构体系结构
在线阅读 下载PDF
基于FPGA的粗粒度可重构系统拓扑网络结构开发 被引量:2
16
作者 庞科 史再峰 +1 位作者 周佳慧 陈可鑫 《天津大学学报(自然科学与工程技术版)》 EI CSCD 北大核心 2018年第5期507-516,共10页
针对粗粒度可重构系统架构的应用开发,本文提出了一个基于FPGA的粗粒度可重构系统架构验证平台及相应的互连拓扑网络结构开发流程.基于FPGA开发板,构建粗粒度可重构系统的验证模块及模块之间的拓扑互连被自动插入从而生成该系统架构的... 针对粗粒度可重构系统架构的应用开发,本文提出了一个基于FPGA的粗粒度可重构系统架构验证平台及相应的互连拓扑网络结构开发流程.基于FPGA开发板,构建粗粒度可重构系统的验证模块及模块之间的拓扑互连被自动插入从而生成该系统架构的硬件验证平台.针对不同的应用,该平台可以根据拓扑开发流程对不同拓扑互连策略下粗粒度可重构系统架构的性能和功耗进行评估分析.大量实验表明:CGRA的互连网络对该系统架构的性能和功耗有着巨大的影响,最适宜的粗粒度可重构体系架构的互连策略取决于所选的拓扑结构.根据评估所获得的系统性能、功耗以及FPGA资源占用率,设计者可以在较短的开发时间内准确地确定该应用最适宜的粗粒度可重构系统的拓扑互连策略. 展开更多
关键词 粗粒度可重构系统硬件验证平台 拓扑开发流程 互连拓扑网络结构
在线阅读 下载PDF
存算解耦合的粗粒度可重构阵列访存结构设计 被引量:1
17
作者 洪途 景乃锋 《计算机工程》 CAS CSCD 北大核心 2021年第2期239-245,共7页
粗粒度可重构阵列架构兼具灵活性和高效性,但高计算吞吐量的特性也会给访存带来压力。在片下动态存储器带宽相对固定的情况下,设计一种存算解耦合的访存结构。将控制逻辑集成在轻量级的存储空间中,通过可配置的存储空间隔离访存和计算... 粗粒度可重构阵列架构兼具灵活性和高效性,但高计算吞吐量的特性也会给访存带来压力。在片下动态存储器带宽相对固定的情况下,设计一种存算解耦合的访存结构。将控制逻辑集成在轻量级的存储空间中,通过可配置的存储空间隔离访存和计算的循环迭代,从而掩盖内存延时,同时利用该结构进行串联和对齐操作,以适配不同的计算访存频率比并优化间接访问过程。实验结果表明,该访存结构在目标架构中能够获得1.84倍的性能优化,其中乱序操作可使间接访问得到平均22%的性能提升。 展开更多
关键词 粗粒度可重构阵列 内存延时 存算解耦合 间接访问 访存结构
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部