期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于粗粒度可重构架构的并行FFT算法实现 被引量:3
1
作者 曹鹏 杨锦江 梅晨 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第6期1174-1179,共6页
为了提升并行 FFT 算法的计算性能,基于粗粒度可重构架构 REMUS_LPP(reconfigurable embedded multimedia system,low performance processor)提出了一种新的复数 FFT 实现方法.在实现 FFT 算法过程中,首先通过局部串行方式完成... 为了提升并行 FFT 算法的计算性能,基于粗粒度可重构架构 REMUS_LPP(reconfigurable embedded multimedia system,low performance processor)提出了一种新的复数 FFT 实现方法.在实现 FFT 算法过程中,首先通过局部串行方式完成低阶部分,然后交换低阶部分结果后并行执行高阶部分.针对 RCA 内和 RCA 间的数据流优化,提出了流水气泡消除技术和数据块重排技术,从而提升了算法实现性能并降低了片上存储需求.芯片实测结果表明,提出的 FFT 算法实现方法的执行速度是其他同类并行计算架构的2.15~13.60倍,片上存储减少为其他方法的7.0%~28.1%. 展开更多
关键词 粗粒度可重构架构 并行FFT算法 REMUS_LPP
在线阅读 下载PDF
面向媒体的粗粒度可重构架构层次化存储设计
2
作者 曹鹏 梅晨 刘波 《上海交通大学学报》 EI CAS CSCD 北大核心 2014年第10期1389-1393,1399,共6页
为了优化粗粒度可重构架构REMUS-II(Reconfigurable Multimedia System 2)的数据流通路,使其能够完成高性能媒体解码,针对媒体算法的数据访问特征,对REMUS-II的片上存储与片外存储访问模块进行优化.片上存储通过二维数据传输和转置等访... 为了优化粗粒度可重构架构REMUS-II(Reconfigurable Multimedia System 2)的数据流通路,使其能够完成高性能媒体解码,针对媒体算法的数据访问特征,对REMUS-II的片上存储与片外存储访问模块进行优化.片上存储通过二维数据传输和转置等访问模式进行优化,片上数据传输效率分别平均提高了69.6%和15.1%.片外存储通过块缓存设计优化参考帧访问,平均减少37%的外存访问时间.经过层次化存储设计,REMUS-II数据流可满足计算需求,在200MHz主频下实现H.264算法和MPEG2算法高级档次的1 920像素×1 080像素高清分辨率实时解码. 展开更多
关键词 粗粒度可重构架构 媒体应用 层次化存储 高清解码
在线阅读 下载PDF
一种快速高效的粗粒度可重构架构编译框架 被引量:8
3
作者 尹文志 赵仲元 +2 位作者 毛志刚 王琴 绳伟光 《微电子学与计算机》 北大核心 2019年第8期45-48,53,共5页
利用硬件和软件协同的设计技术来进一步提高粗粒度可重构加速器在处理循环时的编译时间与面积效率(单位面积的性能).在硬件方面将处理单元内部的寄存器堆结构优化,用旁路互联的方式替代.软件方面基于这种结构提出了一种新颖,高效的循环... 利用硬件和软件协同的设计技术来进一步提高粗粒度可重构加速器在处理循环时的编译时间与面积效率(单位面积的性能).在硬件方面将处理单元内部的寄存器堆结构优化,用旁路互联的方式替代.软件方面基于这种结构提出了一种新颖,高效的循环映射算法.该算法相对于同期的研究算法,极大的缩小了搜索最优解决方案的空间.利用前向贪婪和反向回溯迭代运行,可以获得快速而又稳定的编译时间,同时保证了接近最优解的性能.在上述硬件与软件协同的解决方案下,架构的面积与计算效率得到了提升.实验数据显示,将本文的编译框架与最新技术比较,编译速度可提升1955倍,面积效率提升到1.36倍. 展开更多
关键词 粗粒度可重构架构 面积高效 映射算法 回溯
在线阅读 下载PDF
针对粗粒度可重构架构的非完美循环映射方法
4
作者 徐若玢 赵仲元 +1 位作者 绳伟光 何卫锋 《微电子学与计算机》 CSCD 北大核心 2018年第7期50-53,57,共5页
针对粗粒度可重构架构,提出了一个解决非完美循环映射问题的方法.该方法从最外层到最内层循环,依次进行循环分裂,生成多个完美循环并为每个完美循环生成虚拟配置包,然后使用配置包合并技术,最后将合并后的配置包映射到可重构阵列上.该... 针对粗粒度可重构架构,提出了一个解决非完美循环映射问题的方法.该方法从最外层到最内层循环,依次进行循环分裂,生成多个完美循环并为每个完美循环生成虚拟配置包,然后使用配置包合并技术,最后将合并后的配置包映射到可重构阵列上.该方法兼顾可重构阵列的效率和重构次数,较现有的双流水映射提高了24.2%的PE利用率,减少了61.7%的重构次数. 展开更多
关键词 粗粒度可重构架构 非完美循环 循环分裂 配置包合并
在线阅读 下载PDF
基于相似性的粗粒度可重构指令压缩
5
作者 李锦超 赵仲元 绳伟光 《微电子学与计算机》 北大核心 2020年第8期21-26,共6页
粗粒度可重构架构在能效比方面具有明显优势,然而其指令存储与传输过程的功耗代价过高.实验发现指令间具有明显的相似性,由此本文提出一种基于指令相似性的压缩技术,通过对指令的压缩、传输与解压,可以在不降低性能的前提下,优化架构的... 粗粒度可重构架构在能效比方面具有明显优势,然而其指令存储与传输过程的功耗代价过高.实验发现指令间具有明显的相似性,由此本文提出一种基于指令相似性的压缩技术,通过对指令的压缩、传输与解压,可以在不降低性能的前提下,优化架构的功耗和面积.针对同构和异构平台分别提出了指令分发模型和指令寄存器模型的解决方案,结合编译策略优化,最终与两种传统结构相比,面积效率比分别提升36%和181%,功耗效率比分别提升33%和118%. 展开更多
关键词 粗粒度可重构架构 指令压缩 能效比 异构计算
在线阅读 下载PDF
面向分组密码算法的高面积效率可重构架构 被引量:1
6
作者 杨锦江 曹鹏 杨军 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第5期939-944,共6页
为了提升安全应用中分组密码算法的面积效率,提出了一种基于粗粒度可重构计算的硬件架构.在可重构架构设计过程中采用了2种优化方案,即利用Benes网络优化可重构计算阵列的层间互联和基于配置信息的使用频度优化配置信息的组织方式.实验... 为了提升安全应用中分组密码算法的面积效率,提出了一种基于粗粒度可重构计算的硬件架构.在可重构架构设计过程中采用了2种优化方案,即利用Benes网络优化可重构计算阵列的层间互联和基于配置信息的使用频度优化配置信息的组织方式.实验结果表明:采用基于Benes网络的层间互联方案后,可重构阵列中层间互联的面积开销减少了51.61%;采用基于使用频度的配置信息层次化组织方式后,AES分组密码算法和DES分组密码算法的配置时间分别缩短了80%和88%,配置时间占总时间的百分数分别下降了42%和39%.这2种分组密码算法在该可重构架构上实现的面积效率为同类架构的3.95和1.51倍.因此,所提的2种优化方案能够有效降低面积开销,提高可重构架构的性能,有助于分组密码算法高面积效率的实现. 展开更多
关键词 分组密码算法 粗粒度可重构架构 层次化配置 面积效率
在线阅读 下载PDF
面向稀疏卷积神经网络的CGRA加速器研究 被引量:1
7
作者 谭龙 严明玉 +3 位作者 吴欣欣 李文明 吴海彬 范东睿 《高技术通讯》 CAS 北大核心 2024年第2期173-186,共14页
本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。Dy... 本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。DyCNN使用基于数据感知的指令动态过滤机制来滤除各计算单元中由于稀疏CNN中权值静态稀疏性和激活值动态稀疏性产生的大量无效计算和访存指令,使它们能像执行稠密网络一样高效复用一组指令。此外DyCNN利用基于负载感知的动静结合负载调度策略解决了稀疏导致的负载不均衡问题。实验结果表明,DyCNN运行稀疏CNN与运行密集CNN相比实现了平均1.69倍性能提升和3.04倍能效提升,比先进的GPU(cuSPARSE)和Cambricon-X上的解决方案分别实现了2.78倍、1.48倍性能提升和35.62倍、1.17倍能效提升。 展开更多
关键词 稀疏卷积神经网络(CNN) 专用加速结构 粗粒度可重构架构(CGRA) 动态指令过滤 动态负载调度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部