期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于粗粒度可重构架构的并行FFT算法实现 被引量:3
1
作者 曹鹏 杨锦江 梅晨 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第6期1174-1179,共6页
为了提升并行 FFT 算法的计算性能,基于粗粒度可重构架构 REMUS_LPP(reconfigurable embedded multimedia system,low performance processor)提出了一种新的复数 FFT 实现方法.在实现 FFT 算法过程中,首先通过局部串行方式完成... 为了提升并行 FFT 算法的计算性能,基于粗粒度可重构架构 REMUS_LPP(reconfigurable embedded multimedia system,low performance processor)提出了一种新的复数 FFT 实现方法.在实现 FFT 算法过程中,首先通过局部串行方式完成低阶部分,然后交换低阶部分结果后并行执行高阶部分.针对 RCA 内和 RCA 间的数据流优化,提出了流水气泡消除技术和数据块重排技术,从而提升了算法实现性能并降低了片上存储需求.芯片实测结果表明,提出的 FFT 算法实现方法的执行速度是其他同类并行计算架构的2.15~13.60倍,片上存储减少为其他方法的7.0%~28.1%. 展开更多
关键词 粗粒度可重构架构 并行FFT算法 REMUS_LPP
在线阅读 下载PDF
面向媒体的粗粒度可重构架构层次化存储设计
2
作者 曹鹏 梅晨 刘波 《上海交通大学学报》 EI CAS CSCD 北大核心 2014年第10期1389-1393,1399,共6页
为了优化粗粒度可重构架构REMUS-II(Reconfigurable Multimedia System 2)的数据流通路,使其能够完成高性能媒体解码,针对媒体算法的数据访问特征,对REMUS-II的片上存储与片外存储访问模块进行优化.片上存储通过二维数据传输和转置等访... 为了优化粗粒度可重构架构REMUS-II(Reconfigurable Multimedia System 2)的数据流通路,使其能够完成高性能媒体解码,针对媒体算法的数据访问特征,对REMUS-II的片上存储与片外存储访问模块进行优化.片上存储通过二维数据传输和转置等访问模式进行优化,片上数据传输效率分别平均提高了69.6%和15.1%.片外存储通过块缓存设计优化参考帧访问,平均减少37%的外存访问时间.经过层次化存储设计,REMUS-II数据流可满足计算需求,在200MHz主频下实现H.264算法和MPEG2算法高级档次的1 920像素×1 080像素高清分辨率实时解码. 展开更多
关键词 粗粒度可重构架构 媒体应用 层次化存储 高清解码
在线阅读 下载PDF
面向分组密码算法的高面积效率可重构架构 被引量:1
3
作者 杨锦江 曹鹏 杨军 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第5期939-944,共6页
为了提升安全应用中分组密码算法的面积效率,提出了一种基于粗粒度可重构计算的硬件架构.在可重构架构设计过程中采用了2种优化方案,即利用Benes网络优化可重构计算阵列的层间互联和基于配置信息的使用频度优化配置信息的组织方式.实验... 为了提升安全应用中分组密码算法的面积效率,提出了一种基于粗粒度可重构计算的硬件架构.在可重构架构设计过程中采用了2种优化方案,即利用Benes网络优化可重构计算阵列的层间互联和基于配置信息的使用频度优化配置信息的组织方式.实验结果表明:采用基于Benes网络的层间互联方案后,可重构阵列中层间互联的面积开销减少了51.61%;采用基于使用频度的配置信息层次化组织方式后,AES分组密码算法和DES分组密码算法的配置时间分别缩短了80%和88%,配置时间占总时间的百分数分别下降了42%和39%.这2种分组密码算法在该可重构架构上实现的面积效率为同类架构的3.95和1.51倍.因此,所提的2种优化方案能够有效降低面积开销,提高可重构架构的性能,有助于分组密码算法高面积效率的实现. 展开更多
关键词 分组密码算法 粗粒度可重构架构 层次化配置 面积效率
在线阅读 下载PDF
面向稀疏卷积神经网络的CGRA加速器研究 被引量:1
4
作者 谭龙 严明玉 +3 位作者 吴欣欣 李文明 吴海彬 范东睿 《高技术通讯》 CAS 北大核心 2024年第2期173-186,共14页
本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。Dy... 本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。DyCNN使用基于数据感知的指令动态过滤机制来滤除各计算单元中由于稀疏CNN中权值静态稀疏性和激活值动态稀疏性产生的大量无效计算和访存指令,使它们能像执行稠密网络一样高效复用一组指令。此外DyCNN利用基于负载感知的动静结合负载调度策略解决了稀疏导致的负载不均衡问题。实验结果表明,DyCNN运行稀疏CNN与运行密集CNN相比实现了平均1.69倍性能提升和3.04倍能效提升,比先进的GPU(cuSPARSE)和Cambricon-X上的解决方案分别实现了2.78倍、1.48倍性能提升和35.62倍、1.17倍能效提升。 展开更多
关键词 稀疏卷积神经网络(CNN) 专用加速结构 粗粒度可重构架构(CGRA) 动态指令过滤 动态负载调度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部