检索结果-维普期刊中文期刊服务平台

基于可重构架构的数据中心异构加速软硬件系统级平台: 1; 作者王彦伟李仁刚 +1 位作者徐冉刘钧锴《计算机研究与发展》北大核心 2025年第4期963-977,共15页; 构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素.为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构... 展开更多; 关键词异构计算加速平台原型系统高速互连可重构架构 FPGA; 在线阅读下载PDF 职称材料

基于粗粒度可重构架构的并行FFT算法实现被引量：3: 2; 作者曹鹏杨锦江梅晨《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2013年第6期1174-1179,共6页; 为了提升并行 FFT 算法的计算性能，基于粗粒度可重构架构 REMUS＿LPP（reconfigurable embedded multimedia system，low performance processor）提出了一种新的复数 FFT 实现方法．在实现 FFT 算法过程中，首先通过局部串行方式完成... 展开更多; 关键词粗粒度可重构架构并行FFT算法 REMUS_LPP; 在线阅读下载PDF 职称材料

面向媒体的粗粒度可重构架构层次化存储设计: 3; 作者曹鹏梅晨刘波《上海交通大学学报》 EI CAS CSCD 北大核心 2014年第10期1389-1393,1399,共6页; 为了优化粗粒度可重构架构REMUS-II(Reconfigurable Multimedia System 2)的数据流通路,使其能够完成高性能媒体解码,针对媒体算法的数据访问特征,对REMUS-II的片上存储与片外存储访问模块进行优化.片上存储通过二维数据传输和转置等访... 展开更多; 关键词粗粒度可重构架构媒体应用层次化存储高清解码; 在线阅读下载PDF 职称材料

面向分组密码算法的高面积效率可重构架构被引量：1: 4; 作者杨锦江曹鹏杨军《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2016年第5期939-944,共6页; 为了提升安全应用中分组密码算法的面积效率,提出了一种基于粗粒度可重构计算的硬件架构.在可重构架构设计过程中采用了2种优化方案,即利用Benes网络优化可重构计算阵列的层间互联和基于配置信息的使用频度优化配置信息的组织方式.实验... 展开更多; 关键词分组密码算法粗粒度可重构架构层次化配置面积效率; 在线阅读下载PDF 职称材料

基于混合架构的双通道实时相关器实现被引量：1: 5; 作者裴鑫聂俊 +1 位作者陈卯蒸李健《计算机工程》 CAS CSCD 北大核心 2016年第5期42-46,53,共6页; 为满足多波束接收机、焦面阵和天线阵等超大数据量终端的处理需求,采用以GPU并行运算为处理核心的FPGA+CPU+GPU混合架构对天文相关器进行设计,利用严格时序的FPGA进行采样和预处理,基于统一计算设备架构平台开发实现GPU并行运算信号处理... 展开更多; 关键词天文终端图形处理单元相关器统一计算设备架构可重构开放式架构硬件计算平台; 在线阅读下载PDF 职称材料

面向稀疏卷积神经网络的CGRA加速器研究被引量：1: 6; 作者谭龙严明玉 +3 位作者吴欣欣李文明吴海彬范东睿《高技术通讯》 CAS 北大核心 2024年第2期173-186,共14页; 本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。Dy... 展开更多; 关键词稀疏卷积神经网络(CNN) 专用加速结构粗粒度可重构架构(CGRA) 动态指令过滤动态负载调度; 在线阅读下载PDF 职称材料

面向低精度神经网络的数据流体系结构优化被引量：2: 7; 作者范志华吴欣欣 +4 位作者李文明曹华伟安学军叶笑春范东睿《计算机研究与发展》 EI CSCD 北大核心 2023年第1期43-58,共16页; 数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问... 展开更多; 关键词数据流架构低精度神经网络量化可重构架构直接内存访问; 在线阅读下载PDF 职称材料

题名基于可重构架构的数据中心异构加速软硬件系统级平台: 1; 作者王彦伟李仁刚徐冉刘钧锴; 机构浪潮(北京)电子信息产业有限公司清华大学计算机科学与技术系浪潮电子信息产业股份有限公司; 出处《计算机研究与发展》北大核心 2025年第4期963-977,共15页; 基金新一代人工智能国家科技重大专项(2021ZD0113004) 山东省自然科学基金项目(ZR2023LZH010)。; 文摘构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素.为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构建了一个可重构组合的软硬件加速原型系统,简化了现有以处理器为中心的系统级计算平台构建方法,实现目标软硬件设计的快速部署与系统级原型验证.针对以上目标,通过解耦的可重构架构设备虚拟化和远程映射等方法,发掘独立计算单元的潜力,构建了一套ISOF(independent system of FPGA(field programmable gate arrays))软硬件计算平台系统,可使其超越普通服务器设计所能提供的能力,实现计算单元低成本高效扩展,使客户端可灵活使用外设资源,并且为满足系统级通信挑战,设计了一套计算单元之间的通信硬件平台和交互机制.此外,为提升软硬件系统级平台的敏捷性,ISOF提供了灵活统一的调用接口.最后,通过对平台目标系统级的分析评估,验证了该平台在满足了当下计算与加速需求下,保证了高速、低延时的通信,以及良好的吞吐率和弹性扩容效率,另外在高速通信的基础上改进的拥塞避免和丢包恢复机制,满足了数据中心规模通信的稳定性需求.; 关键词异构计算加速平台原型系统高速互连可重构架构 FPGA; Keywords heterogeneous computing acceleration platform prototype system high-speed interconnect reconfigurable architecture FPGA; 分类号 TP303 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名基于粗粒度可重构架构的并行FFT算法实现被引量：3: 2; 作者曹鹏杨锦江梅晨; 机构东南大学国家专用集成电路系统工程技术研究中心; 出处《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2013年第6期1174-1179,共6页; 基金国家自然科学基金资助项目(61204023 61203251 +1 种基金 61272183) 国家高技术研究发展计划(863计划)资助项目(2012AA012703); 文摘为了提升并行 FFT 算法的计算性能，基于粗粒度可重构架构 REMUS＿LPP（reconfigurable embedded multimedia system，low performance processor）提出了一种新的复数 FFT 实现方法．在实现 FFT 算法过程中，首先通过局部串行方式完成低阶部分，然后交换低阶部分结果后并行执行高阶部分．针对 RCA 内和 RCA 间的数据流优化，提出了流水气泡消除技术和数据块重排技术，从而提升了算法实现性能并降低了片上存储需求．芯片实测结果表明，提出的 FFT 算法实现方法的执行速度是其他同类并行计算架构的2．15～13．60倍，片上存储减少为其他方法的7．0％～28．1％．; 关键词粗粒度可重构架构并行FFT算法 REMUS_LPP; Keywords coarse-grained reconfigurable architecture （CGRA） parallel fast Fourier transform（FFF） algorithm REMUS_LPP （ reconfigurable embedded multimedia system, lowperformance processor）; 分类号 TN302 [电子电信—物理电子学]; 在线阅读下载PDF 职称材料

题名面向媒体的粗粒度可重构架构层次化存储设计: 3; 作者曹鹏梅晨刘波; 机构东南大学国家专用集成电路系统工程技术研究中心; 出处《上海交通大学学报》 EI CAS CSCD 北大核心 2014年第10期1389-1393,1399,共6页; 文摘为了优化粗粒度可重构架构REMUS-II(Reconfigurable Multimedia System 2)的数据流通路,使其能够完成高性能媒体解码,针对媒体算法的数据访问特征,对REMUS-II的片上存储与片外存储访问模块进行优化.片上存储通过二维数据传输和转置等访问模式进行优化,片上数据传输效率分别平均提高了69.6%和15.1%.片外存储通过块缓存设计优化参考帧访问,平均减少37%的外存访问时间.经过层次化存储设计,REMUS-II数据流可满足计算需求,在200MHz主频下实现H.264算法和MPEG2算法高级档次的1 920像素×1 080像素高清分辨率实时解码.; 关键词粗粒度可重构架构媒体应用层次化存储高清解码; Keywords coarse grain reconfigurable architecture （CGRA） multimedia application hierarchical memory high-definition decoding; 分类号 TN302 [电子电信—物理电子学]; 在线阅读下载PDF 职称材料

题名面向分组密码算法的高面积效率可重构架构被引量：1: 4; 作者杨锦江曹鹏杨军; 机构东南大学国家专用集成电路系统工程技术研究中心; 出处《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2016年第5期939-944,共6页; 基金国家自然科学基金资助项目(61404028); 文摘为了提升安全应用中分组密码算法的面积效率,提出了一种基于粗粒度可重构计算的硬件架构.在可重构架构设计过程中采用了2种优化方案,即利用Benes网络优化可重构计算阵列的层间互联和基于配置信息的使用频度优化配置信息的组织方式.实验结果表明:采用基于Benes网络的层间互联方案后,可重构阵列中层间互联的面积开销减少了51.61%;采用基于使用频度的配置信息层次化组织方式后,AES分组密码算法和DES分组密码算法的配置时间分别缩短了80%和88%,配置时间占总时间的百分数分别下降了42%和39%.这2种分组密码算法在该可重构架构上实现的面积效率为同类架构的3.95和1.51倍.因此,所提的2种优化方案能够有效降低面积开销,提高可重构架构的性能,有助于分组密码算法高面积效率的实现.; 关键词分组密码算法粗粒度可重构架构层次化配置面积效率; Keywords block cipher algorithm coarse-grained reconfigurable architecture hierarchical configuration organization area efficiency; 分类号 TN302 [电子电信—物理电子学]; 在线阅读下载PDF 职称材料

题名基于混合架构的双通道实时相关器实现被引量：1: 5; 作者裴鑫聂俊陈卯蒸李健; 机构中国科学院新疆天文台; 出处《计算机工程》 CAS CSCD 北大核心 2016年第5期42-46,53,共6页; 基金国家"973"计划基金资助项目(2015CB857100) 国家自然科学基金资助项目(11403091 +1 种基金 11253001 U1431230); 文摘为满足多波束接收机、焦面阵和天线阵等超大数据量终端的处理需求,采用以GPU并行运算为处理核心的FPGA+CPU+GPU混合架构对天文相关器进行设计,利用严格时序的FPGA进行采样和预处理,基于统一计算设备架构平台开发实现GPU并行运算信号处理与CPU逻辑控制、存储和显示。测试结果表明,该相关器运行稳定、准确,通过调节混频、滤波和傅里叶变换参数即可实现通带范围内任意频带的高精度测量。; 关键词天文终端图形处理单元相关器统一计算设备架构可重构开放式架构硬件计算平台; Keywords astronomical terminal Graphics Processing Unit （GPU） correlator Compute Unified Device Architecture （CUDA） Reconfigurable Open Architecture Computing Hardware（ROACH）; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名面向稀疏卷积神经网络的CGRA加速器研究被引量：1: 6; 作者谭龙严明玉吴欣欣李文明吴海彬范东睿; 机构中国科学院计算技术研究所处理器国家重点实验室中国科学院大学; 出处《高技术通讯》 CAS 北大核心 2024年第2期173-186,共14页; 基金国家自然科学基金(62202451) 中国科学院青年基础研究(YSBR-029) 中国科学院青年创新促进会项目资助。; 文摘本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。DyCNN使用基于数据感知的指令动态过滤机制来滤除各计算单元中由于稀疏CNN中权值静态稀疏性和激活值动态稀疏性产生的大量无效计算和访存指令,使它们能像执行稠密网络一样高效复用一组指令。此外DyCNN利用基于负载感知的动静结合负载调度策略解决了稀疏导致的负载不均衡问题。实验结果表明,DyCNN运行稀疏CNN与运行密集CNN相比实现了平均1.69倍性能提升和3.04倍能效提升,比先进的GPU(cuSPARSE)和Cambricon-X上的解决方案分别实现了2.78倍、1.48倍性能提升和35.62倍、1.17倍能效提升。; 关键词稀疏卷积神经网络(CNN) 专用加速结构粗粒度可重构架构(CGRA) 动态指令过滤动态负载调度; Keywords sparse convolutional neural network(CNN) dedicated accelerator coarse-grained reconfigu-rable architecture(CGRA) dynamic instruction filtering dynamic workload balance; 分类号 TP332 [自动化与计算机技术—计算机系统结构] TP183 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名面向低精度神经网络的数据流体系结构优化被引量：2: 7; 作者范志华吴欣欣李文明曹华伟安学军叶笑春范东睿; 机构处理器芯片全国重点实验室(中国科学院计算技术研究所) 中国科学院大学计算机科学与技术学院; 出处《计算机研究与发展》 EI CSCD 北大核心 2023年第1期43-58,共16页; 基金中国科学院战略性先导科技专项(C类)(XDC05000000) 国家自然科学基金项目(61732018,61872335) +2 种基金中国科学院青年创新促进会。; 文摘数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问题:1)传统数据流架构的计算部件数据通路与低精度数据不匹配,无法体现低精度神经网络的性能和能效优势;2)向量化并行计算的低精度数据在片上存储中要求顺序排列,然而它在片外存储层次中是分散排列的,使得数据的加载和写回操作变得复杂,传统数据流架构的访存部件无法高效支持这种复杂的访存模式;3)传统数据流架构中使用双缓冲机制掩盖数据的传输延迟,但是,当传输低精度数据时,传输带宽的利用率显著降低,导致计算延迟无法掩盖数据传输延迟,双缓冲机制面临失效风险,进而影响数据流架构的性能和能效.为解决这3个问题,设计了面向低精度神经网络的数据流加速器DPU_Q.首先,设计了灵活可重构的计算单元,根据指令的精度标志位动态重构数据通路,一方面能高效灵活地支持多种低精度数据运算,另一方面能进一步提高计算并行性和吞吐量.另外,为解决低精度神经网络复杂的访存模式,设计了Scatter引擎,该引擎将在低层次或者片外存储中地址空间离散分布的低精度数据进行拼接、预处理,以满足高层次或者片上存储对数据排列的格式要求.同时,Scatter引擎能有效解决传输低精度数据时带宽利用率低的问题,解决了双缓冲机制失效的问题.最后,从软件方面提出了基于数据流执行模式的低精度神经网络映射算法,兼顾负载均衡的同时能对权重、激活值数据进行充分复用,减少了访存和数据流图节点间的数据传输开销.实验表明,相比于同精度的GPU(Titan Xp)、数据流架构(Eyeriss)和低精度神经网络加速器(BitFusion),DPU_Q分别获得3.18倍、6.05倍、1.52倍的性能提升和4.49倍、1.6倍、1.13倍的能效提升.; 关键词数据流架构低精度神经网络量化可重构架构直接内存访问; Keywords dataflow architecture low-precision neural network quantization reconfigurable architecture direct memory access; 分类号 TP183 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于可重构架构的数据中心异构加速软硬件系统级平台	王彦伟李仁刚徐冉刘钧锴	《计算机研究与发展》北大核心	2025	0	在线阅读下载PDF 职称材料
2	基于粗粒度可重构架构的并行FFT算法实现	曹鹏杨锦江梅晨	《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心	2013	3	在线阅读下载PDF 职称材料
3	面向媒体的粗粒度可重构架构层次化存储设计	曹鹏梅晨刘波	《上海交通大学学报》 EI CAS CSCD 北大核心	2014	0	在线阅读下载PDF 职称材料
4	面向分组密码算法的高面积效率可重构架构	杨锦江曹鹏杨军	《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心	2016	1	在线阅读下载PDF 职称材料
5	基于混合架构的双通道实时相关器实现	裴鑫聂俊陈卯蒸李健	《计算机工程》 CAS CSCD 北大核心	2016	1	在线阅读下载PDF 职称材料
6	面向稀疏卷积神经网络的CGRA加速器研究	谭龙严明玉吴欣欣李文明吴海彬范东睿	《高技术通讯》 CAS 北大核心	2024	1	在线阅读下载PDF 职称材料
7	面向低精度神经网络的数据流体系结构优化	范志华吴欣欣李文明曹华伟安学军叶笑春范东睿	《计算机研究与发展》 EI CSCD 北大核心	2023	2	在线阅读下载PDF 职称材料