期刊文献+
共找到72篇文章
< 1 2 4 >
每页显示 20 50 100
面向脉动阵列加速器的软硬件协同容错设计
1
作者 魏晓辉 关泽宇 +2 位作者 王晨洋 岳恒山 吴旗 《计算机科学》 北大核心 2025年第5期91-100,共10页
近年来,随着模型推理精度的不断提高,卷积神经网络(CNN)在安全关键领域得到了广泛应用。为了满足CNN在实时性、高性能和低功耗计算方面的需求,领域专用架构的CNN加速器应运而生。其中,脉动阵列架构凭借其结构简单和高并行度等优势被广... 近年来,随着模型推理精度的不断提高,卷积神经网络(CNN)在安全关键领域得到了广泛应用。为了满足CNN在实时性、高性能和低功耗计算方面的需求,领域专用架构的CNN加速器应运而生。其中,脉动阵列架构凭借其结构简单和高并行度等优势被广泛应用。然而,由于制程变异和设备老化等因素的影响,脉动阵列容易发生Stuck-At故障(SAF),进而可能导致灾难性事故。因此,制定针对脉动阵列的容错策略显得尤为重要。然而,现有的容错策略存在时间和资源开销大、网络参数修改过多等问题。为实现高效且低开销的轻量级容错策略,拟挖掘CNN的固有容错能力,对部分影响较小的SAF进行松弛处理,以减少整体容错开销。同时,充分考虑脉动阵列的计算特性,提出了行(列)交换和权重拆分两种软硬件协同容错设计,有效缓解SAF对模型推理精度的影响。实验结果表明,相较于传统行(列)跳过策略和选择保护策略,所提软硬件协同容错策略在执行效率和模型精度恢复方面更具优势。 展开更多
关键词 卷积神经网络 容错设计 Stuck-At故障 脉动阵列 卷积神经网络加速器
在线阅读 下载PDF
基于脉动阵列的自适应光学实时波前处理机设计 被引量:5
2
作者 郑文佳 王春鸿 +2 位作者 姜文汉 李梅 唐端午 《光电工程》 CAS CSCD 北大核心 2008年第5期44-49,共6页
针对自适应光学系统对波前处理机高计算量、高实时性的要求,本文提出了一种基于脉动阵列的自适应光学实时波前处理方法。该方法将脉动阵列的概念引入波前处理机设计,完成了波前斜率计算、复原运算和控制运算向脉动阵列的映射,合理地建... 针对自适应光学系统对波前处理机高计算量、高实时性的要求,本文提出了一种基于脉动阵列的自适应光学实时波前处理方法。该方法将脉动阵列的概念引入波前处理机设计,完成了波前斜率计算、复原运算和控制运算向脉动阵列的映射,合理地建立了数据的深度流水线,同时分析了以FPGA技术实现时系统的计算延时。对于48个子孔径、61单元的自适应光学系统,以一片Xilinx Virtex-ⅡXC2V3000芯片实现了基于脉动阵列的实时波前处理机,实验测得计算延时仅8.6μs,结果表明该方法能极大地提高系统的实时性、集成度、通用性和扩展性。 展开更多
关键词 自适应光学 波前处理机 脉动阵列 FPGA
在线阅读 下载PDF
用于MIMO-OFDM系统QR分解的分布式脉动阵列处理算法 被引量:4
3
作者 朱勇旭 吴斌 +2 位作者 周玉梅 蔡菁菁 夏凯锋 《电子与信息学报》 EI CSCD 北大核心 2012年第8期1968-1973,共6页
针对多载波系统中信道矩阵QR(正交三角矩阵)分解的延时问题,该文提出适用于MIMO-OFDM系统QR分解的分布式脉动阵列处理(Distributed Systolic Array Processing,DSAP)算法。该算法包含两种处理机制,一是交织预处理,对不同子载波信道矩阵... 针对多载波系统中信道矩阵QR(正交三角矩阵)分解的延时问题,该文提出适用于MIMO-OFDM系统QR分解的分布式脉动阵列处理(Distributed Systolic Array Processing,DSAP)算法。该算法包含两种处理机制,一是交织预处理,对不同子载波信道矩阵行矢量进行分组交织处理,按照延时递增规律将每列信道矩阵元素读出并输入到脉动阵列;二是分布式脉动阵列计算,通过脉动阵列边界单元和内部单元中流水线CORDIC计算和子载波同步处理实现信道矩阵QR分解分布式处理,实现不同子载波QR分解分布于脉动阵列边界单元和内部单元中CORDIC不同级。与串行脉动阵列处理(Serial Systolic Array Processing,SSAP)算法比,DSAP算法充分利用时钟周期,分解延时约为SSAP算法的8%,有效减少数据处理延时,而复杂度几乎没有增加。 展开更多
关键词 无线通信 QR(正交三角矩阵)分解 分布式脉动阵列处理 MIMO—OFDM 低延时
在线阅读 下载PDF
基于线性双向脉动阵列的自适应光学波前复原 被引量:2
4
作者 郑文佳 王春鸿 +2 位作者 姜文汉 李梅 唐端午 《红外与激光工程》 EI CSCD 北大核心 2007年第6期936-940,共5页
针对自适应光学系统,提出了一种基于线性双向流水脉动阵列的快速波前复原方法。该方法结合直接斜率波前复原算法和线性双向脉动阵列工作特点,通过对复原矩阵进行PCT数据变换和引入资源共享,提高了阵列的单元利用率,减少了资源占用且保... 针对自适应光学系统,提出了一种基于线性双向流水脉动阵列的快速波前复原方法。该方法结合直接斜率波前复原算法和线性双向脉动阵列工作特点,通过对复原矩阵进行PCT数据变换和引入资源共享,提高了阵列的单元利用率,减少了资源占用且保证了计算的实时性,同时具有阵列结构简单规整、模块性强、可扩展性好等优点。最后在FPGA上实现了61单元48子孔径自适应光学系统的波前复原,验证了方法的可行性。 展开更多
关键词 自适应光学 波前复原 脉动阵列 资源共享
在线阅读 下载PDF
用脉动阵列实现实时波前复原处理 被引量:2
5
作者 王彩霞 李梅 +1 位作者 王春鸿 周璐春 《光电工程》 EI CAS CSCD 北大核心 2004年第3期1-3,15,共4页
在自适应光学系统中,波前复原是波前处理中运算量较大的部分,其运算速度直接影响波前处理机的实时性和系统的控制带宽。根据波前复原算法的特点,提出了用脉动阵列实现基于FPGA的实时波前复原处理方法,采用流水和并行处理技术,提高系统... 在自适应光学系统中,波前复原是波前处理中运算量较大的部分,其运算速度直接影响波前处理机的实时性和系统的控制带宽。根据波前复原算法的特点,提出了用脉动阵列实现基于FPGA的实时波前复原处理方法,采用流水和并行处理技术,提高系统的吞吐率;极大地提高了运算速度。该方法实时性强,模块化程度高。 展开更多
关键词 自适应光学 波前复原 脉动阵列 现场可编程门阵列
在线阅读 下载PDF
基于新型脉动阵列的RSA密码处理器 被引量:2
6
作者 刘强 马芳珍 +1 位作者 佟冬 程旭 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第3期495-500,共6页
应用于RSA密码系统的蒙哥马利模乘法算法,在专用集成电路实现时可以采用脉动阵列结构。长比特(10 2 4位以上)数据的全局信号传输和乘法器的动态分割问题,对于RSA密码处理器的速度提高是非常重要的因素。作者提出一种基于模块的全局信号... 应用于RSA密码系统的蒙哥马利模乘法算法,在专用集成电路实现时可以采用脉动阵列结构。长比特(10 2 4位以上)数据的全局信号传输和乘法器的动态分割问题,对于RSA密码处理器的速度提高是非常重要的因素。作者提出一种基于模块的全局信号广播策略,减少全局信号的影响:通过采用流水化的总线传送全局数据;通过移位寄存器传送控制信号以及用于连续的乘法的中间结果。除了全局时钟之外的信号都被限定在一个模块内部或者相邻的2个模块之间。中国剩余定理(CRT)的采用,将解密速度提高了近4倍,作者提出一种冗余结构,使得在采用CRT时乘法器可以有效的进行动态分割。 展开更多
关键词 RSA密码处理器 蒙哥马利模乘法器 模乘幂运算器 公钥基础设施 超大规模集成电路 脉动阵列 深亚微米技术 中国剩余定理
在线阅读 下载PDF
BP算法的脉动阵列结构在FPGA上的实现 被引量:4
7
作者 郝智泉 王贞松 《计算机工程》 CAS CSCD 北大核心 2006年第21期18-21,共4页
提出了一种用于实现BP神经网络的串行输入串行输出的脉动阵列结构,在FPGA上实现了基于该阵列结构的用于进行“A-Z”的印刷体字符识别系统。文中对FPGA中运算部件的微结构进行了讨论。实验结果表明,与软件实现相比用FPGA实现神经网络算... 提出了一种用于实现BP神经网络的串行输入串行输出的脉动阵列结构,在FPGA上实现了基于该阵列结构的用于进行“A-Z”的印刷体字符识别系统。文中对FPGA中运算部件的微结构进行了讨论。实验结果表明,与软件实现相比用FPGA实现神经网络算法能够极大地提高BP网络的学习和分类速度。 展开更多
关键词 神经网络 脉动阵列结构 BP算法 FPGA
在线阅读 下载PDF
基于帧级流水脉动阵列结构的运动估计电路 被引量:3
8
作者 何卫锋 毛志刚 《电子学报》 EI CAS CSCD 北大核心 2005年第8期1487-1491,共5页
在将标准的六层Do循环嵌套FSBM算法等效变换成一种新的两层Do循环嵌套算法的基础上,本文提出了三种基于搜索距离分别为P=KN(K≥1),P=N/2和P=N的脉动阵列结构的运动估计电路.上述结构除了支持帧级流水操作外,而且在取得近似100%的阵列流... 在将标准的六层Do循环嵌套FSBM算法等效变换成一种新的两层Do循环嵌套算法的基础上,本文提出了三种基于搜索距离分别为P=KN(K≥1),P=N/2和P=N的脉动阵列结构的运动估计电路.上述结构除了支持帧级流水操作外,而且在取得近似100%的阵列流水效率的同时,具有硬件开销小、输入端口数少等特点,可广泛应用于DTV和HDTV等领域. 展开更多
关键词 全搜索块匹配算法 脉动阵列 运动估计 VLSI结构
在线阅读 下载PDF
脉动阵列算法自动综合的优化策略 被引量:3
9
作者 王树义 钱达源 《计算机学报》 EI CSCD 北大核心 1996年第9期661-667,共7页
对于脉动阵列算法的自动综合方法,本文揭示了参数确定法和相关性变换法的本质联系,给出了相关性变换法适用问题类的一个新的高效寻优策略.
关键词 脉动阵列 自动综合 优化策略 计算机算法
在线阅读 下载PDF
自适应光学波前控制算法的脉动阵列结构 被引量:1
10
作者 郑文佳 王春鸿 +2 位作者 姜文汉 李梅 唐端午 《数据采集与处理》 CSCD 北大核心 2008年第4期444-448,共5页
提出了一种用于自适应光学波前控制算法的脉动阵列结构。该结构将波前控制算法分为递归运算和卷积运算两部分后,采用规范映射方法将其分别映射到脉动阵列,再将两个阵列链接以实现单路的波前控制运算。同时将处理单元共享引入阵列,并设... 提出了一种用于自适应光学波前控制算法的脉动阵列结构。该结构将波前控制算法分为递归运算和卷积运算两部分后,采用规范映射方法将其分别映射到脉动阵列,再将两个阵列链接以实现单路的波前控制运算。同时将处理单元共享引入阵列,并设计了以队列方式进行数据传递的脉动通信模式,将n路控制电压以分时复用的方式在一个阵列中串行计算以提高处理单元的利用率,减少硬件资源占用。实验表明,该结构具有控制流、数据流简单,硬件资源少等优点,且实时性强、模块化程度高。 展开更多
关键词 自适应光学 脉动阵列 波前控制算法 规范映射 脉动通信模式
在线阅读 下载PDF
基于脉动阵列的FIR滤波器设计 被引量:3
11
作者 李岩 朱忠义 徐金甫 《现代电子技术》 2007年第19期98-100,共3页
为了提高FIR滤波器的运算速度,把脉动阵列的处理器结构和FIR滤波器相结合,设计了高效的FIR滤波器。该结构具有模块化、规则性和高度流水的特点。在FPGA上验证,实验结果表明,该设计达到了较高的运算速度,可以满足数字信号处理中高效、实... 为了提高FIR滤波器的运算速度,把脉动阵列的处理器结构和FIR滤波器相结合,设计了高效的FIR滤波器。该结构具有模块化、规则性和高度流水的特点。在FPGA上验证,实验结果表明,该设计达到了较高的运算速度,可以满足数字信号处理中高效、实时的要求。而且该结构易于扩展,可实现任意阶的FIR滤波器。 展开更多
关键词 脉动阵列 FIR滤波器 流水线 FPGA
在线阅读 下载PDF
基于控制流的实时波前复原脉动阵列 被引量:1
12
作者 周璐春 王春鸿 +1 位作者 李梅 姜文汉 《光电工程》 CAS CSCD 北大核心 2008年第4期39-42,52,共5页
波前复原算法是自适应光学波前信号处理的中枢部分。针对波前复原算法计算量大、算法简单规则的特点,本文研究了波前复原部分的并行算法以及复原矩阵的子孔径行系数簇变换和循环矩阵分解法,同时建立了基于控制流的波前复原脉动阵列。针... 波前复原算法是自适应光学波前信号处理的中枢部分。针对波前复原算法计算量大、算法简单规则的特点,本文研究了波前复原部分的并行算法以及复原矩阵的子孔径行系数簇变换和循环矩阵分解法,同时建立了基于控制流的波前复原脉动阵列。针对一套128单元自适应光学系统,进行了基于控制流波前复原脉动阵列和传统复原脉动阵列的实验研究,实验结果表明基于控制流的波前复原脉动阵列在实时性上略逊于传统脉动复原阵列,资源占用仅为传统脉动复原阵列的几十到几百分之一。 展开更多
关键词 自适应光学系统 波前复原运算 矩阵运算 并行算法 脉动阵列
在线阅读 下载PDF
蒙哥马利算法到脉动阵列的规范映射方法 被引量:1
13
作者 刘强 佟冬 程旭 《计算机工程与应用》 CSCD 北大核心 2004年第34期1-2,17,共3页
蒙哥马利算法是在RSA密码系统中广泛应用的模乘法算法。该文介绍蒙哥马利算法到脉动阵列的映射过程,阐述了从算法到脉动阵列的规范映射方法。阵列的时钟周期长度大致是两个单位全加器延迟,n位模乘法的计算延迟是2n+2个时钟周期。模块化... 蒙哥马利算法是在RSA密码系统中广泛应用的模乘法算法。该文介绍蒙哥马利算法到脉动阵列的映射过程,阐述了从算法到脉动阵列的规范映射方法。阵列的时钟周期长度大致是两个单位全加器延迟,n位模乘法的计算延迟是2n+2个时钟周期。模块化、规则化、通信局部化等特征,使得脉动阵列特别适合采用深亚微米VLSI技术实现,并获得很高的工作频率,从而提高处理速度。 展开更多
关键词 蒙哥马利算法 脉动阵列 模乘法器 RSA 公开密钥密码系统
在线阅读 下载PDF
运动估计芯片中降低局存与脉动阵列数据宽度的设计方法 被引量:1
14
作者 傅宇卓 胡铭曾 方滨兴 《计算机研究与发展》 EI CSCD 北大核心 1999年第8期943-947,共5页
文中针对运动估计芯片中极为重要的存储器的结构设计,提出了一种降低局存与运算阵列端口数的设计方法,使局存的控制结构得到极大简化.文中应用这种方法,对AB2,AS2结构进行改造,得到两种具有工程实用性的新型结构.端口数的... 文中针对运动估计芯片中极为重要的存储器的结构设计,提出了一种降低局存与运算阵列端口数的设计方法,使局存的控制结构得到极大简化.文中应用这种方法,对AB2,AS2结构进行改造,得到两种具有工程实用性的新型结构.端口数的降低会带来运算阵列计算效率的下降,为此又推导了一个平衡端口数与计算效率的公式.本文研究来自于实现运动估计芯片的工作中,对研究MPEG-2视频编码器的VLSI实时实现有一定的参考价值. 展开更多
关键词 存储器 脉动阵列 运动估计芯片 数据宽度 设计
在线阅读 下载PDF
算法到脉动阵列处理器的映射 被引量:1
15
作者 霍红卫 庄心谷 《计算机研究与发展》 EI CSCD 北大核心 1997年第11期812-816,共5页
文中讨论了将含有循环的算法映射到脉动阵列的一般方法.这一映射方法是建立在下标集和数据相关向量的数学变换基础上,并给出了带有常数据相关的算法中存在有效变换的充要条件.最后给出计算所有点对之间最短路径问题的映射过程.
关键词 数据相关 算法 脉动阵列处理器
在线阅读 下载PDF
DCT,DHT与DFT脉动阵列实现 被引量:3
16
作者 马维祯 《信号处理》 CSCD 北大核心 1991年第3期146-152,共7页
本文提出一种新型计算离散正交变换如DCT、DHT(DWT)和DFT的脉动阵列实现.脉动算法是基于Vetterli-Nussbaumer提出的FFCT和三角函数递归公式.文中绐出了两种基于特殊蝶形运算的处理单元和两种计算DCT,DHT(DWT)和DFT的脉动阵列实现.利用... 本文提出一种新型计算离散正交变换如DCT、DHT(DWT)和DFT的脉动阵列实现.脉动算法是基于Vetterli-Nussbaumer提出的FFCT和三角函数递归公式.文中绐出了两种基于特殊蝶形运算的处理单元和两种计算DCT,DHT(DWT)和DFT的脉动阵列实现.利用两种不同的DCT脉动阵列的特点,文中也给出了二维DCT脉动阵列实现,所有运算都在实数域中进行.由于这些计算具有高度的简便性、规则性、灵活性和一致性,它们的超大规模集成实现将是有效的. 展开更多
关键词 计算 脉动阵列 信号处理系统
在线阅读 下载PDF
QoS中堆排序的脉动阵列结构在FPGA上的实现 被引量:1
17
作者 吴彦宏 陈相宁 《科学技术与工程》 2008年第19期5434-5438,共5页
提出了一种用于实现堆排序的串行输入输出的脉动阵列结构,在FPGA上实现了基于该阵列结构的具有QoS保证的核心交换模块。对FPGA中运算部件的微结构进行了分析。实验结果表明,与软件实现相比用FPGA实现堆排序算法能够极大地提高运行速率... 提出了一种用于实现堆排序的串行输入输出的脉动阵列结构,在FPGA上实现了基于该阵列结构的具有QoS保证的核心交换模块。对FPGA中运算部件的微结构进行了分析。实验结果表明,与软件实现相比用FPGA实现堆排序算法能够极大地提高运行速率和优化时序,适用于优秀QoS机制的硬件现实。 展开更多
关键词 脉动阵列 堆排序 QOS FPGA VERILOG HDL语言
在线阅读 下载PDF
一种新的脉动阵列RS码编码方法
18
作者 曾晓洋 章倩苓 +1 位作者 郝志航 魏仲慧 《通信学报》 EI CSCD 北大核心 2002年第7期76-82,共7页
本文首先讨论了一种适用于高速场合的RS编码器的算法与结构—它由1+r个脉动单元组成,其中r为校验位的数目。这种编码算法是基于码生成元矩阵的柯西表达,编码器中没有限制其开关速度的全局时钟,故可在高速场合中得到应用,然后给出了一种... 本文首先讨论了一种适用于高速场合的RS编码器的算法与结构—它由1+r个脉动单元组成,其中r为校验位的数目。这种编码算法是基于码生成元矩阵的柯西表达,编码器中没有限制其开关速度的全局时钟,故可在高速场合中得到应用,然后给出了一种应用于该编码器的改进方案:该方案消除了柯西单元中的除法器,并且还没有了求逆运算,故降低了编码器的复杂度,可有效地加速编码器的数据吞吐率,从而使其更适用于极高速场合。 展开更多
关键词 脉动阵列 RS码 编码器 脉动结构 除-累加算法
在线阅读 下载PDF
基于QR-RLS脉动阵列的非线性功放建模
19
作者 曾兴斌 屠秋萍 +3 位作者 刘太君 范志蔚 叶焱 文化锋 《微波学报》 CSCD 北大核心 2009年第3期60-63,共4页
在宽带通信系统中,功率放大器表现出明显的记忆效应,无记忆模型无法准确描述其输入输出特性。采用Hamm erste in模型预测实际宽带发射机的记忆效应,并用脉动阵列的QR-RLS算法实现了快速高效的参数提取,不仅具有良好数值稳定性、减小了... 在宽带通信系统中,功率放大器表现出明显的记忆效应,无记忆模型无法准确描述其输入输出特性。采用Hamm erste in模型预测实际宽带发射机的记忆效应,并用脉动阵列的QR-RLS算法实现了快速高效的参数提取,不仅具有良好数值稳定性、减小了运算量和数据存储空间,而且易于在FPGA中实现。 展开更多
关键词 HAMMERSTEIN模型 记忆效应 查找表 分解的递归最小二乘算法 脉动阵列
在线阅读 下载PDF
基于代数变换的脉动阵列的综合
20
作者 孙永强 胡振江 袁昕 《上海交通大学学报》 EI CAS CSCD 北大核心 1992年第6期10-18,共9页
本文给出一个基于代数变换的脉动阵列的自动综合系统,它能自动地将用FP 描述的并行算法程序变换成脉动算法的形式描述。这与以往的人为地借助于FP代数进行脉动阵列设计的ad hoc 的讨论不同.为了便于描写并行算法,首先扩充了原来的FP,引... 本文给出一个基于代数变换的脉动阵列的自动综合系统,它能自动地将用FP 描述的并行算法程序变换成脉动算法的形式描述。这与以往的人为地借助于FP代数进行脉动阵列设计的ad hoc 的讨论不同.为了便于描写并行算法,首先扩充了原来的FP,引入了流递归方程和若干高阶算子.同时为了便于全自动的综合,对FP 的递归方程进行了限制,提出了结构递归方程.在此基础上,还给出了一个系统化的且可构造的脉动阵列自动综合的算法,包括递归方程的展开,规整结构的映射和同步机制的实现. 展开更多
关键词 代数变换 脉动阵列 FP语言
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部