矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强...矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。展开更多
矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提...矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。展开更多
DPA(Differential Power Analysis)攻击的强度取决于芯片电路功耗与所处理的数据之间的相关性以及攻击者对算法电路实现细节的了解程度.本文结合动态差分逻辑和可配置逻辑的特点,提出了一种具有抗DPA攻击能力的双端输出可配置逻辑(DRCL:...DPA(Differential Power Analysis)攻击的强度取决于芯片电路功耗与所处理的数据之间的相关性以及攻击者对算法电路实现细节的了解程度.本文结合动态差分逻辑和可配置逻辑的特点,提出了一种具有抗DPA攻击能力的双端输出可配置逻辑(DRCL:Dual-Rail Configurable Logic).该逻辑一方面具有与数据取值无关的信号翻转率和信号翻转时刻,因而能够实现很好的功耗恒定特性;另一方面去除了电路结构与电路功能之间的相关性,从而可以阻止攻击者通过版图逆向分析的方法窃取算法电路实现细节.实验结果表明,DRCL比典型的抗DPA攻击逻辑WDDL(Wave Dynamic Differential Logic)具有更好的功耗恒定性,因而具有更强的DPA攻击防护性能.展开更多
时序约束下的大规模数据分发在互联网环境下有着越来越广泛的应用.现有的系统大多采用mesh结构组织结点,并通过运行在请求结点的调度算法来控制数据的分发.但请求结点只依据自身的需求来调度数据,并不能保证系统的整体服务效果.本文以...时序约束下的大规模数据分发在互联网环境下有着越来越广泛的应用.现有的系统大多采用mesh结构组织结点,并通过运行在请求结点的调度算法来控制数据的分发.但请求结点只依据自身的需求来调度数据,并不能保证系统的整体服务效果.本文以改善整体服务效果为目标,提出一种面向服务结点的调度算法———时序约束下的快速分发算法DSF(Deadline Sensitive Fast distribution).该算法的基本思想是:当服务结点面临多个邻居结点的多个数据请求时,选择系统最迫切需要的数据,优先传输给继续服务能力较强的结点,以达到减少迟到数据比例、提高数据传输率、优化系统持续服务能力的目的.实验结果表明,与面向请求结点的调度算法相比,DSF在流传输质量、分发速率、负载均衡等方面均具有较好的特性.展开更多
文摘矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。
文摘时序约束下的大规模数据分发在互联网环境下有着越来越广泛的应用.现有的系统大多采用mesh结构组织结点,并通过运行在请求结点的调度算法来控制数据的分发.但请求结点只依据自身的需求来调度数据,并不能保证系统的整体服务效果.本文以改善整体服务效果为目标,提出一种面向服务结点的调度算法———时序约束下的快速分发算法DSF(Deadline Sensitive Fast distribution).该算法的基本思想是:当服务结点面临多个邻居结点的多个数据请求时,选择系统最迫切需要的数据,优先传输给继续服务能力较强的结点,以达到减少迟到数据比例、提高数据传输率、优化系统持续服务能力的目的.实验结果表明,与面向请求结点的调度算法相比,DSF在流传输质量、分发速率、负载均衡等方面均具有较好的特性.