期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
输入感知的通用矩阵-向量乘算法在Hygon DCU的自适应性能优化
1
作者 李庆 贾海鹏 +1 位作者 张云泉 张思佳 《计算机科学》 北大核心 2025年第4期291-300,共10页
GEMV(通用矩阵-向量乘法函数)是BLAS(基础线性代数子程序)算法库的核心组成部分,广泛用于计算机科学、工程计算和数学计算等领域。当前,随着国产Hygon DCU版本的不断迭代升级,Hygon DCU与传统GPU生产商之间也存在一定的竞争优势;随着GEM... GEMV(通用矩阵-向量乘法函数)是BLAS(基础线性代数子程序)算法库的核心组成部分,广泛用于计算机科学、工程计算和数学计算等领域。当前,随着国产Hygon DCU版本的不断迭代升级,Hygon DCU与传统GPU生产商之间也存在一定的竞争优势;随着GEMV应用领域的不断扩大,GEMV的输入特征体现出多样化的趋势。在这种背景下,单纯靠一种优化方法,无法实现GEMV算法在GPU计算平台上所有输入情况下的高性能。因此,在访存优化、指令重排、并行规约、共享内存、线程排布等传统优化手段的基础上,提出了一种输入感知的性能自适应优化方法,其能够根据输入矩阵的不同规模和形状自动调整计算kernel的实现方式以达到最佳性能,显著提高了GEMV在Hygon DCU上的性能。实验结果表明,在Hygon DCU Z100SM上,输入感知的通用矩阵-向量乘算法的整体性能明显优于RocBLAS库中的相关算法,对于不同的矩阵输入规模,性能最大提升为RocBLAS库中对应算法的3.0203倍。 展开更多
关键词 通用矩阵-向量乘 DCU 基础线性代数子程序函数库 自适应调优 性能优化
在线阅读 下载PDF
一种面向OpenCL架构的矩阵-向量乘并行算法与实现 被引量:2
2
作者 肖汉 周清雷 姚鹏姿 《小型微型计算机系统》 CSCD 北大核心 2019年第1期26-30,共5页
矩阵-向量乘法算法的时间复杂度大,传统计算方法的实时性和跨平台性难以保证.本文提出一种基于开放式计算语言(Open Computing Language,OpenCL)的矩阵-向量乘并行算法,矩阵-向量乘法过程被分解成若干具有不同粒度的子任务.根据相应的... 矩阵-向量乘法算法的时间复杂度大,传统计算方法的实时性和跨平台性难以保证.本文提出一种基于开放式计算语言(Open Computing Language,OpenCL)的矩阵-向量乘并行算法,矩阵-向量乘法过程被分解成若干具有不同粒度的子任务.根据相应的并行度,每个工作组进行矩阵中的行块与列向量的乘积,每个工作项进行行块中行向量与列向量的乘积,并把计算任务分别分配到计算单元和处理单元进行处理.实验结果表明,与基于CPU的串行算法、基于OpenMP并行算法和基于统一计算设备架构(Compute Unified Device Architecture,CUDA)并行算法性能相比,矩阵-向量乘并行算法在OpenCL架构下NVIDIA图形处理器(Graphic Processing Unit,GPU)计算平台上分别获得了20. 86倍、6. 39倍和1. 49倍的加速比.验证了提出的并行优化方法的有效性和性能可移植性. 展开更多
关键词 矩阵-向量乘 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
矩阵加权QR分解的一阶扰动界 被引量:1
3
作者 吕鹏 李寒宇 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2016年第4期725-731,共7页
利用经典的矩阵方程方法、修正的矩阵方程方法和矩阵-向量方程方法讨论加权QR分解的扰动分析问题,得到了范数型扰动下的范数型一阶扰动界.
关键词 加权QR分解 范数型扰动 一阶扰动界 矩阵-向量方程方法
在线阅读 下载PDF
基于FPGA的电磁瞬态仿真器研究 被引量:3
4
作者 刘志恒 孟晓凯 +1 位作者 张帆 冉宁 《高电压技术》 EI CAS CSCD 北大核心 2019年第7期2046-2052,共7页
为了提高配电网故障电磁瞬态特性的实时仿真效率,避免复杂的现场可编程门阵列(field-programmable gatearray,FPGA)编程,本文研究了一种基于FPGA的自动实时电磁瞬态仿真器。首先通过综合改进的增广节点分析(modified augmented nodal an... 为了提高配电网故障电磁瞬态特性的实时仿真效率,避免复杂的现场可编程门阵列(field-programmable gatearray,FPGA)编程,本文研究了一种基于FPGA的自动实时电磁瞬态仿真器。首先通过综合改进的增广节点分析(modified augmented nodal analysis, MANA)方法和固定的导纳矩阵节点方法(fixed admittance matrix nodal method,FAMNM)构建了求解器;然后基于开关电导参数的最优选择,建立了高效的稀疏矩阵-向量乘法器;最后通过对三相配电网络中的单相接地故障后电磁瞬态特性进行测试,验证了仿真器的性能。实验结果表明:MANA-FAMNM的特殊结构可以实现极低的积分时间步长,并且避免了仿真器重新设计FPGA代码,该应用程序可直接用于不同的拓扑结构;仿真器能够实时精确地再现配电网故障中发生的电磁瞬态特性以及在传输线中传播的电磁波,FPGA-RTS仿真与软件EMTP-RV离线仿真的C相相电压值的最大误差约为0.006pu,完全满足工程应用的要求。该仿真器可以推广到工业实时嵌入系统中。 展开更多
关键词 自动实时仿真 电磁瞬变 FPGA-RTS 矩阵-向量乘法器 求解器 单相接地故障
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部