期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Tensor Cores的新型GPU架构的高性能Cholesky分解
1
作者 石璐 邹高远 +1 位作者 伍思琦 张少帅 《计算机工程与科学》 北大核心 2025年第7期1170-1180,共11页
稠密矩阵乘法(GEMMs)在Tensor Cores上可以实现高度优化。然而,现有的Cholesky分解的实现由于其有限的并行性无法达到Tensor Cores大部分的峰值性能。研究使用一种递归Cholesky分解的算法,通过将对角线块的递归细分,将原本的对称矩阵秩... 稠密矩阵乘法(GEMMs)在Tensor Cores上可以实现高度优化。然而,现有的Cholesky分解的实现由于其有限的并行性无法达到Tensor Cores大部分的峰值性能。研究使用一种递归Cholesky分解的算法,通过将对角线块的递归细分,将原本的对称矩阵秩K更新(SYRK)和三角方程组求解(TRSM)操作转化为大量的通用矩阵乘法(GEMMs),从而更充分地发挥Tensor Cores的峰值性能。实验结果表明,提出的递归Cholesky分解算法在FP32和FP16上分别比MAGMA/cuSOLVER算法提高了1.72倍和1.62倍。 展开更多
关键词 CHOLESKY分解 高性能计算 数值线性代数 通用图形处理器(GPGPU)
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部