期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
ScaLapack的结构、功能和数据布局
1
作者 秦忠国 姜弘道 《计算机工程》 CAS CSCD 北大核心 1998年第3期21-22,40,共3页
ScaLapack是一个并行计算软件包,适用于分布存储的MIMD并行机.ScaLapack提供若干线性代数来解功能,具有高效、可移植。可伸缩、高可靠性的优点,利用它的求解库可以开发出基于线性代数运算的并行应用程序.文章对ScaLapack的结构、... ScaLapack是一个并行计算软件包,适用于分布存储的MIMD并行机.ScaLapack提供若干线性代数来解功能,具有高效、可移植。可伸缩、高可靠性的优点,利用它的求解库可以开发出基于线性代数运算的并行应用程序.文章对ScaLapack的结构、功能、数据布局等方面进行了讨论。 展开更多
关键词 并行计算软件 scalapack 数据布局 水利工程
在线阅读 下载PDF
基于鲲鹏处理器的LU并行分解优化算法 被引量:1
2
作者 徐鹤 周涛 +2 位作者 李鹏 秦芳芳 季一木 《计算机科学》 CSCD 北大核心 2024年第9期51-58,共8页
ScaLAPACK(Scalable Linear Algebra PACKage)是并行计算软件包,适用于分布式存储的MIMD(Multiple Instruction,Multiple Data)并行计算机,被广泛应用于基于线性代数运算的并行应用程序开发。然而在进行LU分解过程中,ScaLAPACK库中的例... ScaLAPACK(Scalable Linear Algebra PACKage)是并行计算软件包,适用于分布式存储的MIMD(Multiple Instruction,Multiple Data)并行计算机,被广泛应用于基于线性代数运算的并行应用程序开发。然而在进行LU分解过程中,ScaLAPACK库中的例程并不是通信最优的,没有充分利用当前的并行架构。针对上述问题,提出一种基于鲲鹏处理器的LU并行分解优化算法(Parallel LU Factorization,PLF),实现了负载均衡,适配国产鲲鹏环境。PLF对不同进程的不同分区的数据进行差异化处理,并将每个进程所拥有的部分数据分配给根进程进行计算,之后再由根进程散播回各个子进程,这有利于充分利用CPU资源,实现负载均衡。在单节点Intel 9320R处理器以及鲲鹏(Kunpeng)920处理器环境中进行测试,其中,Intel平台下使用Intel MKL(Math Kernel Library),Kunpeng平台下使用PLF算法。对比两个平台关于不同规模的方程组求解的性能发现,Kunpeng平台的求解性能有显著优势。在NUMA数进程和单线程的情况下,优化后的计算效率在小规模平均达到4.35%,相比Intel的1.38%提升了215%;中规模平均达到4.24%,相比Intel平台的1.86%提升了118%;大规模平均达到4.24%,相比Intel的1.99%提升了113%。 展开更多
关键词 scalapack LU分解 并行计算 MKL
在线阅读 下载PDF
基于BLACS的2.5D并行矩阵乘法 被引量:1
3
作者 廖霞 李胜国 +1 位作者 卢宇彤 杨灿群 《计算机学报》 EI CAS CSCD 北大核心 2021年第5期1037-1050,共14页
并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之... 并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之一.本文提出一种新型的分布式并行稠密矩阵乘算法,即2.5D版本的PUMMA(Parallel Universal Matrix Multiplication Algorithm)算法,该算法是通过将初始的进程分成c组,利用计算节点的额外内存,在每个进程组上同时存储矩阵A、B和执行1/c的PUMMA算法,最后通过规约操作来得到矩阵乘的最终结果.本文基于BLACS(Basic Linear Algebra Communication Subprograms)通信库实现了一种从2D到2.5D的新型数据重分配算法,与PUMMA算法相结合,最终得到2.5D PUMMA算法,可直接替换PDGEMM(Parallel Double-precision General Matrix-matrix Multiplication),具有良好的可移植性.与国际标准算法库ScaLAPACK(Scalable Linear Algebra PACKage)中的PDGEMM等经典2D算法相比,本文算法缩减了通信次数,提高了数据局部性,具有更好的可扩展性.在进程数较多时,例如4096进程时,系统测试表明相对PDGEMM的加速比可达到2.20~2.93.进一步地,本文将2.5D PUMMA算法应用于加速计算对称三对角矩阵的特征值分解,其加速比可达到1.2以上.本文通过大量数值算例分析了2.5D PUMMA算法的性能,并给出了实用性建议和总结了未来的工作. 展开更多
关键词 2.5D并行矩阵乘算法 scalapack PUMMA矩阵乘算法 SUMMA算法 分布式并行
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部