期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
布尔矩阵乘的分布式异构并行优化 被引量:1
1
作者 朱敏 唐波 +2 位作者 赵娟 邹丹 李金才 《计算机工程与科学》 CSCD 北大核心 2017年第4期634-640,共7页
布尔多项式求解是当今密码代数分析中的关键步骤,F4算法是布尔多项式求解的高效算法。分析了Lachartre为F4矩阵专门设计的高斯消去算法,针对其中布尔矩阵乘这一耗时的计算步骤,设计并实现了分布式异构(CPU+MIC)并行算法。布尔矩阵相对... 布尔多项式求解是当今密码代数分析中的关键步骤,F4算法是布尔多项式求解的高效算法。分析了Lachartre为F4矩阵专门设计的高斯消去算法,针对其中布尔矩阵乘这一耗时的计算步骤,设计并实现了分布式异构(CPU+MIC)并行算法。布尔矩阵相对于普通矩阵主要体现在矩阵元素取值区间不一样上,由于布尔矩阵元素(0,1)导致矩阵乘操作的特殊性,普通矩阵乘的优化方法不能很好地满足布尔矩阵乘的需求。分别从布尔矩阵的存储、OpenMP多线程组织、访存、任务划分和调度等方面进行了性能优化,实现了布尔矩阵乘的分布式异构并行算法。通过随机生成布尔矩阵测试,优化后的分布式异构并行程序相较于分布式同构并行程序达到了2.45的加速比,体现了良好的性能提升。 展开更多
关键词 F4算法 二元域 布尔矩阵乘 分布式异构并行
在线阅读 下载PDF
UNIX负载采集系统的设计与实现 被引量:1
2
作者 张博 周兴社 +1 位作者 谷建华 武彦萍 《小型微型计算机系统》 CSCD 北大核心 1996年第10期40-44,共5页
在网络计算环境中,负载信息是任务分配的依据,如何获取、传递和使用各处理机的负载信息则是一项关键技术,它决定着任务分配的优劣,影响着并行分布计算的性能。本文提出了一个UNIX负载采集系统的设计与实现。
关键词 操作系统 UNIX 负载采集系统 设计
在线阅读 下载PDF
从大型体数据集中生成等值面的并行算法
3
作者 黄朝晖 李晓梅 《计算机工程与科学》 CSCD 1997年第3期47-49,54,共4页
从体数据集中生成等值面是体可视化的主要技术之一。当体数据集的数据量很大时,计算量也随之增大,单处理机的存储与计算能力难以胜任其可视化要求,基于并行与分布式计算环境设计并行可视化算法是有效的办法。本文基于工作站群机系统... 从体数据集中生成等值面是体可视化的主要技术之一。当体数据集的数据量很大时,计算量也随之增大,单处理机的存储与计算能力难以胜任其可视化要求,基于并行与分布式计算环境设计并行可视化算法是有效的办法。本文基于工作站群机系统的PVM环境,设计并实现了一种有效的、从大型体数据集中生成等值面的并行算法。 展开更多
关键词 体可视化 等值面 并行算法 体数据
在线阅读 下载PDF
基于直径为2的摩尔图网络的并行矩阵乘算法
4
作者 张冰 《计算机学报》 EI CSCD 北大核心 2013年第9期1843-1849,共7页
提出了一个并行矩阵乘算法IPBPMM(Interconnected Processor-Based Parallel Matrix Multiplication).该算法运行在以五角形、Petersen图和Hoffman-Singleton图等直径为2的摩尔图(满足n=d2+1,n为节点数,d为度)为拓扑结构的由n个独立处... 提出了一个并行矩阵乘算法IPBPMM(Interconnected Processor-Based Parallel Matrix Multiplication).该算法运行在以五角形、Petersen图和Hoffman-Singleton图等直径为2的摩尔图(满足n=d2+1,n为节点数,d为度)为拓扑结构的由n个独立处理器构成的机群并行计算环境中.与基于二维环绕网孔阵列拓扑结构的Cannon和Fox等并行矩阵乘法算法相比较,IPBPMM算法通信开销较小,加速比更高,同时还具有矩阵分块可随机分布在各个节点中,无需事先按一定规律装入各节点中的特点.同时IPBPMM算法也能很好地扩充到由多个直径为2的摩尔图为拓扑结构组合构成的并行计算环境中,且随着网络的扩大,算法的并行加速比更高. 展开更多
关键词 并行算法 并行矩阵乘法 摩尔图 网络拓扑结构 并行与分布式计算 高性能计算
在线阅读 下载PDF
一种基于MPICH的高效矩阵相乘并行算法 被引量:2
5
作者 剡公孝 申卫昌 +1 位作者 刘骊 刘伟明 《计算机工程与应用》 CSCD 北大核心 2009年第26期72-73,117,共3页
根据MPICH并行编程环境中任务间通信的特点,设计了一种基于MPICH的矩阵相乘并行算法。根据运行在COW(工作站机群)上的进程数目将矩阵A按行划分成相应数目的子矩阵,每个进程完成一个子矩阵与矩阵B的相乘运算。实验结果表明,该算法提高了... 根据MPICH并行编程环境中任务间通信的特点,设计了一种基于MPICH的矩阵相乘并行算法。根据运行在COW(工作站机群)上的进程数目将矩阵A按行划分成相应数目的子矩阵,每个进程完成一个子矩阵与矩阵B的相乘运算。实验结果表明,该算法提高了机群并行环境中资源的利用率,提高了程序的运行效率。 展开更多
关键词 一种消息传递接口的实现(MPICH) 矩阵相乘并行算法 工作站机群
在线阅读 下载PDF
基于BLACS的2.5D并行矩阵乘法 被引量:1
6
作者 廖霞 李胜国 +1 位作者 卢宇彤 杨灿群 《计算机学报》 EI CAS CSCD 北大核心 2021年第5期1037-1050,共14页
并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之... 并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之一.本文提出一种新型的分布式并行稠密矩阵乘算法,即2.5D版本的PUMMA(Parallel Universal Matrix Multiplication Algorithm)算法,该算法是通过将初始的进程分成c组,利用计算节点的额外内存,在每个进程组上同时存储矩阵A、B和执行1/c的PUMMA算法,最后通过规约操作来得到矩阵乘的最终结果.本文基于BLACS(Basic Linear Algebra Communication Subprograms)通信库实现了一种从2D到2.5D的新型数据重分配算法,与PUMMA算法相结合,最终得到2.5D PUMMA算法,可直接替换PDGEMM(Parallel Double-precision General Matrix-matrix Multiplication),具有良好的可移植性.与国际标准算法库ScaLAPACK(Scalable Linear Algebra PACKage)中的PDGEMM等经典2D算法相比,本文算法缩减了通信次数,提高了数据局部性,具有更好的可扩展性.在进程数较多时,例如4096进程时,系统测试表明相对PDGEMM的加速比可达到2.20~2.93.进一步地,本文将2.5D PUMMA算法应用于加速计算对称三对角矩阵的特征值分解,其加速比可达到1.2以上.本文通过大量数值算例分析了2.5D PUMMA算法的性能,并给出了实用性建议和总结了未来的工作. 展开更多
关键词 2.5D并行矩阵乘算法 SCALAPACK PUMMA矩阵乘算法 SUMMA算法 分布式并行
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部