期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于SMP集群的MPI+CUDA模型的研究与实现 被引量:10
1
作者 许彦芹 陈庆奎 《计算机工程与设计》 CSCD 北大核心 2010年第15期3408-3412,共5页
为了研究GPU的通用计算能力和适合SMP集群的编程模型,首次提出MPI+CUDA多粒度混合并行编程的新方法,节点间采用MPI实现粗粒度并行,节点内采用CUDA实现细粒度并行的混合编程方式。利用此方法在搭建的3节点SMP集群环境中,测试了大规模矩... 为了研究GPU的通用计算能力和适合SMP集群的编程模型,首次提出MPI+CUDA多粒度混合并行编程的新方法,节点间采用MPI实现粗粒度并行,节点内采用CUDA实现细粒度并行的混合编程方式。利用此方法在搭建的3节点SMP集群环境中,测试了大规模矩阵乘问题的并行计算能力。实验结果表明,该方法能够显著提升并行效率,同时证明MPI+CUDA混合编程模型能够充分发挥SMP集群节点间分布式存储和节点内共享内存的优势,为装有CUDA-enabled GPU的SMP集群提供了一种有效的并行策略。 展开更多
关键词 消息传递接口 统一计算设备架构 集群 混合编程 支持CUDA的GPU
在线阅读 下载PDF
多核机群下MPI程序优化技术的研究 被引量:2
2
作者 王洁 衷璐洁 曾宇 《计算机科学》 CSCD 北大核心 2011年第10期281-284,共4页
多核处理器的新特性使多核机群的存储层次更加复杂,同时也给MPI程序带来了新的优化空间。国内外学者提出了许多多核机群下MPI程序的优化方法和技术。测试了3个不同多核机群的通信性能,并分别在Intel与AMD多核机群下实验评估了几种具有... 多核处理器的新特性使多核机群的存储层次更加复杂,同时也给MPI程序带来了新的优化空间。国内外学者提出了许多多核机群下MPI程序的优化方法和技术。测试了3个不同多核机群的通信性能,并分别在Intel与AMD多核机群下实验评估了几种具有普遍意义的优化技术:混合MPI/OpenMP、优化MPI运行时参数以及优化MPI进程摆放,同时对实验结果和优化性能进行了分析。 展开更多
关键词 多核机群 存储层次化 mpi程序优化 混合mpi/OpenMP mpi运行时参数 mpi进程摆放
在线阅读 下载PDF
基于MPI+CUDA异步模型的并行矩阵乘法 被引量:2
3
作者 刘青昆 马名威 阎慰椿 《计算机应用》 CSCD 北大核心 2011年第12期3327-3330,共4页
矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型... 矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型的并行矩阵乘法。该模型避免了主机端进入等待状态,并采用CUDA流技术解决数据量超过GPU内存问题。通过分析异步模型的加速比和效率,实验结果表明,此方法显著提高了并行效率和大型矩阵乘法的运算速度,充分发挥了节点间分布式存储和节点内共享内存的优势,是一种有效可行的并行策略。 展开更多
关键词 矩阵乘法 并行计算 混合编程 消息传递接口 统一计算设备架构
在线阅读 下载PDF
MPI+TBB混合并行编程模型在分子动力学中的应用 被引量:2
4
作者 白明泽 赵文辉 +2 位作者 豆育升 孙世新 温迪 《计算机应用研究》 CSCD 北大核心 2012年第5期1772-1774,1794,共4页
为了提高分子动力学模拟在对称多处理(SMP)集群上的计算速度,在分子动力学并行方法中引入MPI+TBB的混合并行编程模型。基于该模型,在分子动力学软件LAMMPS中设计并实现混合并行算法,在节点间采用MPI及空间分解技术实施进程级并行,节点... 为了提高分子动力学模拟在对称多处理(SMP)集群上的计算速度,在分子动力学并行方法中引入MPI+TBB的混合并行编程模型。基于该模型,在分子动力学软件LAMMPS中设计并实现混合并行算法,在节点间采用MPI及空间分解技术实施进程级并行,节点内采用TBB及临界区技术实施线程级并行。在SMP集群中的测试表明,该方法在体系较大以及节点数较多时可以明显减少通信时间,使加速比在纯MPI模型上提高45%。结果表明,MPI+TBB混合并行编程模型可促进分子动力学并行模拟且效率明显提升。 展开更多
关键词 分子动力学 混合并行编程模型 SMP集群 mpi 线程构建块
在线阅读 下载PDF
利用混合编程改善SMP机群上并行矩阵乘法的性能 被引量:6
5
作者 吴建平 王正华 李晓梅 《国防科技大学学报》 EI CAS CSCD 北大核心 2006年第4期68-72,共5页
针对SMP机群,探讨了分别利用单机优化、OpenMP与MPI从指令级、共享存储级与分布主存级三个层次上改善矩阵并行乘Fox算法性能的方法。并通过调用数学函数库与混合编程的方式,在深腾6800上进行了实验,取得了相当满意的数值效果。
关键词 SMP机群 OPENMP mpi 混合编程 Fox算法
在线阅读 下载PDF
众核处理器和众核集群的并行模拟 被引量:4
6
作者 吕慧伟 程元 +3 位作者 白露 陈明宇 范东睿 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2013年第5期1110-1117,共8页
模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行... 模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行模拟的速度因为模拟器运行所在宿主机主频提速减缓而停滞不前.上述两方面的原因使得传统的串行模拟方式无法满足对新兴体系结构模拟规模和速度的需求.以众核处理器和众核集群这两种体系结构为例,并行模拟技术在并行计算机体系结构模拟中是必要而且可行的.对于众核处理器的模拟,使用并行离散事件模拟对其进行加速,在模拟精度不变的前提下,提高模拟速度10.9倍.对于众核集群的模拟,模拟的目标系统总规模达到1024核,并且支持MPI/Pthreads混合编程的运行环境. 展开更多
关键词 并行模拟 众核处理器 众核集群 众核模拟器 mpi pthreads混合编程
在线阅读 下载PDF
面向层次化NoC的混合并行编程模型 被引量:1
7
作者 曹祥 易伟 +2 位作者 潘红兵 高明伦 李丽 《计算机工程》 CAS CSCD 北大核心 2010年第13期278-280,共3页
为更好发挥多核处理器的硬件性能,针对层次化的片上网络架构,提出MPI/OpenMP混合并行编程模型。运用基于MPI的任务级并行模型实现片内簇间的高效通信,采用OpenMP模型实现簇内四核的通信、同步和数据交换。实验结果表明,与单一并行编程... 为更好发挥多核处理器的硬件性能,针对层次化的片上网络架构,提出MPI/OpenMP混合并行编程模型。运用基于MPI的任务级并行模型实现片内簇间的高效通信,采用OpenMP模型实现簇内四核的通信、同步和数据交换。实验结果表明,与单一并行编程模型相比,混合并行编程模型加速比提高了20%~50%。 展开更多
关键词 片上网络 消息传递接口 OpenMP模型 层次化 混合并行编程
在线阅读 下载PDF
基于二维结构化网格的可压缩流体并行算法研究 被引量:1
8
作者 皇甫永硕 刘杰 龚春叶 《计算机工程与科学》 CSCD 北大核心 2017年第9期1602-1609,共8页
基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算... 基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算法。在天河二号超级计算机上进行了测试,每个核固定网格规模为625*250,最多调用8 192核。测试数据表明,采用MPI/OpenMP混合并行算法、纯MPI非阻塞式通信并行算法和纯MPI阻塞式通信并行算法的程序的平均并行效率分别达到86%、83%和77%,三种算法都具有良好的可扩展性。 展开更多
关键词 并行计算 阻塞式通信 非阻塞式通信 mpi/OpenMP混合编程 天河计算机
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部