期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于SMP集群的MPI+CUDA模型的研究与实现
被引量:
10
1
作者
许彦芹
陈庆奎
《计算机工程与设计》
CSCD
北大核心
2010年第15期3408-3412,共5页
为了研究GPU的通用计算能力和适合SMP集群的编程模型,首次提出MPI+CUDA多粒度混合并行编程的新方法,节点间采用MPI实现粗粒度并行,节点内采用CUDA实现细粒度并行的混合编程方式。利用此方法在搭建的3节点SMP集群环境中,测试了大规模矩...
为了研究GPU的通用计算能力和适合SMP集群的编程模型,首次提出MPI+CUDA多粒度混合并行编程的新方法,节点间采用MPI实现粗粒度并行,节点内采用CUDA实现细粒度并行的混合编程方式。利用此方法在搭建的3节点SMP集群环境中,测试了大规模矩阵乘问题的并行计算能力。实验结果表明,该方法能够显著提升并行效率,同时证明MPI+CUDA混合编程模型能够充分发挥SMP集群节点间分布式存储和节点内共享内存的优势,为装有CUDA-enabled GPU的SMP集群提供了一种有效的并行策略。
展开更多
关键词
消息传递接口
统一计算设备架构
集群
混合编程
支持CUDA的GPU
在线阅读
下载PDF
职称材料
多核机群下MPI程序优化技术的研究
被引量:
2
2
作者
王洁
衷璐洁
曾宇
《计算机科学》
CSCD
北大核心
2011年第10期281-284,共4页
多核处理器的新特性使多核机群的存储层次更加复杂,同时也给MPI程序带来了新的优化空间。国内外学者提出了许多多核机群下MPI程序的优化方法和技术。测试了3个不同多核机群的通信性能,并分别在Intel与AMD多核机群下实验评估了几种具有...
多核处理器的新特性使多核机群的存储层次更加复杂,同时也给MPI程序带来了新的优化空间。国内外学者提出了许多多核机群下MPI程序的优化方法和技术。测试了3个不同多核机群的通信性能,并分别在Intel与AMD多核机群下实验评估了几种具有普遍意义的优化技术:混合MPI/OpenMP、优化MPI运行时参数以及优化MPI进程摆放,同时对实验结果和优化性能进行了分析。
展开更多
关键词
多核机群
存储层次化
mpi
程序优化
混合
mpi/
OpenMP
mpi
运行时参数
mpi
进程摆放
在线阅读
下载PDF
职称材料
基于MPI+CUDA异步模型的并行矩阵乘法
被引量:
2
3
作者
刘青昆
马名威
阎慰椿
《计算机应用》
CSCD
北大核心
2011年第12期3327-3330,共4页
矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型...
矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型的并行矩阵乘法。该模型避免了主机端进入等待状态,并采用CUDA流技术解决数据量超过GPU内存问题。通过分析异步模型的加速比和效率,实验结果表明,此方法显著提高了并行效率和大型矩阵乘法的运算速度,充分发挥了节点间分布式存储和节点内共享内存的优势,是一种有效可行的并行策略。
展开更多
关键词
矩阵乘法
并行计算
混合编程
消息传递接口
统一计算设备架构
在线阅读
下载PDF
职称材料
MPI+TBB混合并行编程模型在分子动力学中的应用
被引量:
2
4
作者
白明泽
赵文辉
+2 位作者
豆育升
孙世新
温迪
《计算机应用研究》
CSCD
北大核心
2012年第5期1772-1774,1794,共4页
为了提高分子动力学模拟在对称多处理(SMP)集群上的计算速度,在分子动力学并行方法中引入MPI+TBB的混合并行编程模型。基于该模型,在分子动力学软件LAMMPS中设计并实现混合并行算法,在节点间采用MPI及空间分解技术实施进程级并行,节点...
为了提高分子动力学模拟在对称多处理(SMP)集群上的计算速度,在分子动力学并行方法中引入MPI+TBB的混合并行编程模型。基于该模型,在分子动力学软件LAMMPS中设计并实现混合并行算法,在节点间采用MPI及空间分解技术实施进程级并行,节点内采用TBB及临界区技术实施线程级并行。在SMP集群中的测试表明,该方法在体系较大以及节点数较多时可以明显减少通信时间,使加速比在纯MPI模型上提高45%。结果表明,MPI+TBB混合并行编程模型可促进分子动力学并行模拟且效率明显提升。
展开更多
关键词
分子动力学
混合并行编程模型
SMP集群
mpi
线程构建块
在线阅读
下载PDF
职称材料
利用混合编程改善SMP机群上并行矩阵乘法的性能
被引量:
6
5
作者
吴建平
王正华
李晓梅
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2006年第4期68-72,共5页
针对SMP机群,探讨了分别利用单机优化、OpenMP与MPI从指令级、共享存储级与分布主存级三个层次上改善矩阵并行乘Fox算法性能的方法。并通过调用数学函数库与混合编程的方式,在深腾6800上进行了实验,取得了相当满意的数值效果。
关键词
SMP机群
OPENMP
mpi
混合编程
Fox算法
在线阅读
下载PDF
职称材料
众核处理器和众核集群的并行模拟
被引量:
4
6
作者
吕慧伟
程元
+3 位作者
白露
陈明宇
范东睿
孙凝晖
《计算机研究与发展》
EI
CSCD
北大核心
2013年第5期1110-1117,共8页
模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行...
模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行模拟的速度因为模拟器运行所在宿主机主频提速减缓而停滞不前.上述两方面的原因使得传统的串行模拟方式无法满足对新兴体系结构模拟规模和速度的需求.以众核处理器和众核集群这两种体系结构为例,并行模拟技术在并行计算机体系结构模拟中是必要而且可行的.对于众核处理器的模拟,使用并行离散事件模拟对其进行加速,在模拟精度不变的前提下,提高模拟速度10.9倍.对于众核集群的模拟,模拟的目标系统总规模达到1024核,并且支持MPI/Pthreads混合编程的运行环境.
展开更多
关键词
并行模拟
众核处理器
众核集群
众核模拟器
mpi
pthreads
混合编程
在线阅读
下载PDF
职称材料
面向层次化NoC的混合并行编程模型
被引量:
1
7
作者
曹祥
易伟
+2 位作者
潘红兵
高明伦
李丽
《计算机工程》
CAS
CSCD
北大核心
2010年第13期278-280,共3页
为更好发挥多核处理器的硬件性能,针对层次化的片上网络架构,提出MPI/OpenMP混合并行编程模型。运用基于MPI的任务级并行模型实现片内簇间的高效通信,采用OpenMP模型实现簇内四核的通信、同步和数据交换。实验结果表明,与单一并行编程...
为更好发挥多核处理器的硬件性能,针对层次化的片上网络架构,提出MPI/OpenMP混合并行编程模型。运用基于MPI的任务级并行模型实现片内簇间的高效通信,采用OpenMP模型实现簇内四核的通信、同步和数据交换。实验结果表明,与单一并行编程模型相比,混合并行编程模型加速比提高了20%~50%。
展开更多
关键词
片上网络
消息传递接口
OpenMP模型
层次化
混合并行编程
在线阅读
下载PDF
职称材料
基于二维结构化网格的可压缩流体并行算法研究
被引量:
1
8
作者
皇甫永硕
刘杰
龚春叶
《计算机工程与科学》
CSCD
北大核心
2017年第9期1602-1609,共8页
基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算...
基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算法。在天河二号超级计算机上进行了测试,每个核固定网格规模为625*250,最多调用8 192核。测试数据表明,采用MPI/OpenMP混合并行算法、纯MPI非阻塞式通信并行算法和纯MPI阻塞式通信并行算法的程序的平均并行效率分别达到86%、83%和77%,三种算法都具有良好的可扩展性。
展开更多
关键词
并行计算
阻塞式通信
非阻塞式通信
mpi/
OpenMP混合编程
天河计算机
在线阅读
下载PDF
职称材料
题名
基于SMP集群的MPI+CUDA模型的研究与实现
被引量:
10
1
作者
许彦芹
陈庆奎
机构
上海理工大学光电信息与计算机工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2010年第15期3408-3412,共5页
基金
国家自然科学基金项目(60573108)
文摘
为了研究GPU的通用计算能力和适合SMP集群的编程模型,首次提出MPI+CUDA多粒度混合并行编程的新方法,节点间采用MPI实现粗粒度并行,节点内采用CUDA实现细粒度并行的混合编程方式。利用此方法在搭建的3节点SMP集群环境中,测试了大规模矩阵乘问题的并行计算能力。实验结果表明,该方法能够显著提升并行效率,同时证明MPI+CUDA混合编程模型能够充分发挥SMP集群节点间分布式存储和节点内共享内存的优势,为装有CUDA-enabled GPU的SMP集群提供了一种有效的并行策略。
关键词
消息传递接口
统一计算设备架构
集群
混合编程
支持CUDA的GPU
Keywords
mpi
CUDA
Cluster
hybrid
programming
CUDA-enabled GPU
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
多核机群下MPI程序优化技术的研究
被引量:
2
2
作者
王洁
衷璐洁
曾宇
机构
中国科学院计算技术研究所
中国科学院研究生院
北京市计算中心
出处
《计算机科学》
CSCD
北大核心
2011年第10期281-284,共4页
基金
奥地利蒂罗尔州未来基金会基金(P7030-015-024)资助
文摘
多核处理器的新特性使多核机群的存储层次更加复杂,同时也给MPI程序带来了新的优化空间。国内外学者提出了许多多核机群下MPI程序的优化方法和技术。测试了3个不同多核机群的通信性能,并分别在Intel与AMD多核机群下实验评估了几种具有普遍意义的优化技术:混合MPI/OpenMP、优化MPI运行时参数以及优化MPI进程摆放,同时对实验结果和优化性能进行了分析。
关键词
多核机群
存储层次化
mpi
程序优化
混合
mpi/
OpenMP
mpi
运行时参数
mpi
进程摆放
Keywords
Multi-core cluster
Memory hierarchy
mpi
program
s optimization
hybrid
mpi/
OpenMP
mpi
runtime parameters
mpi
process placement
分类号
TP311.1 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于MPI+CUDA异步模型的并行矩阵乘法
被引量:
2
3
作者
刘青昆
马名威
阎慰椿
机构
辽宁师范大学计算机与信息技术学院
出处
《计算机应用》
CSCD
北大核心
2011年第12期3327-3330,共4页
基金
国家自然科学基金资助项目(21133005
20703022
21011120087)
文摘
矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型的并行矩阵乘法。该模型避免了主机端进入等待状态,并采用CUDA流技术解决数据量超过GPU内存问题。通过分析异步模型的加速比和效率,实验结果表明,此方法显著提高了并行效率和大型矩阵乘法的运算速度,充分发挥了节点间分布式存储和节点内共享内存的优势,是一种有效可行的并行策略。
关键词
矩阵乘法
并行计算
混合编程
消息传递接口
统一计算设备架构
Keywords
matrix multiplication
parallel computing
hybrid
programming
Message Passing Interface(
mpi
)
Computer Unified Device Architecture(CUDA)
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
TP316.4 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
MPI+TBB混合并行编程模型在分子动力学中的应用
被引量:
2
4
作者
白明泽
赵文辉
豆育升
孙世新
温迪
机构
电子科技大学计算机科学与工程学院
重庆邮电大学高性能计算与应用研究所
Department of Physical Sciences
出处
《计算机应用研究》
CSCD
北大核心
2012年第5期1772-1774,1794,共4页
基金
国家自然科学基金资助项目(21073242)
文摘
为了提高分子动力学模拟在对称多处理(SMP)集群上的计算速度,在分子动力学并行方法中引入MPI+TBB的混合并行编程模型。基于该模型,在分子动力学软件LAMMPS中设计并实现混合并行算法,在节点间采用MPI及空间分解技术实施进程级并行,节点内采用TBB及临界区技术实施线程级并行。在SMP集群中的测试表明,该方法在体系较大以及节点数较多时可以明显减少通信时间,使加速比在纯MPI模型上提高45%。结果表明,MPI+TBB混合并行编程模型可促进分子动力学并行模拟且效率明显提升。
关键词
分子动力学
混合并行编程模型
SMP集群
mpi
线程构建块
Keywords
molecular dynamics(MD)
hybrid
parallel
programming
model
symmetrical multi-processing(SMP) cluster
message passing interface(
mpi
)
threading building blocks(TBB)
分类号
TP399 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
利用混合编程改善SMP机群上并行矩阵乘法的性能
被引量:
6
5
作者
吴建平
王正华
李晓梅
机构
国防科技大学计算机学院
装备指挥技术学院
出处
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2006年第4期68-72,共5页
基金
国家自然科学重点基金资助项目(69933030)
文摘
针对SMP机群,探讨了分别利用单机优化、OpenMP与MPI从指令级、共享存储级与分布主存级三个层次上改善矩阵并行乘Fox算法性能的方法。并通过调用数学函数库与混合编程的方式,在深腾6800上进行了实验,取得了相当满意的数值效果。
关键词
SMP机群
OPENMP
mpi
混合编程
Fox算法
Keywords
SMP cluster
OpenMP
mpi
hybrid
programming
Fox algorithm
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
众核处理器和众核集群的并行模拟
被引量:
4
6
作者
吕慧伟
程元
白露
陈明宇
范东睿
孙凝晖
机构
计算机体系结构国家重点实验室(中国科学院计算技术研究所)
中国科学院大学
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第5期1110-1117,共8页
基金
国家自然科学基金项目(60633040
60925009
+5 种基金
60921002
61173007)
国家"九七三"重点基础研究发展计划基金项目(2011CB302501
2011CB302502)
国家杰出青年科学基金项目(60925009)
"核高基"国家科技重大专项基金项目(2011ZX01028-001-002)
文摘
模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行模拟的速度因为模拟器运行所在宿主机主频提速减缓而停滞不前.上述两方面的原因使得传统的串行模拟方式无法满足对新兴体系结构模拟规模和速度的需求.以众核处理器和众核集群这两种体系结构为例,并行模拟技术在并行计算机体系结构模拟中是必要而且可行的.对于众核处理器的模拟,使用并行离散事件模拟对其进行加速,在模拟精度不变的前提下,提高模拟速度10.9倍.对于众核集群的模拟,模拟的目标系统总规模达到1024核,并且支持MPI/Pthreads混合编程的运行环境.
关键词
并行模拟
众核处理器
众核集群
众核模拟器
mpi
pthreads
混合编程
Keywords
parallel simulation
many-core processor
many-core cluster
many-core processor simulation
mpi/pthreads hybrid programming
分类号
TP303 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
面向层次化NoC的混合并行编程模型
被引量:
1
7
作者
曹祥
易伟
潘红兵
高明伦
李丽
机构
南京大学微电子设计研究所
江苏省光电信息功能材料重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第13期278-280,共3页
基金
国家"863"计划基金资助项目(2008AA01Z135)
国家自然科学基金资助项目(60876017)
文摘
为更好发挥多核处理器的硬件性能,针对层次化的片上网络架构,提出MPI/OpenMP混合并行编程模型。运用基于MPI的任务级并行模型实现片内簇间的高效通信,采用OpenMP模型实现簇内四核的通信、同步和数据交换。实验结果表明,与单一并行编程模型相比,混合并行编程模型加速比提高了20%~50%。
关键词
片上网络
消息传递接口
OpenMP模型
层次化
混合并行编程
Keywords
Network on Chip(NoC)
Message Passing Interface(
mpi
)
OpenMP model
hierarchical
hybrid
parallel
programming
分类号
N945.12 [自然科学总论—系统科学]
在线阅读
下载PDF
职称材料
题名
基于二维结构化网格的可压缩流体并行算法研究
被引量:
1
8
作者
皇甫永硕
刘杰
龚春叶
机构
国防科技大学并行与分布处理国家重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2017年第9期1602-1609,共8页
基金
国家自然科学基金(61402039
91430218)
+2 种基金
国家863计划(2012AA01A301)
博士后基金(2014M562570
2015T81127)
文摘
基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算法。在天河二号超级计算机上进行了测试,每个核固定网格规模为625*250,最多调用8 192核。测试数据表明,采用MPI/OpenMP混合并行算法、纯MPI非阻塞式通信并行算法和纯MPI阻塞式通信并行算法的程序的平均并行效率分别达到86%、83%和77%,三种算法都具有良好的可扩展性。
关键词
并行计算
阻塞式通信
非阻塞式通信
mpi/
OpenMP混合编程
天河计算机
Keywords
parallel computing
blocking communication
non-blocking communication
mpi/
OpenMP
hybrid
programming
Tianhe supercomputer
分类号
TP301 [自动化与计算机技术—计算机系统结构]
O359.2 [理学—流体力学]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于SMP集群的MPI+CUDA模型的研究与实现
许彦芹
陈庆奎
《计算机工程与设计》
CSCD
北大核心
2010
10
在线阅读
下载PDF
职称材料
2
多核机群下MPI程序优化技术的研究
王洁
衷璐洁
曾宇
《计算机科学》
CSCD
北大核心
2011
2
在线阅读
下载PDF
职称材料
3
基于MPI+CUDA异步模型的并行矩阵乘法
刘青昆
马名威
阎慰椿
《计算机应用》
CSCD
北大核心
2011
2
在线阅读
下载PDF
职称材料
4
MPI+TBB混合并行编程模型在分子动力学中的应用
白明泽
赵文辉
豆育升
孙世新
温迪
《计算机应用研究》
CSCD
北大核心
2012
2
在线阅读
下载PDF
职称材料
5
利用混合编程改善SMP机群上并行矩阵乘法的性能
吴建平
王正华
李晓梅
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2006
6
在线阅读
下载PDF
职称材料
6
众核处理器和众核集群的并行模拟
吕慧伟
程元
白露
陈明宇
范东睿
孙凝晖
《计算机研究与发展》
EI
CSCD
北大核心
2013
4
在线阅读
下载PDF
职称材料
7
面向层次化NoC的混合并行编程模型
曹祥
易伟
潘红兵
高明伦
李丽
《计算机工程》
CAS
CSCD
北大核心
2010
1
在线阅读
下载PDF
职称材料
8
基于二维结构化网格的可压缩流体并行算法研究
皇甫永硕
刘杰
龚春叶
《计算机工程与科学》
CSCD
北大核心
2017
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部