期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于OpenACC编程模型的逆时偏移多级并行的设计与优化 被引量:8
1
作者 赵虎 武泗海 +2 位作者 尹成 唐泽凯 贾鹏 《石油地球物理勘探》 EI CSCD 北大核心 2018年第6期1307-1313,1325,I0008,I0009,共10页
OpenCL和CUDA等GPU并行编程模型在波场数值模拟、偏移成像等领域已经得到广泛应用,但二者都破坏原有的串行代码而重新设计并行算法,会增加并行实现的难度和工作量。本文将一种新的GPU并行编程模型OpenACC应用于逆时偏移计算,通过添加编... OpenCL和CUDA等GPU并行编程模型在波场数值模拟、偏移成像等领域已经得到广泛应用,但二者都破坏原有的串行代码而重新设计并行算法,会增加并行实现的难度和工作量。本文将一种新的GPU并行编程模型OpenACC应用于逆时偏移计算,通过添加编译指令实现节点间/节点内的进程/线程级的多级并行方案,是一种更便捷、高效的异构并行技术。对多级并行的数据通信进行优化,实现了叠前偏移成像的多级异构并行加速。数值实验结果表明文中多级并行方案可以有效地解决逆时偏移计算量大和存储量大的问题;经过数据通信的优化后,可以显著提高逆时偏移的计算效率。 展开更多
关键词 GPU编程 openacc 逆时偏移 多级并行
在线阅读 下载PDF
基于GPU-OpenACC的气候模式加速优化研究 被引量:3
2
作者 肖洒 魏敏 +2 位作者 邓帅 徐达 张晨琛 《气象》 CSCD 北大核心 2019年第7期1001-1008,共8页
为使数值模式适应异构架构在高性能计算领域的快速发展趋势,本文基于OpenACC语言,对气候模式BCC_AGCM3.0中动力框架三段程序段进行GPU加速优化试验。通过异步执行设置、循环内移、数据管理及向量参数化配置等方式,对模式中计算密集部分... 为使数值模式适应异构架构在高性能计算领域的快速发展趋势,本文基于OpenACC语言,对气候模式BCC_AGCM3.0中动力框架三段程序段进行GPU加速优化试验。通过异步执行设置、循环内移、数据管理及向量参数化配置等方式,对模式中计算密集部分程序段进行GPU加速并行化,并进行了优化运行效率对比及正确性验证。试验结果表明,BCC_AGCM3.0模式中三段程序段GPU加速后效率提升均在3倍以上,BCC_AGCM气候模式全球涡度均方根相对误差控制在一定范围之内。加速方法及策略对于数值天气气候模式在异构环境下的移植与优化具有一定参考价值。 展开更多
关键词 BCC_AGCM GPU openacc 异构
在线阅读 下载PDF
太湖之光上利用OpenACC移植和优化GTC-P 被引量:9
3
作者 王一超 林新华 +5 位作者 蔡林金 Tang William Ethier Stephane 王蓓 施忠伟 松岗聪 《计算机研究与发展》 EI CSCD 北大核心 2018年第4期875-884,共10页
神威"太湖之光"是最新一期Top500榜单上排名第一的超级计算机,实测峰值性能约93PFLOPS.该系统提供了基于指导语句的并行编程工具OpenACC,兼容OpenACC 2.0编程标准,并添加了部分定制化功能.GTC-P是一个具有重要物理意义的科学... 神威"太湖之光"是最新一期Top500榜单上排名第一的超级计算机,实测峰值性能约93PFLOPS.该系统提供了基于指导语句的并行编程工具OpenACC,兼容OpenACC 2.0编程标准,并添加了部分定制化功能.GTC-P是一个具有重要物理意义的科学应用,算法基于高性能计算领域中被广泛使用的PIC(particle-in-cell)方法.利用神威OpenACC并行编程模型在"太湖之光"上成功移植了GTC-P应用.在移植过程中,鉴于OpenACC编译器尚无法解决的性能瓶颈,提出了3种基于中间代码二次开发的优化方法:1)消除原子操作;2)避免低效的全局访存操作;3)手动添加SIMD intrinsics指令.实验结果表明,在64个从核上相比1个主核,优化后的函数charge和push分别实现了1.6倍和8.6倍的加速比,同时GTC-P代码整体取得了2.5倍的加速比.优化结果证明了基于中间代码的手动优化对利用神威OpenACC移植的PIC算法在"太湖之光"上的性能提升非常重要. 展开更多
关键词 太湖之光 GTC-P PIC算法 神威 openacc
在线阅读 下载PDF
在Intel Knights Corner和NVIDIA Kepler架构上OpenACC的性能可移植性分析 被引量:1
4
作者 王一超 秦强 +1 位作者 施忠伟 林新华 《计算机科学》 CSCD 北大核心 2015年第1期75-78,共4页
OpenACC是一套基于指导语句方式的并行编程语言标准。编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果。OpenACC与CUDA和Ope... OpenACC是一套基于指导语句方式的并行编程语言标准。编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果。OpenACC与CUDA和OpenCL这类异构并行编程技术的不同之处在于,它的目的是使编程者在应用移植过程中不需要考虑加速器或协处理器的底层硬件架构,从而降低编程难度。同时它也具有仅需维护一套代码便可在不同硬件平台上运行的优良跨平台性。因此,OpenACC是一个值得研究的并行编程标准。如今的异构加速硬件设备呈现出多元化趋势。在2013年11月的Top500榜单上排名第一的"天河二号"使用了48000块构建在Intel Knights Corner架构之上的协处理器。与此同时,发布不久的NVIDIA公司最新的Kepler架构GPU产品由于多年来的GPU市场积累也迅速形成了可观的用户群体。对于并非追求性能极限的应用移植者而言,寻求应用性能和移植简易性之间的平衡是相当重要的议题。只需要编写一套代码便可运行在这两种硬件平台上的OpenACC正迎合了用户在移植简易性上的需求。解决了移植的简易性之后,同一个应用在不同硬件平台上的性能表现便成了用户最想了解的问题。通过实验和构建性能模型向读者展示使用OpenACC移植的应用在Intel Knights Corner和NVIDIA Kepler架构硬件上的性能可移植性。 展开更多
关键词 openacc 性能可移植性 高性能计算
在线阅读 下载PDF
Silicon-Crystal应用的神威OpenACC移植与数据流驱动任务图并行化 被引量:1
5
作者 徐阳 张玉春欣 花嵘 《山东科技大学学报(自然科学版)》 CAS 北大核心 2019年第3期57-64,共8页
利用神威OpenACC在"太湖之光"上成功移植了Silicon-Crystal应用,针对控制流驱动的OpenACC无法有效解决访存密集型应用带宽访存优化和跨时间迭代问题,通过数据流驱动的任务图并行化方法挖掘任务迭代间的并行性,利用任务间的错... 利用神威OpenACC在"太湖之光"上成功移植了Silicon-Crystal应用,针对控制流驱动的OpenACC无法有效解决访存密集型应用带宽访存优化和跨时间迭代问题,通过数据流驱动的任务图并行化方法挖掘任务迭代间的并行性,利用任务间的错峰访存提高访存带宽。实验结果表明,神威OpenACC移植单核组获得2.26倍加速;时间步长为1时,任务图并行化移植后的该应用可获得2.52倍加速,性能较OpenACC提升11.5%;时间步长扩展至20时,任务图规模随之增加,任务的乱序调度使错峰访存的优势进一步扩大,整体应用达到3.2倍性能加速,性能较OpenACC提升42%。 展开更多
关键词 太湖之光 神威openacc 数据流 任务图并行 MD模拟
在线阅读 下载PDF
基于GPU加速的投影后变分壳模型计算
6
作者 陆晓 连占江 高早春 《原子能科学技术》 EI CAS CSCD 北大核心 2024年第2期272-278,共7页
为进一步拓展投影后变分(VAP)壳模型计算应用核区范围,需提升VAP的计算效率。为此,利用OpenACC并行编程指令,首次将VAP程序从传统的CPU平台移植到了高性能GPU计算平台上。在角动量投影的每个积分格点上实现了数目庞大的各独立转动矩阵元... 为进一步拓展投影后变分(VAP)壳模型计算应用核区范围,需提升VAP的计算效率。为此,利用OpenACC并行编程指令,首次将VAP程序从传统的CPU平台移植到了高性能GPU计算平台上。在角动量投影的每个积分格点上实现了数目庞大的各独立转动矩阵元的GPU并行化计算。经验证,采用GPU加速后的VAP程序计算得到的结果与原来的OpenMP并行化程序计算得到的结果完全相同,而计算效率得到了数倍的提升。借助于GPU加速技术,首次计算了变形重核^(178)Hf的基带能谱,打开了VAP壳模型方法应用于变形稀土重核之门。 展开更多
关键词 壳模型 投影后变分 GPU openacc
在线阅读 下载PDF
面向异构多核处理器的的循环分块 被引量:4
7
作者 李雁冰 赵荣彩 +1 位作者 赵博 黄品丰 《计算机工程与设计》 北大核心 2015年第1期168-173,共6页
将OpenACC编程模型用于异构多核处理器时,由于异构多核处理器加速设备内存有限,操作大量数据的代码不能获得很好的加速。针对这一问题,在OpenACC中引入循环分块子句,对循环进行分块处理,使每个循环块使用的数据能够存储在设备内存中;提... 将OpenACC编程模型用于异构多核处理器时,由于异构多核处理器加速设备内存有限,操作大量数据的代码不能获得很好的加速。针对这一问题,在OpenACC中引入循环分块子句,对循环进行分块处理,使每个循环块使用的数据能够存储在设备内存中;提出面向异构多核处理器的循环分块子句生成算法,并在基于Open64的"源-源"自动并行化系统Auto-ACC中进行实现。测试结果表明,在异构多核处理器上,扩展的循环分块子句及所提生成算法能够对程序进行明显的加速。 展开更多
关键词 异构多核处理器 循环分块 数据重用 openacc 自动并行化
在线阅读 下载PDF
基于国产十亿亿次超算系统的近连续过渡流区N-S/DSMC耦合算法并行优化研究 被引量:2
8
作者 徐金秀 李中华 +2 位作者 孙俊 李志辉 郑岩 《计算机工程与科学》 CSCD 北大核心 2019年第4期583-589,共7页
过渡流区气动问题的数值模拟一直是空气动力学领域的难点。首先介绍了在已有N-S解算器和DSMC方法研究基础上,采用MPC耦合技术建立N-S/DSMC耦合算法,把DSMC方法和N-S方法的应用范围拓展到近连续过渡流区。然后详述了基于国家超级计算无... 过渡流区气动问题的数值模拟一直是空气动力学领域的难点。首先介绍了在已有N-S解算器和DSMC方法研究基础上,采用MPC耦合技术建立N-S/DSMC耦合算法,把DSMC方法和N-S方法的应用范围拓展到近连续过渡流区。然后详述了基于国家超级计算无锡中心的国产十亿亿次超级计算机开展的耦合算法多级并行优化技术,并首次实现了耦合算法的众核并行。测试表明,本文的进程级优化技术取得了超线性加速比;众核级优化受制于原算法特点和系统特点没有取得预期效果,但进行了探讨和分析,为N-S/DSMC耦合算法的众核并行提供了研究和分析依据,为过渡流区高超声速气动特性数值模拟研究提供了有效的途径。 展开更多
关键词 高超声速过渡流 模块化的颗粒-连续模拟技术 耦合算法 openacc
在线阅读 下载PDF
“神威·太湖之光”上Tend_lin应用的并行优化研究 被引量:2
9
作者 姜尚志 唐生林 +3 位作者 高希然 花嵘 陈莉 刘颖 《计算机工程与科学》 CSCD 北大核心 2020年第10期1842-1851,共10页
大气环流模式是研究全球气候变化及其成因的主要工具之一,在大规模异构众核的并行计算系统上高效地并行运行复杂的大气环流模式是一个具有挑战性的课题。Tend_lin是中国科学院大气物理研究所研发的第4代大气环流模式IAP AGCM-4中动力框... 大气环流模式是研究全球气候变化及其成因的主要工具之一,在大规模异构众核的并行计算系统上高效地并行运行复杂的大气环流模式是一个具有挑战性的课题。Tend_lin是中国科学院大气物理研究所研发的第4代大气环流模式IAP AGCM-4中动力框架的热点过程,具有计算/通信比低的特点。面向国产大规模异构众核超算平台“神威·太湖之光”,用OpenACC和AceMesh 2种不同的并行编程接口对Tend_lin进行优化。重点介绍了如何用数据驱动的任务并行编程接口AceMesh对其进行加速,介绍了计算循环和通信代码的任务并行方法,讨论了如何放松通信资源共享,对比了单层任务图和嵌套任务图下的任务映射等优化问题。测试结果表明,相比OpenACC,AceMesh在16~1024进程的不同并行配置下获得了平均2倍左右的性能提升,最后详细分析了性能收益的来源。 展开更多
关键词 大气环流模式 高分辨率 数据驱动的任务并行语言 openacc MPI
在线阅读 下载PDF
一种基于国产异构众核处理器的C++智能源码转换框架 被引量:3
10
作者 俞茂学 贾东宁 +2 位作者 魏志强 许佳立 马广浩 《计算机工程与科学》 CSCD 北大核心 2021年第6期997-1005,共9页
国产异构众核处理器是我国打破国际技术壁垒,在高性能计算领域取得突破的关键环节。围绕国产超算的软件生态环境建设,采用智能源码转换的方法盘活海量多核架构的遗产代码是加速软件研发效率,推动领域发展的重要途径。针对国产运算核心... 国产异构众核处理器是我国打破国际技术壁垒,在高性能计算领域取得突破的关键环节。围绕国产超算的软件生态环境建设,采用智能源码转换的方法盘活海量多核架构的遗产代码是加速软件研发效率,推动领域发展的重要途径。针对国产运算核心不支持C++编译的现状,基于开源的ANTLR语言翻译工具,提出了一种面向异构众核处理器的智能化C++语言向C语言转换的辅助框架。该框架聚焦面向对象语言的关键特征,基于抽象语法树,实现了基类和继承类、函数定义、基于标签法的模板实例化以及部分STL库的C语言转换,建立了待转换代码的自动化标注体系,极大地提高了C++代码的转换和移植效率。通过对可衡量的并行计算基准应用BableStream进行自动转换和移植测试,证实了该转换框架的有效性。 展开更多
关键词 异构众核 源码转换 openacc 并行计算 ANTLR C++
在线阅读 下载PDF
一种面向异构众核处理器的并行编译框架 被引量:9
11
作者 李雁冰 赵荣彩 +3 位作者 韩林 赵捷 徐金龙 李颖颖 《软件学报》 EI CSCD 北大核心 2019年第4期981-1001,共21页
异构众核处理器是面向高性能计算领域处理器发展的重要趋势,但其更为复杂的体系结构使得编程难的问题更加突出.针对这一问题,基于开源编译器Open64,提出了一种面向异构众核处理器的并行编译框架,将程序自动转换为异构并行程序.该框架主... 异构众核处理器是面向高性能计算领域处理器发展的重要趋势,但其更为复杂的体系结构使得编程难的问题更加突出.针对这一问题,基于开源编译器Open64,提出了一种面向异构众核处理器的并行编译框架,将程序自动转换为异构并行程序.该框架主要包括4个模块:任务划分模块用来识别适合进行加速计算的程序段,实现了嵌套循环的多维并行识别方法;数据布局模块完成数据在主存和SPM之间的布局,实现了数组边界分析和指针范围分析;传输优化模块实现了数据传输合并、传输外提、打包传输、数组转置等多种数据传输优化方法;收益评估模块在构建代价模型的基础上实现了一种动静结合的收益评估方法.并且,基于SW26010处理器,对该编译框架进行了实现,测试结果表明,该编译框架能够实现一些程序以面向异构众核结构的并行变换,且获得较好的加速效果. 展开更多
关键词 异构众核处理器 SW26010 并行编译 数据传输优化 openacc
在线阅读 下载PDF
“神威·太湖之光”上Tend_lin并行优化 被引量:4
12
作者 傅游 王坦 +1 位作者 郭强 高希然 《山东科技大学学报(自然科学版)》 CAS 北大核心 2019年第2期90-99,共10页
大气环流模式是中科院地球系统模式中最为复杂的模式,在当前主流的众核异构平台上开展大气环流模式的众核并行化是高性能计算的热点研究问题。针对AGCM4.0热点程序动力框架的适应过程Tend_lin,利用神威OpenACC编程模型在"神威·... 大气环流模式是中科院地球系统模式中最为复杂的模式,在当前主流的众核异构平台上开展大气环流模式的众核并行化是高性能计算的热点研究问题。针对AGCM4.0热点程序动力框架的适应过程Tend_lin,利用神威OpenACC编程模型在"神威·太湖之光"高性能计算平台上实现并行化,并从循环分布、循环分块、数据传输的表达、函数调用的从核化等方面提升应用性能。详细讨论了不同场景下的数据传输表达,对比测试了不同分块尺寸对程序性能的影响。相比主核串行,两种测试规模下,Tend_lin应用的单核组多线程并行均获得6倍以上的加速;且随着应用分辨率的扩大,众核处理器的性能得到更好发挥,在C规模下,多进程获得了69倍的全应用加速。 展开更多
关键词 神威·太湖之光 Tend_lin 神威openacc 众核并行 优化
在线阅读 下载PDF
基于神威众核处理器的排列熵算法并行加速方法 被引量:2
13
作者 张浩 花嵘 +2 位作者 于建志 梁建国 冯鲁彬 《计算机应用研究》 CSCD 北大核心 2020年第7期2022-2026,共5页
随着嵌入维数的增大,排列熵(permutation entropy,PE)算法的运算规模将会成倍增加,对计算的时效性提出了更高的要求。针对国际上首台计算性能超过100P的神威·太湖之光异构众核超级计算机,提出一种针对排列熵算法移植和并行化方法,... 随着嵌入维数的增大,排列熵(permutation entropy,PE)算法的运算规模将会成倍增加,对计算的时效性提出了更高的要求。针对国际上首台计算性能超过100P的神威·太湖之光异构众核超级计算机,提出一种针对排列熵算法移植和并行化方法,核组之间基于MPI对相空间矩阵进行数据划分,核组内部基于OpenACC实现划分区域内部并行;然后针对SW26010众核处理器结构特征,调整减少主从核通信次数和消除原子操作,将排列熵算法成功移植并加速;最后通过大坝振荡数据进行测试。测试结果表明,该方法能够很好地发挥SW26010众核处理器加速优势,单核组性能较主核版本最高可获得7.18倍加速,同时在神威·太湖之光大规模集群上进行强可扩展性分析,128核组时最高实现了85.6倍的性能提升。 展开更多
关键词 排列熵 神威众核处理器 MPI openacc 嵌入维数
在线阅读 下载PDF
基于有限体积法的三维稳态渗流计算方法及其应用 被引量:2
14
作者 宿晓辉 张明亮 贺英芝 《人民长江》 北大核心 2022年第12期198-203,共6页
为提升三维渗流数值计算的效率,提出了一种基于有限体积法的三维渗流计算模型。该模型采用无系数矩阵数值迭代求解方法对渗流控制方程进行离散,用预处理共轭梯度算法快速求解代数方程组,减少了内存占用;使用固定网格变渗透系数法求解计... 为提升三维渗流数值计算的效率,提出了一种基于有限体积法的三维渗流计算模型。该模型采用无系数矩阵数值迭代求解方法对渗流控制方程进行离散,用预处理共轭梯度算法快速求解代数方程组,减少了内存占用;使用固定网格变渗透系数法求解计算域内含有浸润面的问题,应用OpenACC-GPU并行技术加速代数方程组的求解。采用二维均质坝渗流算例对模型进行了评估与验证,通过与GEO-Studio(2018学习版)软件的计算结果进行对比,发现两者计算结果误差在±2.5%以内,压力水头与总水头等值线的分布情况吻合,浸润线位置接近。证明所提出的渗流计算模型有效可行,并且通过并行技术提高了求解效率。进一步使用该渗流模型计算了一个三维面板堆石坝的工程实例,并将最大典型断面结果与GEO-Studio软件的计算结果进行了对比,结果表明该模型能够满足工程渗流计算的实际需要,可以在实际工程中应用。 展开更多
关键词 渗流计算 土石坝 有限体积法 预处理共轭梯度 openacc-GPU
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部