期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
神威·太湖之光平台上宇宙N体模拟中FMM的并行优化
1
作者 韩承磊 梁建国 +3 位作者 傅游 叶雨曦 花嵘 李倩倩 《山东科技大学学报(自然科学版)》 CAS 北大核心 2024年第3期105-113,共9页
宇宙学模拟是典型的N体问题,是高性能计算中具有代表性和挑战性的问题之一。本研究在神威·太湖之光平台上对天文N体模拟软件PhotoNs-2中的计算主体——快速多极子方法(fast multipole method,FMM)进行移植和性能优化。针对目前研... 宇宙学模拟是典型的N体问题,是高性能计算中具有代表性和挑战性的问题之一。本研究在神威·太湖之光平台上对天文N体模拟软件PhotoNs-2中的计算主体——快速多极子方法(fast multipole method,FMM)进行移植和性能优化。针对目前研究中存在的计算效率不高、通信开销大问题,结合神威·太湖之光SW26010处理器架构特点,通过数据重整、超越函数计算重构、设计双缓冲和消息传递接口通信时合并发送树进行优化。相较于优化前,优化后的PhotoNs-2在3个不同算例规模下均取得约24倍的加速效果。提出的优化方案可以为其他高性能应用在神威·太湖之光平台上的移植与优化提供参考。 展开更多
关键词 神威·太湖之光平台 并行优化 数据重整 快速多极子方法 宇宙N体
在线阅读 下载PDF
面向神威·太湖之光的PETSc可扩展异构并行算法及其性能优化 被引量:16
2
作者 洪文杰 李肯立 +4 位作者 全哲 阳王东 李克勤 郝子宇 谢向辉 《计算机学报》 EI CSCD 北大核心 2017年第9期2057-2069,共13页
共性数学库PETSc(Portable,Extensible Toolkit for Scientific Computation)是高性能计算的基础模块,是超级计算机计算环境的基础算法库之一,其性能直接影响调用数学库的高性能数值计算应用的效率.面向国际上首台100P神威·太湖之... 共性数学库PETSc(Portable,Extensible Toolkit for Scientific Computation)是高性能计算的基础模块,是超级计算机计算环境的基础算法库之一,其性能直接影响调用数学库的高性能数值计算应用的效率.面向国际上首台100P神威·太湖之光异构超级计算机,根据实际研究需要选取PETSc中两个典型用例ex5(单节点线性求解方程组问题)和ex19(多节点求解2D驱动腔问题)进行实验探究.对运行结果分析找到的热点函数主要为PETSc函数库中7个核心函数,针对这7个核心函数(主要包括向量运算与矩阵运算),提出和实现了其异构并行算法,并结合机器的异构体系结构提出了相应的性能优化方法.在超级计算机上的实验结果为:核心函数并行算法在4主核、256从核的单节点上加速比最大可达到16.4;多节点情况下,当输入规模为16 384时,8192个节点相对于256节点的加速比为32,且加速比随着异构处理器数目的增加接近线性增加,表明PETSc核心函数并行算法在神威·太湖之光超级计算机上具有良好的可扩展性. 展开更多
关键词 并行算法设计 PETSc数学库 可扩展性 神威·太湖之光
在线阅读 下载PDF
BCCAGCM模式在神威·太湖之光系统的优化 被引量:5
3
作者 魏敏 王彬 +5 位作者 何香 孙俊 姜小成 肖洒 张莉 徐金秀 《应用气象学报》 CSCD 北大核心 2019年第4期502-512,共11页
开展气象数值模式在神威·太湖之光系统的移植与优化,对研究模式与新型计算架构的适应性有重要意义。该文以BCCAGCM模式为研究对象,将其移植到神威·太湖之光全国产异构众核计算系统,进行性能分析,对模式动力框架和物理过程计... 开展气象数值模式在神威·太湖之光系统的移植与优化,对研究模式与新型计算架构的适应性有重要意义。该文以BCCAGCM模式为研究对象,将其移植到神威·太湖之光全国产异构众核计算系统,进行性能分析,对模式动力框架和物理过程计算结构进行调整,将计算核心段采用OpenACC技术进行众核加速优化,大量代码进行算法重构。结果表明:各核心段计算效率基本达到未优化的3倍左右,最高可达14倍左右,将各核心段集成,形成异构众核集成版本,可正确、稳定运行,计算误差合理。在不同并行规模,采用从核对模式整体计算进行加速效果比较稳定,基本保持在1.9倍,26000核并行规模动力试验并行效率约70%,其他试验约为57%。 展开更多
关键词 BCCAGCM 神威·太湖之光 异构计算 众核
在线阅读 下载PDF
神威太湖之光加速计算在脑神经网络模拟中的应用 被引量:8
4
作者 栗学磊 朱效民 +1 位作者 魏彦杰 冯圣中 《计算机学报》 EI CSCD 北大核心 2020年第6期1024-1036,共13页
脑神经网络模拟是脑科学研究和理论验证的重要方法.为提高脑模拟速度,异构加速已开始应用于脑模拟.然而现有异构加速脑模拟软件均存在明显的访存性能和计算精度问题.为此,本文基于神威太湖之光研发了脑模拟软件SWsnn,确保了随机访存多... 脑神经网络模拟是脑科学研究和理论验证的重要方法.为提高脑模拟速度,异构加速已开始应用于脑模拟.然而现有异构加速脑模拟软件均存在明显的访存性能和计算精度问题.为此,本文基于神威太湖之光研发了脑模拟软件SWsnn,确保了随机访存多发生在高速缓存中.为避免主存访问的随机性,将频繁出现随机访存且数据量较小的神经元信息长时间停留在局部存储(LDM),同时将数据量很大的突触连接数据存储在主存,且尽可能连续访问主存.为避免可塑性导致的对突触连接的随机搜索,对脉冲时间依赖可塑性(STDP)算法采用需要前再更新的方法,以确保主存访问的连续性.为了提高脑模拟精度,设计环形缓冲和延迟传送联合应用方法,以支持高精度时间步长的脑模拟.在此基础上,对SWsnn进行向量化、访存隐藏等优化操作,计算性能进一步提高约50%.SWsnn对104神经元全连接网络实现了生物实时模拟,比同等规模浮点计算能力GPU上运行的CARLsim快10倍左右. 展开更多
关键词 脉冲神经网络(SNN) 脑模拟 SW26010 随机访存 环形缓冲 神威太湖之光
在线阅读 下载PDF
LQCD Dslash在神威·太湖之光上的研究分析与MPI实现 被引量:3
5
作者 张淼 周宇 +3 位作者 陈建海 何钦铭 徐顺 宫明 《计算机科学与探索》 CSCD 北大核心 2019年第10期1664-1676,共13页
“神威·太湖之光”是我国全自主研发的千万核超级计算机,目前已有很多大型应用程序在此先进架构上进行了移植优化。然而,高能物理领域的格点量子色动力学(LQCD)数值模拟软件在神威平台上尚未进行过移植优化,这引起了科学工作者们... “神威·太湖之光”是我国全自主研发的千万核超级计算机,目前已有很多大型应用程序在此先进架构上进行了移植优化。然而,高能物理领域的格点量子色动力学(LQCD)数值模拟软件在神威平台上尚未进行过移植优化,这引起了科学工作者们的关注。针对LQCD在神威平台上的移植优化问题展开研究。首先,论述了国内外对LQCD在不同硬件架构上进行并行优化的发展历程。其次,通过对其热点模块Dslash的重构,实现了在神威平台上的成功移植。再次,针对申威26010芯片异构众核的架构和并行模式,实现了从核阵列异构并行、从核本地设备存储器(LDM)与主存之间的直接存储访问(DMA)通讯、主核之间的消息传递接口(MPI)通讯及全局归约等操作。最后,经过实验测试,单核组优化程序与16核组优化程序相比单主核程序分别获得了165倍和25倍的加速比,并发现了一些重要的性能瓶颈问题,为进一步优化提升整体效率奠定重要基础。同时,对国产超算平台的推广使用具有积极意义。 展开更多
关键词 格点量子色动力学(LQCD) Dslash 消息传递接口(MPI) 神威·太湖之光 众核芯片
在线阅读 下载PDF
基于神威太湖之光的AMBER软件移植与优化 被引量:5
6
作者 彭龙 陈俊仕 安虹 《计算机工程》 CAS CSCD 北大核心 2020年第12期12-20,共9页
AMBER是一款主流的分子动力学模拟软件,用于研究分子体系内的微观运动状态。为利用神威太湖之光的海量计算资源加速AMBER软件模拟分子体系的运动过程,将AMBER软件移植到SW26010处理器的主核上建立主从加速模型,实现AMBER软件的从核并行... AMBER是一款主流的分子动力学模拟软件,用于研究分子体系内的微观运动状态。为利用神威太湖之光的海量计算资源加速AMBER软件模拟分子体系的运动过程,将AMBER软件移植到SW26010处理器的主核上建立主从加速模型,实现AMBER软件的从核并行化设计。在从核并行化的基础上提出主从异步流水化方案,利用SW26010处理器从核的局部数据缓存和直接内存存取通道技术,解决从核访存速度过低及并行访存带宽受限的问题,并通过SIMD指令将部分从核代码向量化,进一步提升AMBER软件在神威太湖之光平台上的计算性能。测试结果表明,AMBER热点函数的计算性能较优化前约提升15倍,单核组的整体性能较Intel Xeon Platinum 8163约提升4.6倍。 展开更多
关键词 分子动力学模拟 神威太湖之光 异构众核处理器 并行优化 异步流水化
在线阅读 下载PDF
基于神威太湖之光的宇宙学多体模拟 被引量:2
7
作者 刘旭 张曦煌 +2 位作者 刘钊 吕小敬 朱光辉 《计算机工程》 CAS CSCD 北大核心 2020年第9期35-43,共9页
宇宙学模拟对于科学家研究非线性结构的形成以及暗物质、暗能量等假想形式具有重要作用,而高精度宇宙学模拟包含数千亿甚至数万亿个粒子,因此超级计算机强大的计算能力使其成为解决宇宙学模拟问题的理想平台。为在国产神威太湖之光超级... 宇宙学模拟对于科学家研究非线性结构的形成以及暗物质、暗能量等假想形式具有重要作用,而高精度宇宙学模拟包含数千亿甚至数万亿个粒子,因此超级计算机强大的计算能力使其成为解决宇宙学模拟问题的理想平台。为在国产神威太湖之光超级计算机上实现宇宙学N体模拟,分析PHoToNs软件中使用的粒子网格算法和快速多极子方法,并结合众核处理器架构提出多层次分解和负载均衡方案、执行树遍历和引力计算的流水线策略以及向量化引力计算算法等多种性能优化技术,从而实现能充分发挥神威太湖之光架构优势的N体模拟软件SwPHoToNs。实验结果表明,在神威太湖之光超级计算系统的5200000个计算核心上进行包含6400亿个粒子的宇宙学模拟,SwPHoToNs获得了29.44 PFLOPS的持续计算速度,且并行和计算效率分别为84.6%和48.3%。 展开更多
关键词 神威太湖之光 宇宙学 多体模拟 并行优化 可扩展性
在线阅读 下载PDF
太湖之光上利用OpenACC移植和优化GTC-P 被引量:9
8
作者 王一超 林新华 +5 位作者 蔡林金 Tang William Ethier Stephane 王蓓 施忠伟 松岗聪 《计算机研究与发展》 EI CSCD 北大核心 2018年第4期875-884,共10页
神威"太湖之光"是最新一期Top500榜单上排名第一的超级计算机,实测峰值性能约93PFLOPS.该系统提供了基于指导语句的并行编程工具OpenACC,兼容OpenACC 2.0编程标准,并添加了部分定制化功能.GTC-P是一个具有重要物理意义的科学... 神威"太湖之光"是最新一期Top500榜单上排名第一的超级计算机,实测峰值性能约93PFLOPS.该系统提供了基于指导语句的并行编程工具OpenACC,兼容OpenACC 2.0编程标准,并添加了部分定制化功能.GTC-P是一个具有重要物理意义的科学应用,算法基于高性能计算领域中被广泛使用的PIC(particle-in-cell)方法.利用神威OpenACC并行编程模型在"太湖之光"上成功移植了GTC-P应用.在移植过程中,鉴于OpenACC编译器尚无法解决的性能瓶颈,提出了3种基于中间代码二次开发的优化方法:1)消除原子操作;2)避免低效的全局访存操作;3)手动添加SIMD intrinsics指令.实验结果表明,在64个从核上相比1个主核,优化后的函数charge和push分别实现了1.6倍和8.6倍的加速比,同时GTC-P代码整体取得了2.5倍的加速比.优化结果证明了基于中间代码的手动优化对利用神威OpenACC移植的PIC算法在"太湖之光"上的性能提升非常重要. 展开更多
关键词 太湖之光 GTC-P PIC算法 神威 OpenACC
在线阅读 下载PDF
PME算法在神威太湖之光上的移植和优化 被引量:2
9
作者 林增 武铮 +1 位作者 安虹 陈俊仕 《小型微型计算机系统》 CSCD 北大核心 2021年第1期9-14,共6页
分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW2601... 分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW26010异构众核处理器,峰值性能达到125.4PFlops.目前太湖之光上已有对GROM ACS短程力优化的相关研究,但对于PM E(Particle Mesh Ewald)算法未有探索性工作.本文基于申威平台对PME算法展开研究,针对随机访存模式、网格点写写冲突等挑战,提出了基于局部网格序的分块策略、数据重组策略、非线性函数近似等方法进行优化.最终优化后的结果相较于初始版本性能提升了8.85倍,相较于Intel CPU版本提升了1.2倍.本文采用的优化技术也可以为神威太湖之光上其他分子动力学模拟软件和涉及散乱数据插值程序的优化提供借鉴. 展开更多
关键词 PME GROMACS 神威太湖之光 异构众核处理器
在线阅读 下载PDF
一种面向神威·太湖之光的通用并行卷积算法 被引量:1
10
作者 舒嘉明 安虹 +1 位作者 武铮 陈俊仕 《计算机工程》 CAS CSCD 北大核心 2019年第12期153-159,共7页
神威·太湖之光深度学习库中的并行卷积算法存在批量受限的问题,且传统gemm卷积算法在其硬件架构上效率较低。基于申威异构众核处理器,提出一种无批量限制的通用并行卷积算法。结合异步DMA访存操作和从核间的寄存器通信,使用数据重... 神威·太湖之光深度学习库中的并行卷积算法存在批量受限的问题,且传统gemm卷积算法在其硬件架构上效率较低。基于申威异构众核处理器,提出一种无批量限制的通用并行卷积算法。结合异步DMA访存操作和从核间的寄存器通信,使用数据重用和软件流水等方法降低从核访存开销,利用手动向量化的方法充分发挥从核浮点的计算能力。实验结果表明,与基础7层循环算法、gemm算法和Intel平台上的MKL-DNN算法相比,该算法的加速性能较好。 展开更多
关键词 神威·太湖之光 卷积神经网络 数据重用 软件流水 批量受限
在线阅读 下载PDF
基于神威·太湖之光的非结构网格计算加速算法 被引量:1
11
作者 许乐 安虹 +2 位作者 陈俊仕 张鹏飞 武铮 《计算机工程》 CAS CSCD 北大核心 2022年第12期45-53,共9页
在国产异构众核平台神威·太湖之光上的非结构网格计算具有稀疏存储、离散访存、数据依赖等特点,严重制约了众核处理器的性能发挥。为解决稀疏存储和离散访存问题,提出一种N阶对角染色算法,以有效平衡主从核计算并利用从核将全局访... 在国产异构众核平台神威·太湖之光上的非结构网格计算具有稀疏存储、离散访存、数据依赖等特点,严重制约了众核处理器的性能发挥。为解决稀疏存储和离散访存问题,提出一种N阶对角染色算法,以有效平衡主从核计算并利用从核将全局访存转化为LDM访问。针对数据依赖造成的计算竞争问题,采用自适应和无依赖的任务划分方法,避免并行计算时的数据冲突。为对处理器架构和非结构网格计算进行优化,采用主核与从核异步并行的方式,差异化使用主从核以充分利用硬件资源,同时,取消处理器提供的寄存器通信机制,降低从核阵列的同步开销同时便于扩展到新一代神威平台。此外,使用计算访存异步重叠技术来充分隐藏访存延迟。利用SpMV、Integration、calcLudsFcc算子进行实验,结果表明,相比主核实现,组合加速算法在不同算例规模下平均取得了10倍的加速效果,加速比最高可达24倍,N阶对角染色算法相比非染色分块算法取得了超过5.8倍的性能加速,有效提升了数据局部性和计算并行度。该算法对有依赖关系的计算冲突算子同样具有良好的加速性能,验证了自适应和无依赖任务划分方法的有效性。 展开更多
关键词 神威·太湖之光 非结构网格 众核加速 离散访存 无依赖任务划分
在线阅读 下载PDF
基于“神威太湖之光”的Caffe分布式扩展研究 被引量:4
12
作者 朱传家 刘鑫 方佳瑞 《计算机应用与软件》 北大核心 2020年第1期15-20,共6页
随着深度学习的快速发展,其规模越来越大,需要的计算越来越复杂。分布式扩展技术可以有效提高大规模数据的处理能力。基于神威太湖之光超算平台对深度学习框架Caffe进行分布式扩展研究,对比同步方式下参数服务器分布式扩展方法和去中心... 随着深度学习的快速发展,其规模越来越大,需要的计算越来越复杂。分布式扩展技术可以有效提高大规模数据的处理能力。基于神威太湖之光超算平台对深度学习框架Caffe进行分布式扩展研究,对比同步方式下参数服务器分布式扩展方法和去中心化的分布式扩展方法。实验表明,同步方式下,去中心化的分布式扩展方法相比参数服务器分布式扩展方法在通信效率方面具有明显的优势,对特定的模型通信性能提高可达98倍。 展开更多
关键词 深度学习 分布式优化 Caffe 神威太湖之光
在线阅读 下载PDF
“神威·太湖之光”计算机系统大规模应用特征分析与E级可扩展性研究 被引量:18
13
作者 刘鑫 郭恒 +1 位作者 孙茹君 陈左宁 《计算机学报》 EI CSCD 北大核心 2018年第10期2209-2220,共12页
复杂应用系统面临着全系统、全物理过程、自然尺度的计算模拟,对计算机能力提出更高要求.该文介绍了"神威·太湖之光"系统半机以上超大规模并行应用的算法特点、体系结构适应性、计算复杂度、访存复杂度和通信复杂度的大... 复杂应用系统面临着全系统、全物理过程、自然尺度的计算模拟,对计算机能力提出更高要求.该文介绍了"神威·太湖之光"系统半机以上超大规模并行应用的算法特点、体系结构适应性、计算复杂度、访存复杂度和通信复杂度的大规模实验分析结果,基于大规模应用计算和数据移动特征以及异构众核体系结构特点提出新的性能模型,得出影响大规模应用性能的关键因素,提出E级复杂应用对未来E级计算机系统的设计需求. 展开更多
关键词 神威·太湖之光 大规模应用 复杂度分析 计算特征
在线阅读 下载PDF
基于“神威·太湖之光”的区域海洋模式并行优化 被引量:10
14
作者 吴琦 倪裕芳 黄小猛 《计算机研究与发展》 EI CSCD 北大核心 2019年第7期1556-1566,共11页
海洋模式作为地球数值模拟中重要的组成模块,在很多领域都起到了至关重要的作用,不仅是研究海洋、河口和海岸不可或缺的科研手段,基于海洋模式搭建的预报系统还能够实时预测台风、海啸等现象.为了模拟更细粒度的海洋变化,海洋模式朝着... 海洋模式作为地球数值模拟中重要的组成模块,在很多领域都起到了至关重要的作用,不仅是研究海洋、河口和海岸不可或缺的科研手段,基于海洋模式搭建的预报系统还能够实时预测台风、海啸等现象.为了模拟更细粒度的海洋变化,海洋模式朝着更高的分辨率和更多的物理参数化方案发展,一般的计算机已无法满足其需求.随着散热和功耗成为通用处理器的主要瓶颈,多核、众核以及由此导致的异构已成为下一代超级计算机的发展趋势,这也为发展高分辨率海洋模式提供了坚实的基础平台.基于国产超级计算机“神威·太湖之光”,利用其异构众核体系结构的优势对普林斯顿海洋模式(Princeton ocean model, POM)进行移植和优化,从而充分发挥了国产异构众核平台的特点和优势.基于神威的高分辨率海洋模式swPOM(Sunway Princeton ocean model)在主从核协作下运行效率达到纯主核的13倍,是通用Intel平台的2.8倍左右,可扩展到25万核上运行,为实时预报系统提供了保障. 展开更多
关键词 普林斯顿海洋模式 高分辨率 神威太湖之光 异构 并行优化
在线阅读 下载PDF
神威太湖之光上分子动力学模拟的性能优化 被引量:6
15
作者 田卓 陈一峯 《软件学报》 EI CSCD 北大核心 2021年第9期2945-2962,共18页
“神威·太湖之光”国产超级计算机的特点是适用于高通量计算系统,此类系统往往存储器访问延迟,网络延迟较长.在实际应用中,有一大类问题是时间演化的模拟问题,往往需要高频状态迭代,每次迭代需要通信.此类应用问题的典型代表是分... “神威·太湖之光”国产超级计算机的特点是适用于高通量计算系统,此类系统往往存储器访问延迟,网络延迟较长.在实际应用中,有一大类问题是时间演化的模拟问题,往往需要高频状态迭代,每次迭代需要通信.此类应用问题的典型代表是分子动力学模拟,分子的性质依赖于时间演化,导致状态相关的时间尺度上难以并行化.实际应用中,全原子模型需要模拟超过μs时间尺度,每一步的物理时间为1fs-2.5fs,这意味着所需时间步个数超过1012个.众核处理器中,不同核心访存时需较长的“排队”等待,造成访存延迟.另外,网卡通信延迟以及较长的数据通路会带来网络延迟,由此导致在长延迟的众核处理器上进行一次有效的模拟几乎是不可能的.解决此类问题的主要挑战是提高迭代频率,即每秒执行尽可能多的迭代步.针对神威高性能芯片处理器的体系结构特点,以分子动力学模拟为例,研究了一系列优化策略以提高迭代频率:(1)单核通信与片上核间同步相结合,降低通信成本;(2)共享内存等待与从核同步相结合,优化异构体系结构中的核间同步;(3)改变计算模式,减少核间数据关联和依赖关系;(4)数据传输与计算重叠,掩盖访存延迟;(5)规则化问题,以提高访存凝聚性. 展开更多
关键词 神威太湖之光 分子动力学 迭代 异构 同步
在线阅读 下载PDF
“神威·太湖之光”上Tend_lin并行优化 被引量:4
16
作者 傅游 王坦 +1 位作者 郭强 高希然 《山东科技大学学报(自然科学版)》 CAS 北大核心 2019年第2期90-99,共10页
大气环流模式是中科院地球系统模式中最为复杂的模式,在当前主流的众核异构平台上开展大气环流模式的众核并行化是高性能计算的热点研究问题。针对AGCM4.0热点程序动力框架的适应过程Tend_lin,利用神威OpenACC编程模型在"神威·... 大气环流模式是中科院地球系统模式中最为复杂的模式,在当前主流的众核异构平台上开展大气环流模式的众核并行化是高性能计算的热点研究问题。针对AGCM4.0热点程序动力框架的适应过程Tend_lin,利用神威OpenACC编程模型在"神威·太湖之光"高性能计算平台上实现并行化,并从循环分布、循环分块、数据传输的表达、函数调用的从核化等方面提升应用性能。详细讨论了不同场景下的数据传输表达,对比测试了不同分块尺寸对程序性能的影响。相比主核串行,两种测试规模下,Tend_lin应用的单核组多线程并行均获得6倍以上的加速;且随着应用分辨率的扩大,众核处理器的性能得到更好发挥,在C规模下,多进程获得了69倍的全应用加速。 展开更多
关键词 神威·太湖之光 Tend_lin 神威OpenACC 众核并行 优化
在线阅读 下载PDF
基于“神威·太湖之光”的三维有限长方柱绕流直接数值模拟
17
作者 张亚英 吴乘胜 +1 位作者 王建春 金奕星 《中国舰船研究》 CSCD 北大核心 2022年第3期205-212,共8页
[目的]旨在探索基于国产处理器的异构超算平台在船舶水动力学领域的应用效果。[方法]基于“神威·太湖之光”超级计算机,采用MPI+Athread的编程方法,对雷诺数Re=250的三维有限长方柱绕流进行直接数值模拟,并对模拟结果进行验证与分... [目的]旨在探索基于国产处理器的异构超算平台在船舶水动力学领域的应用效果。[方法]基于“神威·太湖之光”超级计算机,采用MPI+Athread的编程方法,对雷诺数Re=250的三维有限长方柱绕流进行直接数值模拟,并对模拟结果进行验证与分析。模拟使用的网格规模最大达到245.76百万(t=600 s,dt=0.001),并行规模最高达到133 120核。[结果]经统计,在133 120核并行规模下245.76百万网格规模计算能够在数天之内完成。模拟结果显示,在三维有限长方柱绕流流动中,方柱各横截面具有同步涡脱的特征;对比不同长径比方柱绕流尾流场,发现长径比为2时的尾流涡系结构呈现出长直状的流向涡二次结构,而大于2时则为反对称卡门涡。[结论]模拟表明,基于“神威·太湖之光”超级计算机的多级并行计算可有效减少小尺度网格下因规模提升所导致的时间成本,在船舶水动力学领域有较好的应用潜力。 展开更多
关键词 三维有限长方柱绕流 直接数值模拟 并行计算 “神威·太湖之光”超级计算机
在线阅读 下载PDF
国产神威环境下Athread代码生成工具的设计与开发 被引量:2
18
作者 刘加伟 郭强 +3 位作者 庄园 张海红 王利 曾云辉 《计算机工程与设计》 北大核心 2024年第2期633-640,F0003,共9页
针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调... 针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调用slave程序的三层模板程序架构,集成常用众核优化方法的代码框架。经过实验分析,采用该自动转换工具生成的Athread代码相较于人工编写的OpenACC*加速的程序有更高的加速比,特别是对多个核心段进行众核化加速时的加速比相差15%,验证该转换工具具有很好的实用性。 展开更多
关键词 加速线程库 代码生成 模板引擎 语法分析 众核处理器 神威·太湖之光 高性能计算
在线阅读 下载PDF
大点数FFT在“申威26010”上的并行优化 被引量:1
19
作者 郭俊 刘鹏 +2 位作者 杨昕遥 张鲁飞 吴东 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第1期78-86,共9页
根据“神威·太湖之光”超级计算机所用国产“申威26010”处理器的架构特点和编程规范,提出针对大点数FFT的众核并行优化方案.该方案源自经典的Cooley-Tukey FFT算法,通过将一维大点数数据迭代分解为二维小规模矩阵进行并行加速.为... 根据“神威·太湖之光”超级计算机所用国产“申威26010”处理器的架构特点和编程规范,提出针对大点数FFT的众核并行优化方案.该方案源自经典的Cooley-Tukey FFT算法,通过将一维大点数数据迭代分解为二维小规模矩阵进行并行加速.为了解决矩阵“列FFT”的读写、转置和计算问题,提出“列均分-行连续”的读写策略,通过对数据进行合理的分配、重排、交换,结合SIMD向量化、旋转因子优化、双缓冲、寄存器通信、跨步传输等优化手段,充分利用了众核处理器的计算资源和传输带宽.实验结果显示,单核组64从核并行程序较主核运行FFTW库,可以达到最高65x、平均48x以上的加速比. 展开更多
关键词 神威·太湖之光 申威26010 快速傅里叶变换 Cooley-Tukey算法 众核并行
在线阅读 下载PDF
基于申威众核处理器的混合并行遗传算法 被引量:3
20
作者 赵瑞祥 郑凯 +4 位作者 刘垚 王肃 刘艳 沈焕学 周谦豪 《计算机应用》 CSCD 北大核心 2017年第9期2518-2523,共6页
传统遗传算法求解计算密集型任务时,适应度函数的执行时间增加相当快,致使当种群规模或者进化代数增大时,算法的收敛速度非常缓慢。基于此,设计了"粗粒度-主从式"混合式并行遗传算法(HBPGA),并在目前TOP500上排名第一的超级... 传统遗传算法求解计算密集型任务时,适应度函数的执行时间增加相当快,致使当种群规模或者进化代数增大时,算法的收敛速度非常缓慢。基于此,设计了"粗粒度-主从式"混合式并行遗传算法(HBPGA),并在目前TOP500上排名第一的超级计算机神威"太湖之光"平台上实现。该算法模型采用两级并行架构,结合了MPI和Athread两种编程模型,与传统在单核或者一级并行构架的多核集群上实现的遗传算法相比,在申威众核处理器上实现了二级并行,并得到了更好的性能和更高的加速比。实验中,当从核数为16×64时,最大加速比达到544,从核加速比超过31。 展开更多
关键词 混合并行遗传算法 神威"太湖之光" 众核 MPI Athread
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部