期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
神威·太湖之光平台上宇宙N体模拟中FMM的并行优化
1
作者 韩承磊 梁建国 +3 位作者 傅游 叶雨曦 花嵘 李倩倩 《山东科技大学学报(自然科学版)》 CAS 北大核心 2024年第3期105-113,共9页
宇宙学模拟是典型的N体问题,是高性能计算中具有代表性和挑战性的问题之一。本研究在神威·太湖之光平台上对天文N体模拟软件PhotoNs-2中的计算主体——快速多极子方法(fast multipole method,FMM)进行移植和性能优化。针对目前研... 宇宙学模拟是典型的N体问题,是高性能计算中具有代表性和挑战性的问题之一。本研究在神威·太湖之光平台上对天文N体模拟软件PhotoNs-2中的计算主体——快速多极子方法(fast multipole method,FMM)进行移植和性能优化。针对目前研究中存在的计算效率不高、通信开销大问题,结合神威·太湖之光SW26010处理器架构特点,通过数据重整、超越函数计算重构、设计双缓冲和消息传递接口通信时合并发送树进行优化。相较于优化前,优化后的PhotoNs-2在3个不同算例规模下均取得约24倍的加速效果。提出的优化方案可以为其他高性能应用在神威·太湖之光平台上的移植与优化提供参考。 展开更多
关键词 神威·太湖之光平台 并行优化 数据重整 快速多极子方法 宇宙N体
在线阅读 下载PDF
面向神威·太湖之光的PETSc可扩展异构并行算法及其性能优化 被引量:16
2
作者 洪文杰 李肯立 +4 位作者 全哲 阳王东 李克勤 郝子宇 谢向辉 《计算机学报》 EI CSCD 北大核心 2017年第9期2057-2069,共13页
共性数学库PETSc(Portable,Extensible Toolkit for Scientific Computation)是高性能计算的基础模块,是超级计算机计算环境的基础算法库之一,其性能直接影响调用数学库的高性能数值计算应用的效率.面向国际上首台100P神威·太湖之... 共性数学库PETSc(Portable,Extensible Toolkit for Scientific Computation)是高性能计算的基础模块,是超级计算机计算环境的基础算法库之一,其性能直接影响调用数学库的高性能数值计算应用的效率.面向国际上首台100P神威·太湖之光异构超级计算机,根据实际研究需要选取PETSc中两个典型用例ex5(单节点线性求解方程组问题)和ex19(多节点求解2D驱动腔问题)进行实验探究.对运行结果分析找到的热点函数主要为PETSc函数库中7个核心函数,针对这7个核心函数(主要包括向量运算与矩阵运算),提出和实现了其异构并行算法,并结合机器的异构体系结构提出了相应的性能优化方法.在超级计算机上的实验结果为:核心函数并行算法在4主核、256从核的单节点上加速比最大可达到16.4;多节点情况下,当输入规模为16 384时,8192个节点相对于256节点的加速比为32,且加速比随着异构处理器数目的增加接近线性增加,表明PETSc核心函数并行算法在神威·太湖之光超级计算机上具有良好的可扩展性. 展开更多
关键词 并行算法设计 PETSc数学库 可扩展性 神威·太湖之光
在线阅读 下载PDF
BCCAGCM模式在神威·太湖之光系统的优化 被引量:5
3
作者 魏敏 王彬 +5 位作者 何香 孙俊 姜小成 肖洒 张莉 徐金秀 《应用气象学报》 CSCD 北大核心 2019年第4期502-512,共11页
开展气象数值模式在神威·太湖之光系统的移植与优化,对研究模式与新型计算架构的适应性有重要意义。该文以BCCAGCM模式为研究对象,将其移植到神威·太湖之光全国产异构众核计算系统,进行性能分析,对模式动力框架和物理过程计... 开展气象数值模式在神威·太湖之光系统的移植与优化,对研究模式与新型计算架构的适应性有重要意义。该文以BCCAGCM模式为研究对象,将其移植到神威·太湖之光全国产异构众核计算系统,进行性能分析,对模式动力框架和物理过程计算结构进行调整,将计算核心段采用OpenACC技术进行众核加速优化,大量代码进行算法重构。结果表明:各核心段计算效率基本达到未优化的3倍左右,最高可达14倍左右,将各核心段集成,形成异构众核集成版本,可正确、稳定运行,计算误差合理。在不同并行规模,采用从核对模式整体计算进行加速效果比较稳定,基本保持在1.9倍,26000核并行规模动力试验并行效率约70%,其他试验约为57%。 展开更多
关键词 BCCAGCM 神威·太湖之光 异构计算 众核
在线阅读 下载PDF
LQCD Dslash在神威·太湖之光上的研究分析与MPI实现 被引量:3
4
作者 张淼 周宇 +3 位作者 陈建海 何钦铭 徐顺 宫明 《计算机科学与探索》 CSCD 北大核心 2019年第10期1664-1676,共13页
“神威·太湖之光”是我国全自主研发的千万核超级计算机,目前已有很多大型应用程序在此先进架构上进行了移植优化。然而,高能物理领域的格点量子色动力学(LQCD)数值模拟软件在神威平台上尚未进行过移植优化,这引起了科学工作者们... “神威·太湖之光”是我国全自主研发的千万核超级计算机,目前已有很多大型应用程序在此先进架构上进行了移植优化。然而,高能物理领域的格点量子色动力学(LQCD)数值模拟软件在神威平台上尚未进行过移植优化,这引起了科学工作者们的关注。针对LQCD在神威平台上的移植优化问题展开研究。首先,论述了国内外对LQCD在不同硬件架构上进行并行优化的发展历程。其次,通过对其热点模块Dslash的重构,实现了在神威平台上的成功移植。再次,针对申威26010芯片异构众核的架构和并行模式,实现了从核阵列异构并行、从核本地设备存储器(LDM)与主存之间的直接存储访问(DMA)通讯、主核之间的消息传递接口(MPI)通讯及全局归约等操作。最后,经过实验测试,单核组优化程序与16核组优化程序相比单主核程序分别获得了165倍和25倍的加速比,并发现了一些重要的性能瓶颈问题,为进一步优化提升整体效率奠定重要基础。同时,对国产超算平台的推广使用具有积极意义。 展开更多
关键词 格点量子色动力学(LQCD) Dslash 消息传递接口(MPI) 神威·太湖之光 众核芯片
在线阅读 下载PDF
一种面向神威·太湖之光的通用并行卷积算法 被引量:1
5
作者 舒嘉明 安虹 +1 位作者 武铮 陈俊仕 《计算机工程》 CAS CSCD 北大核心 2019年第12期153-159,共7页
神威·太湖之光深度学习库中的并行卷积算法存在批量受限的问题,且传统gemm卷积算法在其硬件架构上效率较低。基于申威异构众核处理器,提出一种无批量限制的通用并行卷积算法。结合异步DMA访存操作和从核间的寄存器通信,使用数据重... 神威·太湖之光深度学习库中的并行卷积算法存在批量受限的问题,且传统gemm卷积算法在其硬件架构上效率较低。基于申威异构众核处理器,提出一种无批量限制的通用并行卷积算法。结合异步DMA访存操作和从核间的寄存器通信,使用数据重用和软件流水等方法降低从核访存开销,利用手动向量化的方法充分发挥从核浮点的计算能力。实验结果表明,与基础7层循环算法、gemm算法和Intel平台上的MKL-DNN算法相比,该算法的加速性能较好。 展开更多
关键词 神威·太湖之光 卷积神经网络 数据重用 软件流水 批量受限
在线阅读 下载PDF
基于神威·太湖之光的非结构网格计算加速算法 被引量:1
6
作者 许乐 安虹 +2 位作者 陈俊仕 张鹏飞 武铮 《计算机工程》 CAS CSCD 北大核心 2022年第12期45-53,共9页
在国产异构众核平台神威·太湖之光上的非结构网格计算具有稀疏存储、离散访存、数据依赖等特点,严重制约了众核处理器的性能发挥。为解决稀疏存储和离散访存问题,提出一种N阶对角染色算法,以有效平衡主从核计算并利用从核将全局访... 在国产异构众核平台神威·太湖之光上的非结构网格计算具有稀疏存储、离散访存、数据依赖等特点,严重制约了众核处理器的性能发挥。为解决稀疏存储和离散访存问题,提出一种N阶对角染色算法,以有效平衡主从核计算并利用从核将全局访存转化为LDM访问。针对数据依赖造成的计算竞争问题,采用自适应和无依赖的任务划分方法,避免并行计算时的数据冲突。为对处理器架构和非结构网格计算进行优化,采用主核与从核异步并行的方式,差异化使用主从核以充分利用硬件资源,同时,取消处理器提供的寄存器通信机制,降低从核阵列的同步开销同时便于扩展到新一代神威平台。此外,使用计算访存异步重叠技术来充分隐藏访存延迟。利用SpMV、Integration、calcLudsFcc算子进行实验,结果表明,相比主核实现,组合加速算法在不同算例规模下平均取得了10倍的加速效果,加速比最高可达24倍,N阶对角染色算法相比非染色分块算法取得了超过5.8倍的性能加速,有效提升了数据局部性和计算并行度。该算法对有依赖关系的计算冲突算子同样具有良好的加速性能,验证了自适应和无依赖任务划分方法的有效性。 展开更多
关键词 神威·太湖之光 非结构网格 众核加速 离散访存 无依赖任务划分
在线阅读 下载PDF
“神威·太湖之光”计算机系统大规模应用特征分析与E级可扩展性研究 被引量:17
7
作者 刘鑫 郭恒 +1 位作者 孙茹君 陈左宁 《计算机学报》 EI CSCD 北大核心 2018年第10期2209-2220,共12页
复杂应用系统面临着全系统、全物理过程、自然尺度的计算模拟,对计算机能力提出更高要求.该文介绍了"神威·太湖之光"系统半机以上超大规模并行应用的算法特点、体系结构适应性、计算复杂度、访存复杂度和通信复杂度的大... 复杂应用系统面临着全系统、全物理过程、自然尺度的计算模拟,对计算机能力提出更高要求.该文介绍了"神威·太湖之光"系统半机以上超大规模并行应用的算法特点、体系结构适应性、计算复杂度、访存复杂度和通信复杂度的大规模实验分析结果,基于大规模应用计算和数据移动特征以及异构众核体系结构特点提出新的性能模型,得出影响大规模应用性能的关键因素,提出E级复杂应用对未来E级计算机系统的设计需求. 展开更多
关键词 神威·太湖之光 大规模应用 复杂度分析 计算特征
在线阅读 下载PDF
“神威·太湖之光”上Tend_lin并行优化 被引量:4
8
作者 傅游 王坦 +1 位作者 郭强 高希然 《山东科技大学学报(自然科学版)》 CAS 北大核心 2019年第2期90-99,共10页
大气环流模式是中科院地球系统模式中最为复杂的模式,在当前主流的众核异构平台上开展大气环流模式的众核并行化是高性能计算的热点研究问题。针对AGCM4.0热点程序动力框架的适应过程Tend_lin,利用神威OpenACC编程模型在"神威·... 大气环流模式是中科院地球系统模式中最为复杂的模式,在当前主流的众核异构平台上开展大气环流模式的众核并行化是高性能计算的热点研究问题。针对AGCM4.0热点程序动力框架的适应过程Tend_lin,利用神威OpenACC编程模型在"神威·太湖之光"高性能计算平台上实现并行化,并从循环分布、循环分块、数据传输的表达、函数调用的从核化等方面提升应用性能。详细讨论了不同场景下的数据传输表达,对比测试了不同分块尺寸对程序性能的影响。相比主核串行,两种测试规模下,Tend_lin应用的单核组多线程并行均获得6倍以上的加速;且随着应用分辨率的扩大,众核处理器的性能得到更好发挥,在C规模下,多进程获得了69倍的全应用加速。 展开更多
关键词 神威·太湖之光 Tend_lin 神威OpenACC 众核并行 优化
在线阅读 下载PDF
基于“神威·太湖之光”的三维有限长方柱绕流直接数值模拟
9
作者 张亚英 吴乘胜 +1 位作者 王建春 金奕星 《中国舰船研究》 CSCD 北大核心 2022年第3期205-212,共8页
[目的]旨在探索基于国产处理器的异构超算平台在船舶水动力学领域的应用效果。[方法]基于“神威·太湖之光”超级计算机,采用MPI+Athread的编程方法,对雷诺数Re=250的三维有限长方柱绕流进行直接数值模拟,并对模拟结果进行验证与分... [目的]旨在探索基于国产处理器的异构超算平台在船舶水动力学领域的应用效果。[方法]基于“神威·太湖之光”超级计算机,采用MPI+Athread的编程方法,对雷诺数Re=250的三维有限长方柱绕流进行直接数值模拟,并对模拟结果进行验证与分析。模拟使用的网格规模最大达到245.76百万(t=600 s,dt=0.001),并行规模最高达到133 120核。[结果]经统计,在133 120核并行规模下245.76百万网格规模计算能够在数天之内完成。模拟结果显示,在三维有限长方柱绕流流动中,方柱各横截面具有同步涡脱的特征;对比不同长径比方柱绕流尾流场,发现长径比为2时的尾流涡系结构呈现出长直状的流向涡二次结构,而大于2时则为反对称卡门涡。[结论]模拟表明,基于“神威·太湖之光”超级计算机的多级并行计算可有效减少小尺度网格下因规模提升所导致的时间成本,在船舶水动力学领域有较好的应用潜力。 展开更多
关键词 三维有限长方柱绕流 直接数值模拟 并行计算 神威·太湖之光”超级计算机
在线阅读 下载PDF
国产神威环境下Athread代码生成工具的设计与开发 被引量:2
10
作者 刘加伟 郭强 +3 位作者 庄园 张海红 王利 曾云辉 《计算机工程与设计》 北大核心 2024年第2期633-640,F0003,共9页
针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调... 针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调用slave程序的三层模板程序架构,集成常用众核优化方法的代码框架。经过实验分析,采用该自动转换工具生成的Athread代码相较于人工编写的OpenACC*加速的程序有更高的加速比,特别是对多个核心段进行众核化加速时的加速比相差15%,验证该转换工具具有很好的实用性。 展开更多
关键词 加速线程库 代码生成 模板引擎 语法分析 众核处理器 神威·太湖之光 高性能计算
在线阅读 下载PDF
神威平台上AceMesh编程模型的构图优化 被引量:1
11
作者 叶雨曦 傅游 +3 位作者 梁建国 孟现粉 刘颖 花嵘 《山东科技大学学报(自然科学版)》 CAS 北大核心 2021年第4期76-85,共10页
面向高性能计算领域的多核、众核处理器飞速发展,为了降低并行编程的难度,提高并行计算效率,数据驱动的并行编程模型成为高性能计算领域的研究热点。AceMesh是数据流驱动的、支持多核和众核异构平台的任务并行编程模型,能自动发掘结构... 面向高性能计算领域的多核、众核处理器飞速发展,为了降低并行编程的难度,提高并行计算效率,数据驱动的并行编程模型成为高性能计算领域的研究热点。AceMesh是数据流驱动的、支持多核和众核异构平台的任务并行编程模型,能自动发掘结构化网格应用中存在的数据驱动的任务图并行性。但如果任务粒度划分较细,其构图过程会造成很大开销。本研究结合“申威26010”异构众核处理器的结构特点,从主、从核通信优化、内存池、无后继任务收集等方面对AceMesh构图过程进行优化,并采用航天飞行器应用中的7个热点子程序对优化效果进行测试。测试数据表明以上优化取得5倍的加速。为验证构图优化对AceMesh整体性能的提升,对航天飞行器应用分别在Acemesh和神威OpenACC的加速效果进行了测试,优化后的AceMesh加速效果约为神威OpenACC的1.5倍。 展开更多
关键词 DAG构图优化 任务并行编程模型 神威·太湖之光 申威处理器 性能
在线阅读 下载PDF
大点数FFT在“申威26010”上的并行优化 被引量:1
12
作者 郭俊 刘鹏 +2 位作者 杨昕遥 张鲁飞 吴东 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第1期78-86,共9页
根据“神威·太湖之光”超级计算机所用国产“申威26010”处理器的架构特点和编程规范,提出针对大点数FFT的众核并行优化方案.该方案源自经典的Cooley-Tukey FFT算法,通过将一维大点数数据迭代分解为二维小规模矩阵进行并行加速.为... 根据“神威·太湖之光”超级计算机所用国产“申威26010”处理器的架构特点和编程规范,提出针对大点数FFT的众核并行优化方案.该方案源自经典的Cooley-Tukey FFT算法,通过将一维大点数数据迭代分解为二维小规模矩阵进行并行加速.为了解决矩阵“列FFT”的读写、转置和计算问题,提出“列均分-行连续”的读写策略,通过对数据进行合理的分配、重排、交换,结合SIMD向量化、旋转因子优化、双缓冲、寄存器通信、跨步传输等优化手段,充分利用了众核处理器的计算资源和传输带宽.实验结果显示,单核组64从核并行程序较主核运行FFTW库,可以达到最高65x、平均48x以上的加速比. 展开更多
关键词 神威·太湖之光 申威26010 快速傅里叶变换 Cooley-Tukey算法 众核并行
在线阅读 下载PDF
申威众核处理器的并行NSGA-Ⅱ算法 被引量:3
13
作者 沈焕学 郑凯 +4 位作者 刘垚 王肃 刘艳 赵瑞祥 周谦豪 《计算机工程与应用》 CSCD 北大核心 2018年第17期35-40,共6页
非支配排序遗传算法(NSGA-Ⅱ)在多目标优化领域有着广泛的应用,但在处理复杂问题时运行时间相当长。并行化是提高算法执行速度的有效途径。众核处理器的出现,为实现高度并行奠定了物质基础。基于国产超算"神威·太湖之光"... 非支配排序遗传算法(NSGA-Ⅱ)在多目标优化领域有着广泛的应用,但在处理复杂问题时运行时间相当长。并行化是提高算法执行速度的有效途径。众核处理器的出现,为实现高度并行奠定了物质基础。基于国产超算"神威·太湖之光"的申威众核处理器平台设计了并行NSGA-Ⅱ算法(PNSGA-Ⅱ),实现了算法基于主核的一级并行和基于主/从核的二级并行。在典型测试函数集上的实验表明,在不影响解的质量前提下,PNSGA-Ⅱ算法不仅大大加快了执行速度,同时算法的收敛速度也更快。 展开更多
关键词 非支配排序遗传算法 多目标优化 并行遗传算法 众核处理器 神威·太湖之光
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部