-
题名基于神威·太湖之光的非结构网格计算加速算法
被引量:1
- 1
-
-
作者
许乐
安虹
陈俊仕
张鹏飞
武铮
-
机构
中国科学技术大学计算机科学与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第12期45-53,共9页
-
基金
国家自然科学基金“面向E级计算系统的光滑粒子流体动力学高可扩展并行计算框架”(62102389)。
-
文摘
在国产异构众核平台神威·太湖之光上的非结构网格计算具有稀疏存储、离散访存、数据依赖等特点,严重制约了众核处理器的性能发挥。为解决稀疏存储和离散访存问题,提出一种N阶对角染色算法,以有效平衡主从核计算并利用从核将全局访存转化为LDM访问。针对数据依赖造成的计算竞争问题,采用自适应和无依赖的任务划分方法,避免并行计算时的数据冲突。为对处理器架构和非结构网格计算进行优化,采用主核与从核异步并行的方式,差异化使用主从核以充分利用硬件资源,同时,取消处理器提供的寄存器通信机制,降低从核阵列的同步开销同时便于扩展到新一代神威平台。此外,使用计算访存异步重叠技术来充分隐藏访存延迟。利用SpMV、Integration、calcLudsFcc算子进行实验,结果表明,相比主核实现,组合加速算法在不同算例规模下平均取得了10倍的加速效果,加速比最高可达24倍,N阶对角染色算法相比非染色分块算法取得了超过5.8倍的性能加速,有效提升了数据局部性和计算并行度。该算法对有依赖关系的计算冲突算子同样具有良好的加速性能,验证了自适应和无依赖任务划分方法的有效性。
-
关键词
神威·太湖之光
非结构网格
众核加速
离散访存
无依赖任务划分
-
Keywords
Sunway TaihuLight
unstructured grid
many-core acceleration
discrete memory access
independent task partition
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名申威处理器上数据流运行时系统的设计与实现
被引量:1
- 2
-
-
作者
张鹏飞
陈俊仕
郑重
沈沛祺
安虹
许乐
-
机构
中国科学技术大学计算机科学与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第12期46-54,共9页
-
基金
国家自然科学基金(62102389)。
-
文摘
我国自主研发的新一代神威异构众核计算平台主要采用athread异构编程方法,athread异构编程属于大同步并行模型,难以充分挖掘程序中的细粒度并行性,其采用的同步方式难以实现众核上的任务负载均衡。数据流并行编程模型因其天然并行性、点对点同步的特点能够很好地解决上述问题。基于Codelet程序执行模型和申威主从核架构特点,设计并实现面向申威处理器的数据流运行时系统swTasklet,通过对Codelet功能的进一步细化和对Codelet机器模型到主从核的映射,避免从核阵列上的同步操作,减少同步开销;由主核完成从核计算任务的调度分配,将计算和同步操作分离,保证运行时系统可以和从核计算库的共用。实验以NPB LU程序和向量-向量加作为测试用例,采用相同的优化方法分别对swTasklet和athread实现进行并行化。实验结果表明:在规模较大情况下,LU程序的swTasklet实现版本比athread版本快16%,向量-向量加swTasklet实现版本比athread版本快1倍;使用swTasklet实现的LU并行版本较主核本取得了平均8倍以上的加速,而向量-向量加swTasklet版本较主核版本取得30倍左右的加速。
-
关键词
申威异构处理器
数据流运行时系统
Codelet程序执行模型
并行编程模型
众核加速
-
Keywords
Shenwei heterogeneous processor
data-flow runtime system
Codelet program execution model
parallel programming model
many-core acceleration
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-