磁约束核聚变粒子网格法(particle in cell,PIC)回旋动理学模拟代码VirtEx具备研究聚变产物Alpha粒子约束及输运的能力,是聚变能实现的关键.Alpha粒子回旋动理学模拟相比电子模拟,访存量更大、更复杂,同时包含非规则访问和原子写操作,...磁约束核聚变粒子网格法(particle in cell,PIC)回旋动理学模拟代码VirtEx具备研究聚变产物Alpha粒子约束及输运的能力,是聚变能实现的关键.Alpha粒子回旋动理学模拟相比电子模拟,访存量更大、更复杂,同时包含非规则访问和原子写操作,对访存性能依赖较高,在面向高计算密度特征的天河新一代超算平台异构处理器MT-3000进行移植及性能优化时具有巨大挑战.考虑到异构加速器架构和PIC算法特性,设计并实施了一些优化方法,如中间变量的即时计算、定制化的软件缓存设计、缓存空间局部性优化、热点函数合并,显著地提高了热点函数的计算访存比.通过中等规模的回旋动理学离子基准算例测试显示了在热点函数Push,Locate,Charge上分别有10.9,13.3,16.2倍的速度提升,同时在扩展性测试中的3840个节点的5898240个加速核上显示了良好的扩展性,并行效率为88.4%.展开更多
文摘磁约束核聚变粒子网格法(particle in cell,PIC)回旋动理学模拟代码VirtEx具备研究聚变产物Alpha粒子约束及输运的能力,是聚变能实现的关键.Alpha粒子回旋动理学模拟相比电子模拟,访存量更大、更复杂,同时包含非规则访问和原子写操作,对访存性能依赖较高,在面向高计算密度特征的天河新一代超算平台异构处理器MT-3000进行移植及性能优化时具有巨大挑战.考虑到异构加速器架构和PIC算法特性,设计并实施了一些优化方法,如中间变量的即时计算、定制化的软件缓存设计、缓存空间局部性优化、热点函数合并,显著地提高了热点函数的计算访存比.通过中等规模的回旋动理学离子基准算例测试显示了在热点函数Push,Locate,Charge上分别有10.9,13.3,16.2倍的速度提升,同时在扩展性测试中的3840个节点的5898240个加速核上显示了良好的扩展性,并行效率为88.4%.