Particle-in-cell (PIC) method has got much benefits from GPU-accelerated heterogeneous systems.However,the performance of PIC is constrained by the interpolation operations in the weighting process on GPU (graphic pro...Particle-in-cell (PIC) method has got much benefits from GPU-accelerated heterogeneous systems.However,the performance of PIC is constrained by the interpolation operations in the weighting process on GPU (graphic processing unit).Aiming at this problem,a fast weighting method for PIC simulation on GPU-accelerated systems was proposed to avoid the atomic memory operations during the weighting process.The method was implemented by taking advantage of GPU's thread synchronization mechanism and dividing the problem space properly.Moreover,software managed shared memory on the GPU was employed to buffer the intermediate data.The experimental results show that the method achieves speedups up to 3.5 times compared to previous works,and runs 20.08 times faster on one NVIDIA Tesla M2090 GPU compared to a single core of Intel Xeon X5670 CPU.展开更多
地球同步轨道航天器在地磁亚暴环境下处于向光面和背光面的两侧会产生电位差。本文利用高能电子和高能离子的双麦克斯韦分布拟合同步轨道环境等离子体并加入二次电子和光电子的影响,建立了航天器的三维计算模型,利用基于PIC(Particle In...地球同步轨道航天器在地磁亚暴环境下处于向光面和背光面的两侧会产生电位差。本文利用高能电子和高能离子的双麦克斯韦分布拟合同步轨道环境等离子体并加入二次电子和光电子的影响,建立了航天器的三维计算模型,利用基于PIC(Particle In Cell)方法的仿真程序,计算了航天器表面各材料的充电电位及其附近的等离子体的电位分布,以及低能电子、高能电子、二次电子和光电子的密度分布和充电电流分布,最后探讨了航天器不同表面材料电势随时间的变化情况。展开更多
磁约束核聚变粒子网格法(particle in cell,PIC)回旋动理学模拟代码VirtEx具备研究聚变产物Alpha粒子约束及输运的能力,是聚变能实现的关键.Alpha粒子回旋动理学模拟相比电子模拟,访存量更大、更复杂,同时包含非规则访问和原子写操作,...磁约束核聚变粒子网格法(particle in cell,PIC)回旋动理学模拟代码VirtEx具备研究聚变产物Alpha粒子约束及输运的能力,是聚变能实现的关键.Alpha粒子回旋动理学模拟相比电子模拟,访存量更大、更复杂,同时包含非规则访问和原子写操作,对访存性能依赖较高,在面向高计算密度特征的天河新一代超算平台异构处理器MT-3000进行移植及性能优化时具有巨大挑战.考虑到异构加速器架构和PIC算法特性,设计并实施了一些优化方法,如中间变量的即时计算、定制化的软件缓存设计、缓存空间局部性优化、热点函数合并,显著地提高了热点函数的计算访存比.通过中等规模的回旋动理学离子基准算例测试显示了在热点函数Push,Locate,Charge上分别有10.9,13.3,16.2倍的速度提升,同时在扩展性测试中的3840个节点的5898240个加速核上显示了良好的扩展性,并行效率为88.4%.展开更多
无拖曳控制是空间引力波探测的关键技术,主要由微型推力器完成。微型电子回旋共振离子推力器(ECRIT)体积小、推力可调,可用于空间引力波的无拖曳控制。基于三维PIC数值模拟方法计算微型2 cm ECRIT的推力控制范围,分析其用于无拖曳控制...无拖曳控制是空间引力波探测的关键技术,主要由微型推力器完成。微型电子回旋共振离子推力器(ECRIT)体积小、推力可调,可用于空间引力波的无拖曳控制。基于三维PIC数值模拟方法计算微型2 cm ECRIT的推力控制范围,分析其用于无拖曳控制系统的可行性。首先计算不同栅极孔径下的推力性能和栅极聚焦特性,获得合理栅极结构,再计算栅极电压、栅极前离子密度对推力器性能的影响,获得满足无拖曳控制要求的推力器性能参数范围。结果表明:减小栅极孔径能降低推力,但同时影响栅极聚焦效果;调节栅极前离子密度可大范围调节推力;在给定的栅极结构和栅前离子密度下,存在合适的栅极加速电压区间保证离子的良好聚焦。综合考虑推力性能和栅极聚焦特性,选择屏栅孔径0.6 mm、加速栅孔径0.34 mm的栅极,当栅极前离子密度分别为1×1017,0.7×1017,0.4×1017,0.2×1017 m-3时,通过调节加速电压,可实现5.05~141.44μN的推力调节。此研究将为分析ECRIT应用于引力波探测的可行性奠定基础。展开更多
基金Projects(61170049,60903044)supported by National Natural Science Foundation of ChinaProject(2012AA010903)supported by National High Technology Research and Development Program of China
文摘Particle-in-cell (PIC) method has got much benefits from GPU-accelerated heterogeneous systems.However,the performance of PIC is constrained by the interpolation operations in the weighting process on GPU (graphic processing unit).Aiming at this problem,a fast weighting method for PIC simulation on GPU-accelerated systems was proposed to avoid the atomic memory operations during the weighting process.The method was implemented by taking advantage of GPU's thread synchronization mechanism and dividing the problem space properly.Moreover,software managed shared memory on the GPU was employed to buffer the intermediate data.The experimental results show that the method achieves speedups up to 3.5 times compared to previous works,and runs 20.08 times faster on one NVIDIA Tesla M2090 GPU compared to a single core of Intel Xeon X5670 CPU.
文摘地球同步轨道航天器在地磁亚暴环境下处于向光面和背光面的两侧会产生电位差。本文利用高能电子和高能离子的双麦克斯韦分布拟合同步轨道环境等离子体并加入二次电子和光电子的影响,建立了航天器的三维计算模型,利用基于PIC(Particle In Cell)方法的仿真程序,计算了航天器表面各材料的充电电位及其附近的等离子体的电位分布,以及低能电子、高能电子、二次电子和光电子的密度分布和充电电流分布,最后探讨了航天器不同表面材料电势随时间的变化情况。
文摘磁约束核聚变粒子网格法(particle in cell,PIC)回旋动理学模拟代码VirtEx具备研究聚变产物Alpha粒子约束及输运的能力,是聚变能实现的关键.Alpha粒子回旋动理学模拟相比电子模拟,访存量更大、更复杂,同时包含非规则访问和原子写操作,对访存性能依赖较高,在面向高计算密度特征的天河新一代超算平台异构处理器MT-3000进行移植及性能优化时具有巨大挑战.考虑到异构加速器架构和PIC算法特性,设计并实施了一些优化方法,如中间变量的即时计算、定制化的软件缓存设计、缓存空间局部性优化、热点函数合并,显著地提高了热点函数的计算访存比.通过中等规模的回旋动理学离子基准算例测试显示了在热点函数Push,Locate,Charge上分别有10.9,13.3,16.2倍的速度提升,同时在扩展性测试中的3840个节点的5898240个加速核上显示了良好的扩展性,并行效率为88.4%.