期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Intel Knights Corner的结点级内存访问优化
被引量:
2
1
作者
林新华
李硕
+1 位作者
赵嘉明
松岗聪
《计算机科学》
CSCD
北大核心
2015年第11期37-42,共6页
传统编程优化(Traditional Programming Optimization,TPO)在Intel Knights Corner(KNC)上收效甚微,因此提出内存访问优化(Memory Access Optimization,MAO)。将MAO应用到已经过TPO的程序Diffusion 3D上,发现其性能仍然提高了39.1%。主...
传统编程优化(Traditional Programming Optimization,TPO)在Intel Knights Corner(KNC)上收效甚微,因此提出内存访问优化(Memory Access Optimization,MAO)。将MAO应用到已经过TPO的程序Diffusion 3D上,发现其性能仍然提高了39.1%。主要有2个贡献:1)提出MAO,认为TPO+MAO有助于在KNC上获取最优化性能;2)发现对于stencil代码,基于intrinsic的MAO比基于编译器的MAO更高效。这些发现对于在KNC上优化大规模应用有启发意义。
展开更多
关键词
传统编程优化
INTEL
Knights
CORNER
内存访问优化
最优化性能
在线阅读
下载PDF
职称材料
使用Stencil评估Intel AVX2 Vgather指令
2
作者
林新华
秦强
+2 位作者
李硕
文敏华
松岗聪
《计算机科学》
CSCD
北大核心
2017年第1期20-24,共5页
为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方...
为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方法来避免vgather指令的生成,并把该方法应用到3个Stencil基准算例、长程Stencil程序3DFD以及混合Stencil应用3DEW上。这些Stencil在Haswell上的性能都获得了1.22X至3.88X不等的提升。通过研究指令的实现,发现vgather指令会被解码成多个微操作(μops),并为每个要读入的元素生成一个μops。由于vgather指令解码时会产生较高的开销,导致vgather指令成为Stencil在Haswell上的性能瓶颈。了解AVX2 vgather指令的实现以及掌握避免生成vgather指令的优化方法,对在Haswell上调优具有良好空间局部性应用的性能有一定的参考价值。
展开更多
关键词
AVX2
vgather指令
STENCIL
性能评估
在线阅读
下载PDF
职称材料
激光等离子体相互作用模拟的并行和加速研究
3
作者
武海鹏
文敏华
+1 位作者
SEE Simon
林新华
《计算机科学与探索》
CSCD
北大核心
2018年第4期550-558,共9页
随着生成超短激光脉冲技术的不断发展,对这种激光脉冲和等离子体相互作用进行动力学描述也变得越来越重要。PIC(particle-in-cell)是一种在等离子体物理中,研究充能粒子在电磁场中运动轨迹的广泛采用的方法。尽管现在已经有一些在GPU上...
随着生成超短激光脉冲技术的不断发展,对这种激光脉冲和等离子体相互作用进行动力学描述也变得越来越重要。PIC(particle-in-cell)是一种在等离子体物理中,研究充能粒子在电磁场中运动轨迹的广泛采用的方法。尽管现在已经有一些在GPU上的PIC方法的实现,但是基于激光等离子体相互作用模拟的特点,仍然有很多重要问题可以尝试其他解决思路。提出了一种把初始的基于CPU的LPI模拟代码完整移植到GPU上的可行方法。提出了一系列加速初始的GPU版本的方法:动态冗余算法、混合精度算法、粒子排序算法。利用并且评估了GPUDirect RDMA(remote direct memory access)技术,其可以提高MPI的通信性能。实验结果证明,与初始的GPU版本相比,"Scatter"阶段加速比为6.1倍,当MPI传输数据大于3 KB时,通信过程提速了2.8倍。这些研究证明了针对模拟应用和GPU集群的特点进行特殊的优化能对性能带来显著的提升。
展开更多
关键词
激光等离子体相互作用
粒子网格模拟
统一计算设备架构(CUDA)
CUDA优化
GPUDirect
RDMA
在线阅读
下载PDF
职称材料
题名
Intel Knights Corner的结点级内存访问优化
被引量:
2
1
作者
林新华
李硕
赵嘉明
松岗聪
机构
上海交通
大学
高性能计算
中心
东京工业大学学术国际情报中心
Intel公司软件与服务部门
出处
《计算机科学》
CSCD
北大核心
2015年第11期37-42,共6页
基金
国家高技术研究发展计划(863):高性能计算环境应用服务优化关键技术研究
日本学术振兴会RONPAKU Fellowship资助
文摘
传统编程优化(Traditional Programming Optimization,TPO)在Intel Knights Corner(KNC)上收效甚微,因此提出内存访问优化(Memory Access Optimization,MAO)。将MAO应用到已经过TPO的程序Diffusion 3D上,发现其性能仍然提高了39.1%。主要有2个贡献:1)提出MAO,认为TPO+MAO有助于在KNC上获取最优化性能;2)发现对于stencil代码,基于intrinsic的MAO比基于编译器的MAO更高效。这些发现对于在KNC上优化大规模应用有启发意义。
关键词
传统编程优化
INTEL
Knights
CORNER
内存访问优化
最优化性能
Keywords
Traditional programming optimization(TPO), Intel Knights Corner (KNC), Memory access optimization(MAO), Ninja performance
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
使用Stencil评估Intel AVX2 Vgather指令
2
作者
林新华
秦强
李硕
文敏华
松岗聪
机构
上海交通
大学
高性能计算
中心
东京工业大学学术国际情报中心
Intel公司软件与服务部门
出处
《计算机科学》
CSCD
北大核心
2017年第1期20-24,共5页
基金
国家重点研发计划(2014AA01A302
2016YFB0201800)
日本学术振兴会RONPAKU Fellowship资助
文摘
为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方法来避免vgather指令的生成,并把该方法应用到3个Stencil基准算例、长程Stencil程序3DFD以及混合Stencil应用3DEW上。这些Stencil在Haswell上的性能都获得了1.22X至3.88X不等的提升。通过研究指令的实现,发现vgather指令会被解码成多个微操作(μops),并为每个要读入的元素生成一个μops。由于vgather指令解码时会产生较高的开销,导致vgather指令成为Stencil在Haswell上的性能瓶颈。了解AVX2 vgather指令的实现以及掌握避免生成vgather指令的优化方法,对在Haswell上调优具有良好空间局部性应用的性能有一定的参考价值。
关键词
AVX2
vgather指令
STENCIL
性能评估
Keywords
AVX2 vgather,Stencil,Performance evaluation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
激光等离子体相互作用模拟的并行和加速研究
3
作者
武海鹏
文敏华
SEE Simon
林新华
机构
上海交通
大学
高性能计算
中心
NVIDIA Technology Center
东京工业大学学术国际情报中心
出处
《计算机科学与探索》
CSCD
北大核心
2018年第4期550-558,共9页
基金
国家重点研发计划(Nos.2016YFB0201400,2016YFB0201800);日本学术振兴会RONPAKU项目
NVIDIA GPU全球卓越中心项目
文摘
随着生成超短激光脉冲技术的不断发展,对这种激光脉冲和等离子体相互作用进行动力学描述也变得越来越重要。PIC(particle-in-cell)是一种在等离子体物理中,研究充能粒子在电磁场中运动轨迹的广泛采用的方法。尽管现在已经有一些在GPU上的PIC方法的实现,但是基于激光等离子体相互作用模拟的特点,仍然有很多重要问题可以尝试其他解决思路。提出了一种把初始的基于CPU的LPI模拟代码完整移植到GPU上的可行方法。提出了一系列加速初始的GPU版本的方法:动态冗余算法、混合精度算法、粒子排序算法。利用并且评估了GPUDirect RDMA(remote direct memory access)技术,其可以提高MPI的通信性能。实验结果证明,与初始的GPU版本相比,"Scatter"阶段加速比为6.1倍,当MPI传输数据大于3 KB时,通信过程提速了2.8倍。这些研究证明了针对模拟应用和GPU集群的特点进行特殊的优化能对性能带来显著的提升。
关键词
激光等离子体相互作用
粒子网格模拟
统一计算设备架构(CUDA)
CUDA优化
GPUDirect
RDMA
Keywords
laser-plasma-interaction simulation
particle-in-cell(PIC)
compute unified device architecture(CUDA)
CUDA optimization
GPUDirect RDMA
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Intel Knights Corner的结点级内存访问优化
林新华
李硕
赵嘉明
松岗聪
《计算机科学》
CSCD
北大核心
2015
2
在线阅读
下载PDF
职称材料
2
使用Stencil评估Intel AVX2 Vgather指令
林新华
秦强
李硕
文敏华
松岗聪
《计算机科学》
CSCD
北大核心
2017
0
在线阅读
下载PDF
职称材料
3
激光等离子体相互作用模拟的并行和加速研究
武海鹏
文敏华
SEE Simon
林新华
《计算机科学与探索》
CSCD
北大核心
2018
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部