期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
在Intel Knights Corner和NVIDIA Kepler架构上OpenACC的性能可移植性分析
被引量:
1
1
作者
王一超
秦强
+1 位作者
施忠伟
林新华
《计算机科学》
CSCD
北大核心
2015年第1期75-78,共4页
OpenACC是一套基于指导语句方式的并行编程语言标准。编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果。OpenACC与CUDA和Ope...
OpenACC是一套基于指导语句方式的并行编程语言标准。编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果。OpenACC与CUDA和OpenCL这类异构并行编程技术的不同之处在于,它的目的是使编程者在应用移植过程中不需要考虑加速器或协处理器的底层硬件架构,从而降低编程难度。同时它也具有仅需维护一套代码便可在不同硬件平台上运行的优良跨平台性。因此,OpenACC是一个值得研究的并行编程标准。如今的异构加速硬件设备呈现出多元化趋势。在2013年11月的Top500榜单上排名第一的"天河二号"使用了48000块构建在Intel Knights Corner架构之上的协处理器。与此同时,发布不久的NVIDIA公司最新的Kepler架构GPU产品由于多年来的GPU市场积累也迅速形成了可观的用户群体。对于并非追求性能极限的应用移植者而言,寻求应用性能和移植简易性之间的平衡是相当重要的议题。只需要编写一套代码便可运行在这两种硬件平台上的OpenACC正迎合了用户在移植简易性上的需求。解决了移植的简易性之后,同一个应用在不同硬件平台上的性能表现便成了用户最想了解的问题。通过实验和构建性能模型向读者展示使用OpenACC移植的应用在Intel Knights Corner和NVIDIA Kepler架构硬件上的性能可移植性。
展开更多
关键词
OpenACC
性能可移植性
高
性能
计算
在线阅读
下载PDF
职称材料
从美国EMPIRE软件看大型高功率脉冲电磁等离子体程序研发趋势
2
作者
董志伟
董烨
+1 位作者
薛碧曦
周海京
《电波科学学报》
CSCD
北大核心
2024年第5期827-835,957,共10页
EMPIRE软件是美国针对下一代高性能计算平台开发的电磁等离子体模拟软件,可用于高置信度地开展高功率脉冲产生、传输以及与物质互作用的全过程模拟。解读EMPIRE软件的研制进展对发展大型高功率脉冲电磁等离子体软件具有重要借鉴意义。...
EMPIRE软件是美国针对下一代高性能计算平台开发的电磁等离子体模拟软件,可用于高置信度地开展高功率脉冲产生、传输以及与物质互作用的全过程模拟。解读EMPIRE软件的研制进展对发展大型高功率脉冲电磁等离子体软件具有重要借鉴意义。首先分析了EMPIRE软件的架构及数学物理方案,然后着重讨论了其性能可移植性的软件特征和各子模块的算法特点,最后结合具体的应用案例展示了EMPIRE的强大计算能力。解读EMPIRE的启示包括如下几点:使用异构架构是实现未来E级(百亿亿次级)计算能力部署的关键点;研制灵活的功能模块,开展分层级的建模计算,最后拉通整个物理过程链条模拟,能够有效发挥装置指标的数值评估作用;多团队协作共同开发是丰富软件功能的基础;软件的置信度需要全方位的验证与确认。
展开更多
关键词
等离子体数值模拟
EMPIRE软件
高功率脉冲
粒子-流体混合模拟
性能可移植性
在线阅读
下载PDF
职称材料
CUDA下单源最短路径算法并行优化
被引量:
3
3
作者
张晗
钱育蓉
+2 位作者
王跃飞
陈人和
田宸玮
《计算机工程与设计》
北大核心
2019年第8期2181-2189,共9页
为设计基于固定序的Bellman-Ford算法在CUDA平台下并行优化方案,结合算法计算密集和数据密集的特点。从核函数计算层面,提出访存优化方法和基于固定序优化线程发散;从CPU-GPU传输层面,提出基于CUDA流优化数据传输开销方法。对不同显卡...
为设计基于固定序的Bellman-Ford算法在CUDA平台下并行优化方案,结合算法计算密集和数据密集的特点。从核函数计算层面,提出访存优化方法和基于固定序优化线程发散;从CPU-GPU传输层面,提出基于CUDA流优化数据传输开销方法。对不同显卡进行测试,参照共享内存容量划分线程块、缩减迭代后向量维度并使用CUDA流缩短首次计算时延,相比传统算法,改进后并行算法加速比在200倍左右。该并行优化方案验证了固定序在CUDA平台具有可行性和可移植性,可作为多平台研究参照。
展开更多
关键词
固定序改进算法
Bellman-Ford算法
并行计算
性能可移植性
图形处理器
统一计算设备架构
在线阅读
下载PDF
职称材料
题名
在Intel Knights Corner和NVIDIA Kepler架构上OpenACC的性能可移植性分析
被引量:
1
1
作者
王一超
秦强
施忠伟
林新华
机构
上海交通大学
出处
《计算机科学》
CSCD
北大核心
2015年第1期75-78,共4页
文摘
OpenACC是一套基于指导语句方式的并行编程语言标准。编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果。OpenACC与CUDA和OpenCL这类异构并行编程技术的不同之处在于,它的目的是使编程者在应用移植过程中不需要考虑加速器或协处理器的底层硬件架构,从而降低编程难度。同时它也具有仅需维护一套代码便可在不同硬件平台上运行的优良跨平台性。因此,OpenACC是一个值得研究的并行编程标准。如今的异构加速硬件设备呈现出多元化趋势。在2013年11月的Top500榜单上排名第一的"天河二号"使用了48000块构建在Intel Knights Corner架构之上的协处理器。与此同时,发布不久的NVIDIA公司最新的Kepler架构GPU产品由于多年来的GPU市场积累也迅速形成了可观的用户群体。对于并非追求性能极限的应用移植者而言,寻求应用性能和移植简易性之间的平衡是相当重要的议题。只需要编写一套代码便可运行在这两种硬件平台上的OpenACC正迎合了用户在移植简易性上的需求。解决了移植的简易性之后,同一个应用在不同硬件平台上的性能表现便成了用户最想了解的问题。通过实验和构建性能模型向读者展示使用OpenACC移植的应用在Intel Knights Corner和NVIDIA Kepler架构硬件上的性能可移植性。
关键词
OpenACC
性能可移植性
高
性能
计算
Keywords
OpenACC
Performance portabilty
High performance computing
分类号
TP338.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
从美国EMPIRE软件看大型高功率脉冲电磁等离子体程序研发趋势
2
作者
董志伟
董烨
薛碧曦
周海京
机构
北京应用物理与计算数学研究所
出处
《电波科学学报》
CSCD
北大核心
2024年第5期827-835,957,共10页
基金
国家自然科学青年基金(12305218)。
文摘
EMPIRE软件是美国针对下一代高性能计算平台开发的电磁等离子体模拟软件,可用于高置信度地开展高功率脉冲产生、传输以及与物质互作用的全过程模拟。解读EMPIRE软件的研制进展对发展大型高功率脉冲电磁等离子体软件具有重要借鉴意义。首先分析了EMPIRE软件的架构及数学物理方案,然后着重讨论了其性能可移植性的软件特征和各子模块的算法特点,最后结合具体的应用案例展示了EMPIRE的强大计算能力。解读EMPIRE的启示包括如下几点:使用异构架构是实现未来E级(百亿亿次级)计算能力部署的关键点;研制灵活的功能模块,开展分层级的建模计算,最后拉通整个物理过程链条模拟,能够有效发挥装置指标的数值评估作用;多团队协作共同开发是丰富软件功能的基础;软件的置信度需要全方位的验证与确认。
关键词
等离子体数值模拟
EMPIRE软件
高功率脉冲
粒子-流体混合模拟
性能可移植性
Keywords
plasma numerical simulation
EMPIRE
high-power pulses
hybrid modeling
performance portability
分类号
O46 [理学—电子物理学]
在线阅读
下载PDF
职称材料
题名
CUDA下单源最短路径算法并行优化
被引量:
3
3
作者
张晗
钱育蓉
王跃飞
陈人和
田宸玮
机构
新疆大学软件学院
出处
《计算机工程与设计》
北大核心
2019年第8期2181-2189,共9页
基金
国家自然科学基金项目(61562086、61462079)
新疆维吾尔自治区创新团队基金项目(XJEDU2017T002)
文摘
为设计基于固定序的Bellman-Ford算法在CUDA平台下并行优化方案,结合算法计算密集和数据密集的特点。从核函数计算层面,提出访存优化方法和基于固定序优化线程发散;从CPU-GPU传输层面,提出基于CUDA流优化数据传输开销方法。对不同显卡进行测试,参照共享内存容量划分线程块、缩减迭代后向量维度并使用CUDA流缩短首次计算时延,相比传统算法,改进后并行算法加速比在200倍左右。该并行优化方案验证了固定序在CUDA平台具有可行性和可移植性,可作为多平台研究参照。
关键词
固定序改进算法
Bellman-Ford算法
并行计算
性能可移植性
图形处理器
统一计算设备架构
Keywords
improved fixed order algorithm
Bellman-Ford algorithm
parallel computing
performance portability
GPU
CUDA
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
在Intel Knights Corner和NVIDIA Kepler架构上OpenACC的性能可移植性分析
王一超
秦强
施忠伟
林新华
《计算机科学》
CSCD
北大核心
2015
1
在线阅读
下载PDF
职称材料
2
从美国EMPIRE软件看大型高功率脉冲电磁等离子体程序研发趋势
董志伟
董烨
薛碧曦
周海京
《电波科学学报》
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
3
CUDA下单源最短路径算法并行优化
张晗
钱育蓉
王跃飞
陈人和
田宸玮
《计算机工程与设计》
北大核心
2019
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部