期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
在Intel Knights Corner和NVIDIA Kepler架构上OpenACC的性能可移植性分析 被引量:1
1
作者 王一超 秦强 +1 位作者 施忠伟 林新华 《计算机科学》 CSCD 北大核心 2015年第1期75-78,共4页
OpenACC是一套基于指导语句方式的并行编程语言标准。编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果。OpenACC与CUDA和Ope... OpenACC是一套基于指导语句方式的并行编程语言标准。编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果。OpenACC与CUDA和OpenCL这类异构并行编程技术的不同之处在于,它的目的是使编程者在应用移植过程中不需要考虑加速器或协处理器的底层硬件架构,从而降低编程难度。同时它也具有仅需维护一套代码便可在不同硬件平台上运行的优良跨平台性。因此,OpenACC是一个值得研究的并行编程标准。如今的异构加速硬件设备呈现出多元化趋势。在2013年11月的Top500榜单上排名第一的"天河二号"使用了48000块构建在Intel Knights Corner架构之上的协处理器。与此同时,发布不久的NVIDIA公司最新的Kepler架构GPU产品由于多年来的GPU市场积累也迅速形成了可观的用户群体。对于并非追求性能极限的应用移植者而言,寻求应用性能和移植简易性之间的平衡是相当重要的议题。只需要编写一套代码便可运行在这两种硬件平台上的OpenACC正迎合了用户在移植简易性上的需求。解决了移植的简易性之后,同一个应用在不同硬件平台上的性能表现便成了用户最想了解的问题。通过实验和构建性能模型向读者展示使用OpenACC移植的应用在Intel Knights Corner和NVIDIA Kepler架构硬件上的性能可移植性。 展开更多
关键词 OpenACC 性能可移植性 性能计算
在线阅读 下载PDF
从美国EMPIRE软件看大型高功率脉冲电磁等离子体程序研发趋势
2
作者 董志伟 董烨 +1 位作者 薛碧曦 周海京 《电波科学学报》 CSCD 北大核心 2024年第5期827-835,957,共10页
EMPIRE软件是美国针对下一代高性能计算平台开发的电磁等离子体模拟软件,可用于高置信度地开展高功率脉冲产生、传输以及与物质互作用的全过程模拟。解读EMPIRE软件的研制进展对发展大型高功率脉冲电磁等离子体软件具有重要借鉴意义。... EMPIRE软件是美国针对下一代高性能计算平台开发的电磁等离子体模拟软件,可用于高置信度地开展高功率脉冲产生、传输以及与物质互作用的全过程模拟。解读EMPIRE软件的研制进展对发展大型高功率脉冲电磁等离子体软件具有重要借鉴意义。首先分析了EMPIRE软件的架构及数学物理方案,然后着重讨论了其性能可移植性的软件特征和各子模块的算法特点,最后结合具体的应用案例展示了EMPIRE的强大计算能力。解读EMPIRE的启示包括如下几点:使用异构架构是实现未来E级(百亿亿次级)计算能力部署的关键点;研制灵活的功能模块,开展分层级的建模计算,最后拉通整个物理过程链条模拟,能够有效发挥装置指标的数值评估作用;多团队协作共同开发是丰富软件功能的基础;软件的置信度需要全方位的验证与确认。 展开更多
关键词 等离子体数值模拟 EMPIRE软件 高功率脉冲 粒子-流体混合模拟 性能可移植性
在线阅读 下载PDF
CUDA下单源最短路径算法并行优化 被引量:3
3
作者 张晗 钱育蓉 +2 位作者 王跃飞 陈人和 田宸玮 《计算机工程与设计》 北大核心 2019年第8期2181-2189,共9页
为设计基于固定序的Bellman-Ford算法在CUDA平台下并行优化方案,结合算法计算密集和数据密集的特点。从核函数计算层面,提出访存优化方法和基于固定序优化线程发散;从CPU-GPU传输层面,提出基于CUDA流优化数据传输开销方法。对不同显卡... 为设计基于固定序的Bellman-Ford算法在CUDA平台下并行优化方案,结合算法计算密集和数据密集的特点。从核函数计算层面,提出访存优化方法和基于固定序优化线程发散;从CPU-GPU传输层面,提出基于CUDA流优化数据传输开销方法。对不同显卡进行测试,参照共享内存容量划分线程块、缩减迭代后向量维度并使用CUDA流缩短首次计算时延,相比传统算法,改进后并行算法加速比在200倍左右。该并行优化方案验证了固定序在CUDA平台具有可行性和可移植性,可作为多平台研究参照。 展开更多
关键词 固定序改进算法 Bellman-Ford算法 并行计算 性能可移植性 图形处理器 统一计算设备架构
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部