期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
一种面向异构众核处理器的并行编译框架 被引量:9
1
作者 李雁冰 赵荣彩 +3 位作者 韩林 赵捷 徐金龙 李颖颖 《软件学报》 EI CSCD 北大核心 2019年第4期981-1001,共21页
异构众核处理器是面向高性能计算领域处理器发展的重要趋势,但其更为复杂的体系结构使得编程难的问题更加突出.针对这一问题,基于开源编译器Open64,提出了一种面向异构众核处理器的并行编译框架,将程序自动转换为异构并行程序.该框架主... 异构众核处理器是面向高性能计算领域处理器发展的重要趋势,但其更为复杂的体系结构使得编程难的问题更加突出.针对这一问题,基于开源编译器Open64,提出了一种面向异构众核处理器的并行编译框架,将程序自动转换为异构并行程序.该框架主要包括4个模块:任务划分模块用来识别适合进行加速计算的程序段,实现了嵌套循环的多维并行识别方法;数据布局模块完成数据在主存和SPM之间的布局,实现了数组边界分析和指针范围分析;传输优化模块实现了数据传输合并、传输外提、打包传输、数组转置等多种数据传输优化方法;收益评估模块在构建代价模型的基础上实现了一种动静结合的收益评估方法.并且,基于SW26010处理器,对该编译框架进行了实现,测试结果表明,该编译框架能够实现一些程序以面向异构众核结构的并行变换,且获得较好的加速效果. 展开更多
关键词 异构众核处理器 SW26010 并行编译 数据传输优化 OpenACC
在线阅读 下载PDF
快速多极子方法在申威众核处理器上的实现和优化 被引量:3
2
作者 王武 王舒扬 +1 位作者 姜金荣 孟虹松 《计算机工程与科学》 CSCD 北大核心 2019年第7期1161-1167,共7页
快速多极子方法(FMM)是一种求解N体问题的快速高效数值算法,在宇宙学和分子动力学等模拟中具有广泛的应用。申威SW26010是一款国产众核异构处理器,含260核心(4核组)。基于申威SW26010的众核架构设计和实现了快速多极子方法,并对核心函数... 快速多极子方法(FMM)是一种求解N体问题的快速高效数值算法,在宇宙学和分子动力学等模拟中具有广泛的应用。申威SW26010是一款国产众核异构处理器,含260核心(4核组)。基于申威SW26010的众核架构设计和实现了快速多极子方法,并对核心函数(尤其是最耗时的粒子对相互作用)系统地进行了性能优化,包括异步DMA、SIMD向量化、循环展开、内联汇编指令调整等。以粒子对相互作用为例,优化后代码的计算速度约为主核上运行的原始代码的400倍,每个核组上的浮点性能达到250GFLOPS,即理论峰值性能的32.5%。 展开更多
关键词 快速多极子方法 异构众核处理器 N体问题 性能优化
在线阅读 下载PDF
面向申威众核处理器的LZMA并行算法设计与优化 被引量:3
3
作者 李秉政 黄高阳 许瑾晨 《计算机科学与探索》 CSCD 北大核心 2020年第9期1501-1509,共9页
随着高性能计算和科学计算应用的发展,高性能计算集群系统传输、存储和处理的数据规模呈现爆炸式增长。对大规模数据进行高效的压缩,减少数据存储所需空间和传输所需的通信带宽,是提升高性能计算集群系统性能的关键之一。无损压缩算法中... 随着高性能计算和科学计算应用的发展,高性能计算集群系统传输、存储和处理的数据规模呈现爆炸式增长。对大规模数据进行高效的压缩,减少数据存储所需空间和传输所需的通信带宽,是提升高性能计算集群系统性能的关键之一。无损压缩算法中,LZMA算法具有较高的压缩率,但串行版本的LZMA算法压缩速率很慢。采用多核架构的处理器对无损压缩算法进行并行化,是提升压缩速率的一个研究方向。设计并实现了面向申威26010异构众核处理器并行化LZMA算法。结合申威异构众核处理器的特点,对LZMA算法存储空间需求、访存特性、热点函数等进行分析,基于Athread接口实现LZMA算法从核多线程并行,并对LDM地址空间进行细粒度的布局与优化以获得更好的缓存性能,实现DMA双缓冲的循环滑动窗口算法。测试结果表明,相较主核串行版本算法,并行LZMA算法在Silesia语料库基准测试集和大规模数据集中分别获得了4.1倍和5.3倍的最大加速比,获得了较好的加速效果。 展开更多
关键词 并行计算 异构众核处理器 LZMA 压缩算法
在线阅读 下载PDF
基于国产众核架构CESM中有限差分计算优化 被引量:3
4
作者 陈宏博 钱雪忠 +2 位作者 甘霖 徐敬蘅 刘徐 《计算机应用研究》 CSCD 北大核心 2021年第2期501-505,共5页
针对CESM中的有限差分算法并行过程中存在内存读取冗余过大、通信开销过高的问题,设计出根据数据结构进行数据重构、计算核心捆绑、流水线通信等多种并行优化方案。弥补了申威26010处理器在数据读取过程中缺少共享缓存区、带宽利用率不... 针对CESM中的有限差分算法并行过程中存在内存读取冗余过大、通信开销过高的问题,设计出根据数据结构进行数据重构、计算核心捆绑、流水线通信等多种并行优化方案。弥补了申威26010处理器在数据读取过程中缺少共享缓存区、带宽利用率不高等不足,缓解了申威26010处理器在有限差分法求解过程的通信瓶颈。对CESM中以有限差分法为核心计算的两个函数,在申威26010众核处理器上的测试结果表明,提出算法及优化策略拥有21.2倍的性能提升。 展开更多
关键词 通用地球系统模型 并行计算 异构众核处理器 有限差分算法 高性能计算
在线阅读 下载PDF
第一性原理极化率计算中的众核优化方法研究 被引量:1
5
作者 罗海文 吴扬俊 商红慧 《计算机科学》 CSCD 北大核心 2023年第6期1-9,共9页
基于量子力学的密度泛函微扰理论(DFPT)可以用来计算分子和材料的多种物理化学性质,目前被广泛应用于新材料等领域的研究中;同时,异构众核处理器架构逐渐成为超算的主流。因此,针对异构众核处理器重新设计和优化DFPT程序以提升其计算效... 基于量子力学的密度泛函微扰理论(DFPT)可以用来计算分子和材料的多种物理化学性质,目前被广泛应用于新材料等领域的研究中;同时,异构众核处理器架构逐渐成为超算的主流。因此,针对异构众核处理器重新设计和优化DFPT程序以提升其计算效率,对物理化学性质的计算及其科学应用具有重要意义。文中对DFPT中一阶响应密度和一阶响应哈密顿矩阵的计算针对众核处理器体系结构进行了优化,并在新一代神威处理器上进行了验证。优化技术包括循环分块、离散访存处理和协同规约。其中,循环分块对任务进行划分从而由众核并行地执行;离散访存处理将离散访存转换为更高效的连续访存;协同规约解决了写冲突问题。实验结果表明,在一个核组上,优化后的程序性能较优化前提高了8.2~74.4倍,并且具有良好的强可扩展性和弱可扩展性。 展开更多
关键词 密度函数微扰理论 第一性原理计算 高性能计算 新一代神威异构众核处理器
在线阅读 下载PDF
面向申威架构的KNN并行算法实现与优化 被引量:8
6
作者 王其涵 庞建民 +3 位作者 岳峰 祝迪 沈莉 肖谦 《计算机工程》 CAS CSCD 北大核心 2023年第5期286-294,共9页
K近邻(KNN)是人工智能中最常用的分类算法,其性能提升对于海量数据的整理分析、大数据分类等任务具有重要意义。目前新一代神威超级计算机正处于应用发展的初始阶段,结合新一代申威异构众核处理器的结构特性,充分利用庞大的计算资源实... K近邻(KNN)是人工智能中最常用的分类算法,其性能提升对于海量数据的整理分析、大数据分类等任务具有重要意义。目前新一代神威超级计算机正处于应用发展的初始阶段,结合新一代申威异构众核处理器的结构特性,充分利用庞大的计算资源实现高效的KNN算法是海量数据分析整理的现实需求。根据SW26010pro处理器的结构特性,采用主从加速编程模型实现一种基础版本的KNN并行算法,其将计算核心传输到从核上,实现了线程级并行。分析影响基础并行算法性能的关键因素并提出优化算法SWKNN,不同于基础并行KNN算法的任务划分方式,SWKNN采用任务重划分策略,以避免冗余计算开销。通过数据流水优化、从核间通信优化、二次负载均衡优化等步骤减少不必要的通信开销,从而有效缓解访存压力并进一步提升算法性能。实验结果表明,与串行KNN算法相比,面向申威架构的基础并行KNN算法在SW26010pro处理器的单核组上可以获得最高48倍的加速效果,在同等数据规模下,SWKNN算法较基础并行KNN算法又可以获得最高399倍的加速效果。 展开更多
关键词 异构众核处理器 K近邻算法 并行计算 算法优化 分类性能
在线阅读 下载PDF
基于神威太湖之光的AMBER软件移植与优化 被引量:5
7
作者 彭龙 陈俊仕 安虹 《计算机工程》 CAS CSCD 北大核心 2020年第12期12-20,共9页
AMBER是一款主流的分子动力学模拟软件,用于研究分子体系内的微观运动状态。为利用神威太湖之光的海量计算资源加速AMBER软件模拟分子体系的运动过程,将AMBER软件移植到SW26010处理器的主核上建立主从加速模型,实现AMBER软件的从核并行... AMBER是一款主流的分子动力学模拟软件,用于研究分子体系内的微观运动状态。为利用神威太湖之光的海量计算资源加速AMBER软件模拟分子体系的运动过程,将AMBER软件移植到SW26010处理器的主核上建立主从加速模型,实现AMBER软件的从核并行化设计。在从核并行化的基础上提出主从异步流水化方案,利用SW26010处理器从核的局部数据缓存和直接内存存取通道技术,解决从核访存速度过低及并行访存带宽受限的问题,并通过SIMD指令将部分从核代码向量化,进一步提升AMBER软件在神威太湖之光平台上的计算性能。测试结果表明,AMBER热点函数的计算性能较优化前约提升15倍,单核组的整体性能较Intel Xeon Platinum 8163约提升4.6倍。 展开更多
关键词 分子动力学模拟 神威太湖之光 异构众核处理器 并行优化 异步流水化
在线阅读 下载PDF
PME算法在神威太湖之光上的移植和优化 被引量:2
8
作者 林增 武铮 +1 位作者 安虹 陈俊仕 《小型微型计算机系统》 CSCD 北大核心 2021年第1期9-14,共6页
分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW2601... 分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW26010异构众核处理器,峰值性能达到125.4PFlops.目前太湖之光上已有对GROM ACS短程力优化的相关研究,但对于PM E(Particle Mesh Ewald)算法未有探索性工作.本文基于申威平台对PME算法展开研究,针对随机访存模式、网格点写写冲突等挑战,提出了基于局部网格序的分块策略、数据重组策略、非线性函数近似等方法进行优化.最终优化后的结果相较于初始版本性能提升了8.85倍,相较于Intel CPU版本提升了1.2倍.本文采用的优化技术也可以为神威太湖之光上其他分子动力学模拟软件和涉及散乱数据插值程序的优化提供借鉴. 展开更多
关键词 PME GROMACS 神威太湖之光 异构众核处理器
在线阅读 下载PDF
面向E级计算的功耗管理技术 被引量:3
9
作者 高剑刚 龚道永 +5 位作者 吴伟 郑岩 朱琪 王飞 郑方 金利峰 《计算机学报》 EI CAS CSCD 北大核心 2022年第7期1373-1383,共11页
E级计算机的构建面临严峻的“功耗墙”问题.为了应对功耗挑战,本文面向神威E级系统提出了一套低功耗管理体系.该体系采用软硬件协同的多层次低功耗管理机制,主要技术包括高能效基础设施设计、低功耗编译优化和细粒度功耗运行时管理,在... E级计算机的构建面临严峻的“功耗墙”问题.为了应对功耗挑战,本文面向神威E级系统提出了一套低功耗管理体系.该体系采用软硬件协同的多层次低功耗管理机制,主要技术包括高能效基础设施设计、低功耗编译优化和细粒度功耗运行时管理,在系统功耗量化监测技术支撑下实现软硬件协同能耗控制集成,具有功能层次多、覆盖面广、节能效果明显的特点.本文基于神威E级原型超级计算机进行了系统验证,实验结果证明本文提出的低功耗管理体系能够显著降低系统功耗,并且可扩展性良好,在大规模系统中具有广泛的适应性,能够支撑E级计算机绿色运行. 展开更多
关键词 E级计算机 异构众核处理器 功耗管理 编译优化 运行时优化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部