期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
面向申威众核处理器的规则处理优化技术
1
作者 张振东 王彤 刘鹏 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期66-85,共20页
高性能口令恢复系统是申威众核处理器的重要应用场景之一,规则处理是主流口令恢复工具中被广泛应用的一种口令生成方式.现有相关研究工作缺少对规则处理算法的优化,导致申威处理器上基于规则的口令生成速度成为口令恢复系统的性能瓶颈.... 高性能口令恢复系统是申威众核处理器的重要应用场景之一,规则处理是主流口令恢复工具中被广泛应用的一种口令生成方式.现有相关研究工作缺少对规则处理算法的优化,导致申威处理器上基于规则的口令生成速度成为口令恢复系统的性能瓶颈.通过分析规则处理算法的多层次可并行性,提出了面向申威众核处理器的线程级、数据级优化方案.在线程级优化方案中,探索了规则处理算法的最优任务映射方式,设计了主从核任务分配机制、从核缓冲区配比优化机制、负载均衡机制、变长规则存储机制等技术以提高并行效率;在数据级优化方案中,分析了规则处理算法中规则函数的计算模式,并通过申威SIMD指令集对规则函数进行向量优化以提高执行效率.在SW26010处理器上的实验结果表明,上述优化方案有效解除了规则处理的性能瓶颈,使规则模式下的口令恢复速度提升了30~101倍. 展开更多
关键词 申威众核处理器 口令恢复 规则处理 异构计算 单指令多数据流
在线阅读 下载PDF
面向国产申威26010众核处理器的SpMV实现与优化 被引量:13
2
作者 刘芳芳 杨超 +2 位作者 袁欣辉 吴长茂 敖玉龙 《软件学报》 EI CSCD 北大核心 2018年第12期3921-3932,共12页
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB... 世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%. 展开更多
关键词 稀疏矩阵向量乘 SpMV 申威26010处理器 异构众核并行 自适应优化
在线阅读 下载PDF
基于神威太湖之光的NAMD软件的移植与优化 被引量:12
3
作者 姚文军 陈俊仕 +3 位作者 苏志超 余洋 廖陈志 安虹 《计算机工程与科学》 CSCD 北大核心 2017年第6期1022-1030,共9页
纳米级粒度分子动力学NAMD是基于Charm++并行编程模型的开源免费分子动力学模拟软件,能够在大规模并行计算机上快速模拟百万原子级别的大分子体系。太湖之光是中国自主研发的超级计算机,峰值性能为125.4Pflop/s,共有1 000多万个核心,整... 纳米级粒度分子动力学NAMD是基于Charm++并行编程模型的开源免费分子动力学模拟软件,能够在大规模并行计算机上快速模拟百万原子级别的大分子体系。太湖之光是中国自主研发的超级计算机,峰值性能为125.4Pflop/s,共有1 000多万个核心,整机Linpack效率不低于70%。NAMD在空间上对原子进行划分,在计算上对力进行划分,充分曝露出单步模拟的并行度,并通过CHARM++对负载平衡进行调控。针对NAMD进行模拟计算时的特点,移植并优化了NAMD的核心计算代码,让其能够更好地运行在超级计算机神威太湖之光上,优化后性能提高了近20倍,单个核组的性能较Intel XeonE5-2650v2提高3倍。扩展性方面目前至多可达到325万核的并行度,突破百万核大关。 展开更多
关键词 分子动力学模拟 神威超级计算机 异构多核处理器
在线阅读 下载PDF
基于神威太湖之光的AMBER软件移植与优化 被引量:5
4
作者 彭龙 陈俊仕 安虹 《计算机工程》 CAS CSCD 北大核心 2020年第12期12-20,共9页
AMBER是一款主流的分子动力学模拟软件,用于研究分子体系内的微观运动状态。为利用神威太湖之光的海量计算资源加速AMBER软件模拟分子体系的运动过程,将AMBER软件移植到SW26010处理器的主核上建立主从加速模型,实现AMBER软件的从核并行... AMBER是一款主流的分子动力学模拟软件,用于研究分子体系内的微观运动状态。为利用神威太湖之光的海量计算资源加速AMBER软件模拟分子体系的运动过程,将AMBER软件移植到SW26010处理器的主核上建立主从加速模型,实现AMBER软件的从核并行化设计。在从核并行化的基础上提出主从异步流水化方案,利用SW26010处理器从核的局部数据缓存和直接内存存取通道技术,解决从核访存速度过低及并行访存带宽受限的问题,并通过SIMD指令将部分从核代码向量化,进一步提升AMBER软件在神威太湖之光平台上的计算性能。测试结果表明,AMBER热点函数的计算性能较优化前约提升15倍,单核组的整体性能较Intel Xeon Platinum 8163约提升4.6倍。 展开更多
关键词 分子动力学模拟 神威太湖之光 异构众核处理器 并行优化 异步流水化
在线阅读 下载PDF
神威太湖之光上OpenFOAM的移植与优化 被引量:13
5
作者 孟德龙 文敏华 +1 位作者 韦建文 林新华 《计算机科学》 CSCD 北大核心 2017年第10期64-70,共7页
神威太湖之光是最新一期Top500榜单上排名第一的超级计算机,峰值性能为125.4PFlops,其计算能力主要归功于国产SW26010众核处理器。OpenFOAM(Open Source Field Operation and Manipulation)是计算流体力学领域使用最广泛的开源软件包,... 神威太湖之光是最新一期Top500榜单上排名第一的超级计算机,峰值性能为125.4PFlops,其计算能力主要归功于国产SW26010众核处理器。OpenFOAM(Open Source Field Operation and Manipulation)是计算流体力学领域使用最广泛的开源软件包,但是由于其基于C++实现,与神威太湖之光上的异构众核处理器SW26010的编译器不兼容,因此无法直接在该架构上有效运行。基于SW26010的主核/从核的体系架构移植了OpenFOAM的核心计算代码,并采用混合语言编程实现的方式来解决编译不兼容的问题。此外,通过寄存器通信、向量化和双缓冲等优化手段,单核组的性能较优化后的主核代码提高了8.03倍,较Intel(R)Xeon(R)CPU E5-2695v3的串行执行性能提高了1.18倍。同时,将单核组的实现扩展到了神威太湖之光的大规模集群上,并进行了强可扩展性测试,256个核组上实现了184.9倍的加速。采用的移植方式和优化手段也可以为其他复杂C++程序在神威太湖之光上的应用提供借鉴。 展开更多
关键词 计算流体力学 OPENFOAM 异构多核处理器 神威超级计算机
在线阅读 下载PDF
PME算法在神威太湖之光上的移植和优化 被引量:2
6
作者 林增 武铮 +1 位作者 安虹 陈俊仕 《小型微型计算机系统》 CSCD 北大核心 2021年第1期9-14,共6页
分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW2601... 分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW26010异构众核处理器,峰值性能达到125.4PFlops.目前太湖之光上已有对GROM ACS短程力优化的相关研究,但对于PM E(Particle Mesh Ewald)算法未有探索性工作.本文基于申威平台对PME算法展开研究,针对随机访存模式、网格点写写冲突等挑战,提出了基于局部网格序的分块策略、数据重组策略、非线性函数近似等方法进行优化.最终优化后的结果相较于初始版本性能提升了8.85倍,相较于Intel CPU版本提升了1.2倍.本文采用的优化技术也可以为神威太湖之光上其他分子动力学模拟软件和涉及散乱数据插值程序的优化提供借鉴. 展开更多
关键词 PME GROMACS 神威太湖之光 异构众核处理器
在线阅读 下载PDF
神威国产处理器应用程序的并行参数自动寻优 被引量:1
7
作者 刘徐 肖志勇 +2 位作者 甘霖 徐敬蘅 陈宏博 《计算机科学与探索》 CSCD 北大核心 2020年第11期1838-1848,共11页
有限差分模板计算算法常应用于"神威·太湖之光"上完成大气模拟、石油勘探等任务,由于该算法通信开销大,计算密度高,且神威系统结构复杂,应用程序数据规模大,在程序构建和执行时难以得到合理的参数对数据进行分割,程序性... 有限差分模板计算算法常应用于"神威·太湖之光"上完成大气模拟、石油勘探等任务,由于该算法通信开销大,计算密度高,且神威系统结构复杂,应用程序数据规模大,在程序构建和执行时难以得到合理的参数对数据进行分割,程序性能难以得到保证。针对申威26010处理器硬件特性提出一种基于遗传算法的并行参数自动寻优方法。对消息传递接口数据规模参数和从核数据规模参数进行自动寻优,对二维有限差分模板计算算法进行高性能测试。该方法在10亿次的寻址空间内寻取更优解,与编译系统自动分配相比达到了10.79倍加速比。此外,还对逆时偏移成像算法进行优化测试,与编译系统自动分配相比表现出6.31倍加速比。该方法对应用程序数据规模参数进行自动寻优,为国产异构众核处理器的高性能并行优化提供有用指导。 展开更多
关键词 并行计算 参数自动寻优 遗传算法 申威异构众核处理器 有限差分算法
在线阅读 下载PDF
面向申威众核处理器的并行SaNSDE算法 被引量:1
8
作者 康上 钱雪忠 甘霖 《计算机科学与探索》 CSCD 北大核心 2021年第10期2015-2024,共10页
演化算法作为解决大规模优化问题的重要方法,被广泛应用于机器学习、过程控制、工程优化、管理科学和社会科学等领域。然而在求解高维度、高计算密度问题时,程序性能很难得到保证。在高性能计算机上实现并行化是问题的一个热门解决方案... 演化算法作为解决大规模优化问题的重要方法,被广泛应用于机器学习、过程控制、工程优化、管理科学和社会科学等领域。然而在求解高维度、高计算密度问题时,程序性能很难得到保证。在高性能计算机上实现并行化是问题的一个热门解决方案。针对申威众核处理器的硬件特征,提出了采用二级并行策略的自适应邻域搜索的差分进化算法(SaNSDE)。第一级为进程并行,实现了合作协同进化模型和池模型,将大规模问题划分为多个低维子问题并分布在不同进程上;第二级为线程并行,使用从核加速了适应度的计算过程。实验结果表明,采用合作协同进化模型和池模型的算法与传统的并行算法相比,经过多核扩展之后收敛效果提升更加明显。相较于串行版本算法,二级并行的SaNSDE算法在四个测试函数上分别获得了134.29、186.05、239.01和189.80的最大加速比。 展开更多
关键词 高性能计算 申威异构众核处理器 演化算法 合作协同进化模型(CC) 池模型
在线阅读 下载PDF
第一性原理极化率计算中的众核优化方法研究 被引量:1
9
作者 罗海文 吴扬俊 商红慧 《计算机科学》 CSCD 北大核心 2023年第6期1-9,共9页
基于量子力学的密度泛函微扰理论(DFPT)可以用来计算分子和材料的多种物理化学性质,目前被广泛应用于新材料等领域的研究中;同时,异构众核处理器架构逐渐成为超算的主流。因此,针对异构众核处理器重新设计和优化DFPT程序以提升其计算效... 基于量子力学的密度泛函微扰理论(DFPT)可以用来计算分子和材料的多种物理化学性质,目前被广泛应用于新材料等领域的研究中;同时,异构众核处理器架构逐渐成为超算的主流。因此,针对异构众核处理器重新设计和优化DFPT程序以提升其计算效率,对物理化学性质的计算及其科学应用具有重要意义。文中对DFPT中一阶响应密度和一阶响应哈密顿矩阵的计算针对众核处理器体系结构进行了优化,并在新一代神威处理器上进行了验证。优化技术包括循环分块、离散访存处理和协同规约。其中,循环分块对任务进行划分从而由众核并行地执行;离散访存处理将离散访存转换为更高效的连续访存;协同规约解决了写冲突问题。实验结果表明,在一个核组上,优化后的程序性能较优化前提高了8.2~74.4倍,并且具有良好的强可扩展性和弱可扩展性。 展开更多
关键词 密度函数微扰理论 第一性原理计算 高性能计算 新一代神威异构众核处理器
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部