期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
申威众核处理器访存与通信融合编译优化 被引量:1
1
作者 方燕飞 李雁冰 +2 位作者 董恩铭 王云飞 刘齐 《软件学报》 EI CSCD 北大核心 2024年第6期2648-2667,共20页
申威众核片上多级存储层次是缓解众核“访存墙”的重要结构.完全由软件管理的SPM结构和片上RMA通信机制给应用性能提升带来很多机会,但也给应用程序开发优化与移植提出了很大挑战.为充分挖掘片上存储层次特点提升应用程序性能,同时减轻... 申威众核片上多级存储层次是缓解众核“访存墙”的重要结构.完全由软件管理的SPM结构和片上RMA通信机制给应用性能提升带来很多机会,但也给应用程序开发优化与移植提出了很大挑战.为充分挖掘片上存储层次特点提升应用程序性能,同时减轻用户编程优化负担,提出一种多级存储层次访存与通信融合的编译优化方法.该方法首先设计融合编译指示,将程序高层信息传递给编译器.其次构建编译优化收益模型并设计启发式循环优化方案迭代求解框架,并由编译器完成循环优化方案的求解和优化代码的变换.通过编译生成的DMA和RMA批量数据传输操作,将较低存储层次空间中高访问延迟的核心数据批量缓冲进低访问延迟的更高存储层次空间中.在3个典型测试用例上进行优化实验测试与分析,结果表明所提出的优化在性能上与手工优化相当,较未优化版程序性能有显著提升. 展开更多
关键词 申威众核处理器 多级存储层次 RMA通信 并行语言 编译优化
在线阅读 下载PDF
面向申威众核处理器的规则处理优化技术
2
作者 张振东 王彤 刘鹏 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期66-85,共20页
高性能口令恢复系统是申威众核处理器的重要应用场景之一,规则处理是主流口令恢复工具中被广泛应用的一种口令生成方式.现有相关研究工作缺少对规则处理算法的优化,导致申威处理器上基于规则的口令生成速度成为口令恢复系统的性能瓶颈.... 高性能口令恢复系统是申威众核处理器的重要应用场景之一,规则处理是主流口令恢复工具中被广泛应用的一种口令生成方式.现有相关研究工作缺少对规则处理算法的优化,导致申威处理器上基于规则的口令生成速度成为口令恢复系统的性能瓶颈.通过分析规则处理算法的多层次可并行性,提出了面向申威众核处理器的线程级、数据级优化方案.在线程级优化方案中,探索了规则处理算法的最优任务映射方式,设计了主从核任务分配机制、从核缓冲区配比优化机制、负载均衡机制、变长规则存储机制等技术以提高并行效率;在数据级优化方案中,分析了规则处理算法中规则函数的计算模式,并通过申威SIMD指令集对规则函数进行向量优化以提高执行效率.在SW26010处理器上的实验结果表明,上述优化方案有效解除了规则处理的性能瓶颈,使规则模式下的口令恢复速度提升了30~101倍. 展开更多
关键词 申威众核处理器 口令恢复 规则处理 异构计算 单指令多数据流
在线阅读 下载PDF
基于申威众核处理器的海冰模式并行加速方法 被引量:2
3
作者 李镔洋 李波 钱德沛 《计算机学报》 EI CSCD 北大核心 2018年第10期2221-2235,共15页
海冰模式是地球模式的重要组成部分,其使用不同的网格和时间梯度来模拟海冰区域随时间的变化.海冰模式具有计算密集的特性,随着海冰模式计算精度的提升,传统的硬件已难以满足其计算需求.申威太湖之光超级计算机是第一台峰值性能超过100P... 海冰模式是地球模式的重要组成部分,其使用不同的网格和时间梯度来模拟海冰区域随时间的变化.海冰模式具有计算密集的特性,随着海冰模式计算精度的提升,传统的硬件已难以满足其计算需求.申威太湖之光超级计算机是第一台峰值性能超过100Pflops的超级计算机,其为高精度的海冰模式过程模拟提供了新的硬件平台,但在该平台上实现算法高效并行化仍面临着诸多问题.一些应用程序已经在众核平台上实现移植和并行化,但是相比其他领域,气候软件在众核平台移植和并行化的过程相对缓慢.有关气候模式在众核平台的并行化研究大多基于GPU实现.早期的研究多基于单个气候运算过程,该过程通常为计算密集型程序,通信过程相对较少,基于GPU的实现可以取得较好的并行效果.与单一的运算过程不同,海冰模式程序需要与多个气候模式进行交互,如何减少通信过程开销以及如何充分利用申威处理器所提供的并行性能是我们遇到的主要问题.为解决这一问题,该文基于申威众核处理器,设计了一种针对海冰模式算法移植和并行化的方法.每个申威众核处理器包含有4个核组,每个核组包含有一个管理核心和64个计算核心.为充分发掘申威众核处理器的并行特性,该方法分别对海冰模式数据分割方式,数据传输过程以及计算方式进行了改进和优化.该文利用该方法对海冰模式的两个算法进行了移植和并行化,并使用CICE测试数据集和COREv2数据集对该方法的性能进行测试.实验表明,并行优化后的两个算法相较其只在管理核心上运行分别可获得11.6倍和9.8倍的性能提升,且与基本并行化方法相比,该方法最高可获得40%的性能提升. 展开更多
关键词 申威众核处理器 海冰模式 数据传输 数据分割 计算方式
在线阅读 下载PDF
申威众核处理器上的三对角并行求解器 被引量:3
4
作者 刘侃 王欣亮 +1 位作者 许平 薛巍 《计算机科学与探索》 CSCD 北大核心 2019年第10期1654-1663,共10页
三对角方程求解器是一种在很多科学与工程领域广泛应用的数值计算核心。目前,CPU、GPU等主流硬件平台上都提出了高度优化的并行算法,但是对于中国自主研发的申威26010众核处理器,还没有一种算法能有效地利用其独特的硬件特性来达到最大... 三对角方程求解器是一种在很多科学与工程领域广泛应用的数值计算核心。目前,CPU、GPU等主流硬件平台上都提出了高度优化的并行算法,但是对于中国自主研发的申威26010众核处理器,还没有一种算法能有效地利用其独特的硬件特性来达到最大化的性能。提出了一种分布式CR算法swDCR,来求解大量的、规模不大的三对角方程。该算法对每个三对角方程使用多个从核并行求解,通过联合多个从核的缓存使得运算过程中所有中间变量都能存储在缓存中,同时利用寄存器通信完成核间数据的高速传输。通过设计线程级数据划分机制,使得向量化的优化效果最大化。swDCR的吞吐率相比主核上的追赶法达到了单精度43.9倍和双精度36.7倍的加速,相比从核上的追赶法达到了单精度和双精度均2.07倍的加速。该算法在申威26010处理器单个核组上可以获得24GB/s的有效带宽。 展开更多
关键词 三对角 申威众核处理器 循环消去(CR)算法
在线阅读 下载PDF
基于申威众核处理器的NSGA-Ⅱ并行和优化方法 被引量:2
5
作者 刘垚 郑琳 +2 位作者 郑凯 王肃 廖启丹 《计算机应用研究》 CSCD 北大核心 2020年第1期96-101,共6页
由申威众核处理器组成的"神威·太湖之光"是我国当前性能最高的超级计算机,可为大规模NSGA-Ⅱ求解提供硬件平台。基于硬件架构特点,设计了分岛/主从增强混合并行NSGA-Ⅱ。在主从模式基础上,利用从核间寄存器通信,实现核... 由申威众核处理器组成的"神威·太湖之光"是我国当前性能最高的超级计算机,可为大规模NSGA-Ⅱ求解提供硬件平台。基于硬件架构特点,设计了分岛/主从增强混合并行NSGA-Ⅱ。在主从模式基础上,利用从核间寄存器通信,实现核组内从核局部数据存储的共享。优化流程,实现更多算法模块在从核上的并行。运用DMA传输、向量化、双缓冲、存储优化等方法显著提高加速比。实验表明,优化的并行NSGA-Ⅱ在申威众核处理器上具有良好的加速比和扩展性。 展开更多
关键词 申威众核处理器 NSGA-Ⅱ 并行遗传算法 多目标 并行优化
在线阅读 下载PDF
稀疏矩阵向量乘法在申威众核架构上的性能优化 被引量:15
6
作者 李亿渊 薛巍 +4 位作者 陈德训 王欣亮 许平 张武生 杨广文 《计算机学报》 EI CSCD 北大核心 2020年第6期1037-1051,共15页
计算机数值模拟是现代科学和技术发展的重要触发力量.在数值模拟中,求解大规模稀疏线性方程组是非常重要的一个环节.迭代求解过程中稀疏矩阵向量乘法是耗时最长的计算核心之一,存在严重的数据局部性差、写冲突、负载不均衡等问题.因此,... 计算机数值模拟是现代科学和技术发展的重要触发力量.在数值模拟中,求解大规模稀疏线性方程组是非常重要的一个环节.迭代求解过程中稀疏矩阵向量乘法是耗时最长的计算核心之一,存在严重的数据局部性差、写冲突、负载不均衡等问题.因此,稀疏矩阵向量乘法已经成为了当前性能优化的难点和研究热点.本文面向国产众核处理器架构,以申威26010国产众核处理器为平台,针对稀疏矩阵向量乘法,在线程级和指令级并行层面上进行细粒度的并行算法设计和优化实现.其核心思想是,将众核架构设计精巧的矩阵分层分块技术用于矩阵存储、访问和任务调度,在保证右端向量数据复用的同时有效实现了负载均衡,避免了申威26010上因频繁缓存判断和细粒度访问导致的潜在性能问题.通过对SuiteSparse矩阵集合中的2710个算例的测试,该算法可以获得与主核上的串行算法相比11.7倍的平均加速和55倍的最高加速. 展开更多
关键词 申威众核处理器 并行计算 矩阵向量乘法 矩阵格式 稀疏矩阵计算
在线阅读 下载PDF
基于HYB格式SpMV在新一代申威架构上的实现与优化 被引量:1
7
作者 王鑫 彭健 《计算机工程与科学》 CSCD 北大核心 2023年第10期1754-1762,共9页
稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的... 稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的HYB存储格式,面向国产新一代申威异构众核处理器SW26010P,设计了一种并行SpMV算法及其性能优化方案。并针对HYB存储格式的阈值选取难点,提出了一种多次迭代最大类间方差的方法,以确定HYB格式的阈值。实验结果表明,相比主核上的串行算法,并行SpMV算法可以获得23.36的平均加速比和34.85的最高加速比。 展开更多
关键词 申威众核处理器 稀疏矩阵向量乘法 最大类间方差法 并行计算
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部