期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
面向神威高性能多核处理器的并行编译优化方法 被引量:2
1
作者 周雍浩 徐金龙 +2 位作者 李斌 钱宏 聂凯 《计算机工程》 CAS CSCD 北大核心 2022年第9期130-138,共9页
在神威高性能多核服务器上,自动并行化编译系统为识别和申明程序中的并行性,产生的OpenMP程序没有经过充分的优化,其采用简单的fork-join模型,存在大量的并行循环嵌套,导致运行效率低。为提升自动并行化编译系统产生的OpenMP程序的运行... 在神威高性能多核服务器上,自动并行化编译系统为识别和申明程序中的并行性,产生的OpenMP程序没有经过充分的优化,其采用简单的fork-join模型,存在大量的并行循环嵌套,导致运行效率低。为提升自动并行化编译系统产生的OpenMP程序的运行效率,提出一种并行域重构优化技术。并行域重构技术通过合并程序中的并行域和扩展嵌套循环中的并行域范围,减少OpenMP程序的并行域数目,降低线程组频繁创建和合并等控制开销,将简单fork-join模型的OpenMP程序转换为性能更为高效的单程序多数据模型的OpenMP程序。实验结果表明,在新一代神威高性能多核服务器SW1621平台上,并行域重构技术在NPB3.3-OMP测试集和SPEC OMP2012测试集上的运行效率分别提高了10.77%和7.94%的,可有效提升自动并行化编译系统OpenMP程序的执行效率。 展开更多
关键词 神威高性能多核处理器 OpenMP编程 并行域重构 fork-join模型 单程序多数据模型
在线阅读 下载PDF
面向高性能计算的众核处理器结构级高能效技术 被引量:17
2
作者 郑方 张昆 +7 位作者 邬贵明 高红光 唐勇 吕晖 过锋 李宏亮 谢向辉 陈左宁 《计算机学报》 EI CSCD 北大核心 2014年第10期2176-2186,共11页
随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该... 随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该处理器的具体结构,提出了基于指令窗口的指令缓冲、操作数锁存两种结构级能效优化技术,探索了能效优先的浮点部件设计方法.实验表明,通过上述技术可以降低处理器取指和译码能耗约50%、寄存器文件能耗11.2%和浮点部件能耗17.6%,最终全芯片降低能耗约14.7%.在该文所述实验环境下,作者还进行了DFMC原型的双精度矩阵乘(DGEMM)性能功耗比测试,并与NVIDIA公司的Kepler K20GPU进行了对比. 展开更多
关键词 处理器 结构优化 能效 高性能计算
在线阅读 下载PDF
高性能众核处理器芯片时钟网络设计 被引量:3
3
作者 马永飞 高成振 +1 位作者 黄金明 李研 《计算机工程》 CAS CSCD 北大核心 2022年第8期25-29,36,共6页
随着芯片工艺演进与设计规模增加,高性能众核处理器芯片时钟网络设计面临时序和功耗的全方位挑战。为降低芯片时钟网络功耗并缓解时钟网络分布受片上偏差影响导致的时钟偏斜,在H-Tree+MESH混合时钟网络结构的基础上,结合新一代众核处理... 随着芯片工艺演进与设计规模增加,高性能众核处理器芯片时钟网络设计面临时序和功耗的全方位挑战。为降低芯片时钟网络功耗并缓解时钟网络分布受片上偏差影响导致的时钟偏斜,在H-Tree+MESH混合时钟网络结构的基础上,结合新一代众核处理器芯片面积大及核心时钟网络分布广的特点,基于标准多源时钟树设计策略构建多源时钟树综合(MRCTS)结构,通过全局H-Tree时钟树保证芯片不同区域间时钟偏斜的稳定可控,利用局部时钟树综合进行关键路径的时序优化以实现时序收敛。实验结果表明,MRCTS能在保证时钟延时、时钟偏斜等性能参数可控的基础上,有效降低时钟网络的负载和功耗,大幅压缩综合子模块的布线资源,加速关键路径的时序收敛,并且在相同电源电压和时钟频率的实测条件下,可获得约22.15%的时钟网络功耗优化。 展开更多
关键词 高性能处理器芯片 时钟网络 时钟功耗 时钟偏斜 多源时钟树综合
在线阅读 下载PDF
面向高性能计算的众核处理器轻量级错误恢复技术研究 被引量:1
4
作者 郑方 沈莉 +1 位作者 李宏亮 谢向辉 《计算机研究与发展》 EI CSCD 北大核心 2015年第6期1316-1328,共13页
随着半导体技术进步,单个芯片上集成大量核心的众核处理器已经广泛应用于高性能计算领域.相比多核处理器,众核处理器能提供更好的计算密度和能效比,但同时也面临越来越严重的可靠性挑战.需要设计高效的处理器容错机制,有效保证课题运行... 随着半导体技术进步,单个芯片上集成大量核心的众核处理器已经广泛应用于高性能计算领域.相比多核处理器,众核处理器能提供更好的计算密度和能效比,但同时也面临越来越严重的可靠性挑战.需要设计高效的处理器容错机制,有效保证课题运行效率的同时不带来较大的芯片功耗和面积开销.在一款自主众核处理器DFMC(deeply fused and heterogeneous many-core)原型基础上,根据核心上运行的应用程序是否具有关联性特征,提出并实现了面向众核处理器的独立和协同2种轻量级错误恢复技术.其中,协同恢复技术由集中部件进行管理,通过协同恢复总线互连,出错时将与错误相关联的多个核心快速回卷到正确状态.2种错误恢复技术中,保留和恢复过程均通过定制的指令实现,恢复所需要的信息保留在运算核心内部,以保证对课题性能的影响最小化.实验表明,通过上述技术只增加了1.257%的芯片面积,可解决自主众核处理器约80%的瞬时错误,且对课题性能、芯片时序和功耗影响很小,可有效地提高众核处理器的容错能力. 展开更多
关键词 处理器 错误恢复 容错 瞬态错误 高性能计算
在线阅读 下载PDF
Cavium新款多核处理器采用超高性能MIPS64TM架构
5
《半导体技术》 CAS CSCD 北大核心 2012年第3期247-247,共1页
为数字家庭、网络和移动应用提供业界标准处理器架构与内核的领导厂商美普思科技公司(MIPS Technologies,Inc)2012年2月10日宣布MIPS64TM架构已获得Cavium用来开发新款28nmOCTEON III MIPS64系列多核心处理器。
关键词 多核处理器 架构 高性能 多核处理器 数字家庭 移动应用 III
在线阅读 下载PDF
高性能嵌入式处理器技术 被引量:3
6
作者 赖铭强 聂新义 段国东 《计算机工程》 CAS CSCD 北大核心 2009年第14期280-282,共3页
介绍面向分布式集群计算机的高性能嵌入式处理器产业链,分析该产业链中CPU核提供商、处理器芯片开发商、系统软件提供商、嵌入式计算机制造商等各个环节的技术特点,并在高性能嵌入式处理器开发上做了有益的探索。提出要积极与系统软件... 介绍面向分布式集群计算机的高性能嵌入式处理器产业链,分析该产业链中CPU核提供商、处理器芯片开发商、系统软件提供商、嵌入式计算机制造商等各个环节的技术特点,并在高性能嵌入式处理器开发上做了有益的探索。提出要积极与系统软件、嵌入式计算机制造商协作,充分发挥软硬件协同设计能力,以开发出面向分布式集群计算机的高性能嵌入式处理器。进一步指出多核设计与高速总线电路是高性能嵌入式处理器发展的未来之路。 展开更多
关键词 分布式集群计算机 高性能嵌入式处理器 多核设计 高速总线电路
在线阅读 下载PDF
基于神威众核处理器的排列熵算法并行加速方法 被引量:2
7
作者 张浩 花嵘 +2 位作者 于建志 梁建国 冯鲁彬 《计算机应用研究》 CSCD 北大核心 2020年第7期2022-2026,共5页
随着嵌入维数的增大,排列熵(permutation entropy,PE)算法的运算规模将会成倍增加,对计算的时效性提出了更高的要求。针对国际上首台计算性能超过100P的神威·太湖之光异构众核超级计算机,提出一种针对排列熵算法移植和并行化方法,... 随着嵌入维数的增大,排列熵(permutation entropy,PE)算法的运算规模将会成倍增加,对计算的时效性提出了更高的要求。针对国际上首台计算性能超过100P的神威·太湖之光异构众核超级计算机,提出一种针对排列熵算法移植和并行化方法,核组之间基于MPI对相空间矩阵进行数据划分,核组内部基于OpenACC实现划分区域内部并行;然后针对SW26010众核处理器结构特征,调整减少主从核通信次数和消除原子操作,将排列熵算法成功移植并加速;最后通过大坝振荡数据进行测试。测试结果表明,该方法能够很好地发挥SW26010众核处理器加速优势,单核组性能较主核版本最高可获得7.18倍加速,同时在神威·太湖之光大规模集群上进行强可扩展性分析,128核组时最高实现了85.6倍的性能提升。 展开更多
关键词 排列熵 神威处理器 MPI OpenACC 嵌入维数
在线阅读 下载PDF
面向多核向量处理器的矩阵乘法向量化方法 被引量:9
8
作者 刘仲 田希 《计算机学报》 EI CSCD 北大核心 2018年第10期2251-2264,共14页
稠密矩阵乘法是大规模科学计算中许多算法的核心计算之一,文中提出一种高效的面向多核向量处理器的矩阵乘法向量化方法.提出一种按行计算的矩阵乘法向量化方法,该向量化方法的基本思想是每次同时计算C矩阵的一行元素,C矩阵第i行元素的值... 稠密矩阵乘法是大规模科学计算中许多算法的核心计算之一,文中提出一种高效的面向多核向量处理器的矩阵乘法向量化方法.提出一种按行计算的矩阵乘法向量化方法,该向量化方法的基本思想是每次同时计算C矩阵的一行元素,C矩阵第i行元素的值由k次向量乘累加完成,每次计算都是先将A矩阵第i行的第j个元素扩展为值相同的向量,再与B矩阵的第j行向量进行乘累加计算,每一次的向量乘累加计算是在各个VPE上并行进行,计算的源数据和结果数据均保存在VPE的本地寄存器上,每个计算结果涉及的乘累加计算均在同一个VPE上完成,并且A、B、C三个矩阵的数据均是按行顺序读取,访存效率高,在k循环结束时,同时完成C矩阵第i行元素值的计算.该方法能充分开发向量处理器的标量、向量协同数据加载能力,有效减少对DDR的存储带宽需求,能够避免低效的对乘数矩阵列向量数据的访问和各个VPE间的浮点归约求和计算,取得最优的内核计算性能;将处理器的一级数据缓存和阵列存储配置为SRAM访问模式,能够避免由于Cache数据不命中而导致的存储访问延迟,提高核心计算访问一级数据缓存和阵列存储的效率,采用组播DMA传输矩阵数据,能够显著提高从DDR读取矩阵数据的效率;提出依据向量处理单元VPE数量、VPE的FMAC运算单元数量、向量存储器的容量和矩阵元素的数据类型等向量处理器体系结构特点设计最优的核心子块矩阵分块参数设计方法,能够充分开发向量处理器的多核间数据并行、核内的多VPE间的向量SIMD并行、VPE内的多个FMAC单元并行、VPE内的标、向量指令级并行等多级并行性,并根据FMAC指令延迟槽进行完全循环展开,让内核始终以峰值速度运行;提出基于两级DMA双缓冲数据搬移策略,优化和平滑多级存储结构间的数据传输,使得DMA的数据搬移时间完全重叠于内核的计算时间中,让整个矩阵计算以接近内核计算的速度运行,实现最优的计算性能和效率.在MATRIX2上的实验结果表明,提出的双精度矩阵乘法的性能达到1106.88GFLOPS,效率为96.08%,核心计算的效率达到99.39%. 展开更多
关键词 多核向量处理器 高性能计算 矩阵乘法 分块矩阵 向量化
在线阅读 下载PDF
申威众核处理器的并行NSGA-Ⅱ算法 被引量:3
9
作者 沈焕学 郑凯 +4 位作者 刘垚 王肃 刘艳 赵瑞祥 周谦豪 《计算机工程与应用》 CSCD 北大核心 2018年第17期35-40,共6页
非支配排序遗传算法(NSGA-Ⅱ)在多目标优化领域有着广泛的应用,但在处理复杂问题时运行时间相当长。并行化是提高算法执行速度的有效途径。众核处理器的出现,为实现高度并行奠定了物质基础。基于国产超算"神威·太湖之光"... 非支配排序遗传算法(NSGA-Ⅱ)在多目标优化领域有着广泛的应用,但在处理复杂问题时运行时间相当长。并行化是提高算法执行速度的有效途径。众核处理器的出现,为实现高度并行奠定了物质基础。基于国产超算"神威·太湖之光"的申威众核处理器平台设计了并行NSGA-Ⅱ算法(PNSGA-Ⅱ),实现了算法基于主核的一级并行和基于主/从核的二级并行。在典型测试函数集上的实验表明,在不影响解的质量前提下,PNSGA-Ⅱ算法不仅大大加快了执行速度,同时算法的收敛速度也更快。 展开更多
关键词 非支配排序遗传算法 多目标优化 并行遗传算法 处理器 神威·太湖之光
在线阅读 下载PDF
针对SW26010众核处理器的单精度矩阵乘算法
10
作者 武铮 许乐 +2 位作者 安虹 金旭 文可 《小型微型计算机系统》 CSCD 北大核心 2023年第4期673-681,共9页
矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW... 矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW26010众核处理器的高性能矩阵乘算法提出了迫切的需求.针对SW26010众核处理器的体系结构特征,首次对单精度矩阵乘实现进行了深入探讨,提出了3种不同存储层次的高性能并行算法.在进行算法设计时,计算方面,结合该处理器的从核双流水,从汇编层面手动控制核心计算任务的指令序列,保证了高效的指令级并行;访存方面,综合考虑了有限片上存储资源的有效使用,以及访存任务和计算任务的交叉并行,实现了计算访存的平衡以及算法整体性能的提升.实验结果显示,与该处理器上最先进的官方数学库xMath中的单精度矩阵乘实现相比,运行时峰值性能提升了6.8%,达到了理论峰值性能的86.17%;在基于不同矩阵乘场景的通用性比较中,95.33%的场景中性能更高,最高性能加速比达到247.9%,平均性能加速比为61.66%. 展开更多
关键词 处理器 矩阵乘 计算机系统结构 高性能计算 并行算法
在线阅读 下载PDF
面向申威众核处理器的并行SaNSDE算法 被引量:1
11
作者 康上 钱雪忠 甘霖 《计算机科学与探索》 CSCD 北大核心 2021年第10期2015-2024,共10页
演化算法作为解决大规模优化问题的重要方法,被广泛应用于机器学习、过程控制、工程优化、管理科学和社会科学等领域。然而在求解高维度、高计算密度问题时,程序性能很难得到保证。在高性能计算机上实现并行化是问题的一个热门解决方案... 演化算法作为解决大规模优化问题的重要方法,被广泛应用于机器学习、过程控制、工程优化、管理科学和社会科学等领域。然而在求解高维度、高计算密度问题时,程序性能很难得到保证。在高性能计算机上实现并行化是问题的一个热门解决方案。针对申威众核处理器的硬件特征,提出了采用二级并行策略的自适应邻域搜索的差分进化算法(SaNSDE)。第一级为进程并行,实现了合作协同进化模型和池模型,将大规模问题划分为多个低维子问题并分布在不同进程上;第二级为线程并行,使用从核加速了适应度的计算过程。实验结果表明,采用合作协同进化模型和池模型的算法与传统的并行算法相比,经过多核扩展之后收敛效果提升更加明显。相较于串行版本算法,二级并行的SaNSDE算法在四个测试函数上分别获得了134.29、186.05、239.01和189.80的最大加速比。 展开更多
关键词 高性能计算 申威异构众处理器 演化算法 合作协同进化模型(CC) 池模型
在线阅读 下载PDF
国产神威环境下Athread代码生成工具的设计与开发 被引量:2
12
作者 刘加伟 郭强 +3 位作者 庄园 张海红 王利 曾云辉 《计算机工程与设计》 北大核心 2024年第2期633-640,F0003,共9页
针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调... 针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调用slave程序的三层模板程序架构,集成常用众核优化方法的代码框架。经过实验分析,采用该自动转换工具生成的Athread代码相较于人工编写的OpenACC*加速的程序有更高的加速比,特别是对多个核心段进行众核化加速时的加速比相差15%,验证该转换工具具有很好的实用性。 展开更多
关键词 加速线程库 代码生成 模板引擎 语法分析 处理器 神威·太湖之光 高性能计算
在线阅读 下载PDF
基于神威太湖之光的NAMD软件的移植与优化 被引量:12
13
作者 姚文军 陈俊仕 +3 位作者 苏志超 余洋 廖陈志 安虹 《计算机工程与科学》 CSCD 北大核心 2017年第6期1022-1030,共9页
纳米级粒度分子动力学NAMD是基于Charm++并行编程模型的开源免费分子动力学模拟软件,能够在大规模并行计算机上快速模拟百万原子级别的大分子体系。太湖之光是中国自主研发的超级计算机,峰值性能为125.4Pflop/s,共有1 000多万个核心,整... 纳米级粒度分子动力学NAMD是基于Charm++并行编程模型的开源免费分子动力学模拟软件,能够在大规模并行计算机上快速模拟百万原子级别的大分子体系。太湖之光是中国自主研发的超级计算机,峰值性能为125.4Pflop/s,共有1 000多万个核心,整机Linpack效率不低于70%。NAMD在空间上对原子进行划分,在计算上对力进行划分,充分曝露出单步模拟的并行度,并通过CHARM++对负载平衡进行调控。针对NAMD进行模拟计算时的特点,移植并优化了NAMD的核心计算代码,让其能够更好地运行在超级计算机神威太湖之光上,优化后性能提高了近20倍,单个核组的性能较Intel XeonE5-2650v2提高3倍。扩展性方面目前至多可达到325万核的并行度,突破百万核大关。 展开更多
关键词 分子动力学模拟 神威超级计算机 异构多核处理器
在线阅读 下载PDF
基于神威太湖之光的AMBER软件移植与优化 被引量:5
14
作者 彭龙 陈俊仕 安虹 《计算机工程》 CAS CSCD 北大核心 2020年第12期12-20,共9页
AMBER是一款主流的分子动力学模拟软件,用于研究分子体系内的微观运动状态。为利用神威太湖之光的海量计算资源加速AMBER软件模拟分子体系的运动过程,将AMBER软件移植到SW26010处理器的主核上建立主从加速模型,实现AMBER软件的从核并行... AMBER是一款主流的分子动力学模拟软件,用于研究分子体系内的微观运动状态。为利用神威太湖之光的海量计算资源加速AMBER软件模拟分子体系的运动过程,将AMBER软件移植到SW26010处理器的主核上建立主从加速模型,实现AMBER软件的从核并行化设计。在从核并行化的基础上提出主从异步流水化方案,利用SW26010处理器从核的局部数据缓存和直接内存存取通道技术,解决从核访存速度过低及并行访存带宽受限的问题,并通过SIMD指令将部分从核代码向量化,进一步提升AMBER软件在神威太湖之光平台上的计算性能。测试结果表明,AMBER热点函数的计算性能较优化前约提升15倍,单核组的整体性能较Intel Xeon Platinum 8163约提升4.6倍。 展开更多
关键词 分子动力学模拟 神威太湖之光 异构众处理器 并行优化 异步流水化
在线阅读 下载PDF
PME算法在神威太湖之光上的移植和优化 被引量:2
15
作者 林增 武铮 +1 位作者 安虹 陈俊仕 《小型微型计算机系统》 CSCD 北大核心 2021年第1期9-14,共6页
分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW2601... 分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW26010异构众核处理器,峰值性能达到125.4PFlops.目前太湖之光上已有对GROM ACS短程力优化的相关研究,但对于PM E(Particle Mesh Ewald)算法未有探索性工作.本文基于申威平台对PME算法展开研究,针对随机访存模式、网格点写写冲突等挑战,提出了基于局部网格序的分块策略、数据重组策略、非线性函数近似等方法进行优化.最终优化后的结果相较于初始版本性能提升了8.85倍,相较于Intel CPU版本提升了1.2倍.本文采用的优化技术也可以为神威太湖之光上其他分子动力学模拟软件和涉及散乱数据插值程序的优化提供借鉴. 展开更多
关键词 PME GROMACS 神威太湖之光 异构众处理器
在线阅读 下载PDF
神威太湖之光上OpenFOAM的移植与优化 被引量:13
16
作者 孟德龙 文敏华 +1 位作者 韦建文 林新华 《计算机科学》 CSCD 北大核心 2017年第10期64-70,共7页
神威太湖之光是最新一期Top500榜单上排名第一的超级计算机,峰值性能为125.4PFlops,其计算能力主要归功于国产SW26010众核处理器。OpenFOAM(Open Source Field Operation and Manipulation)是计算流体力学领域使用最广泛的开源软件包,... 神威太湖之光是最新一期Top500榜单上排名第一的超级计算机,峰值性能为125.4PFlops,其计算能力主要归功于国产SW26010众核处理器。OpenFOAM(Open Source Field Operation and Manipulation)是计算流体力学领域使用最广泛的开源软件包,但是由于其基于C++实现,与神威太湖之光上的异构众核处理器SW26010的编译器不兼容,因此无法直接在该架构上有效运行。基于SW26010的主核/从核的体系架构移植了OpenFOAM的核心计算代码,并采用混合语言编程实现的方式来解决编译不兼容的问题。此外,通过寄存器通信、向量化和双缓冲等优化手段,单核组的性能较优化后的主核代码提高了8.03倍,较Intel(R)Xeon(R)CPU E5-2695v3的串行执行性能提高了1.18倍。同时,将单核组的实现扩展到了神威太湖之光的大规模集群上,并进行了强可扩展性测试,256个核组上实现了184.9倍的加速。采用的移植方式和优化手段也可以为其他复杂C++程序在神威太湖之光上的应用提供借鉴。 展开更多
关键词 计算流体力学 OPENFOAM 异构多核处理器 神威超级计算机
在线阅读 下载PDF
基于国产众核架构CESM中有限差分计算优化 被引量:3
17
作者 陈宏博 钱雪忠 +2 位作者 甘霖 徐敬蘅 刘徐 《计算机应用研究》 CSCD 北大核心 2021年第2期501-505,共5页
针对CESM中的有限差分算法并行过程中存在内存读取冗余过大、通信开销过高的问题,设计出根据数据结构进行数据重构、计算核心捆绑、流水线通信等多种并行优化方案。弥补了申威26010处理器在数据读取过程中缺少共享缓存区、带宽利用率不... 针对CESM中的有限差分算法并行过程中存在内存读取冗余过大、通信开销过高的问题,设计出根据数据结构进行数据重构、计算核心捆绑、流水线通信等多种并行优化方案。弥补了申威26010处理器在数据读取过程中缺少共享缓存区、带宽利用率不高等不足,缓解了申威26010处理器在有限差分法求解过程的通信瓶颈。对CESM中以有限差分法为核心计算的两个函数,在申威26010众核处理器上的测试结果表明,提出算法及优化策略拥有21.2倍的性能提升。 展开更多
关键词 通用地球系统模型 并行计算 异构众处理器 有限差分算法 高性能计算
在线阅读 下载PDF
第一性原理极化率计算中的众核优化方法研究 被引量:1
18
作者 罗海文 吴扬俊 商红慧 《计算机科学》 CSCD 北大核心 2023年第6期1-9,共9页
基于量子力学的密度泛函微扰理论(DFPT)可以用来计算分子和材料的多种物理化学性质,目前被广泛应用于新材料等领域的研究中;同时,异构众核处理器架构逐渐成为超算的主流。因此,针对异构众核处理器重新设计和优化DFPT程序以提升其计算效... 基于量子力学的密度泛函微扰理论(DFPT)可以用来计算分子和材料的多种物理化学性质,目前被广泛应用于新材料等领域的研究中;同时,异构众核处理器架构逐渐成为超算的主流。因此,针对异构众核处理器重新设计和优化DFPT程序以提升其计算效率,对物理化学性质的计算及其科学应用具有重要意义。文中对DFPT中一阶响应密度和一阶响应哈密顿矩阵的计算针对众核处理器体系结构进行了优化,并在新一代神威处理器上进行了验证。优化技术包括循环分块、离散访存处理和协同规约。其中,循环分块对任务进行划分从而由众核并行地执行;离散访存处理将离散访存转换为更高效的连续访存;协同规约解决了写冲突问题。实验结果表明,在一个核组上,优化后的程序性能较优化前提高了8.2~74.4倍,并且具有良好的强可扩展性和弱可扩展性。 展开更多
关键词 密度函数微扰理论 第一性原理计算 高性能计算 新一代神威异构众处理器
在线阅读 下载PDF
面向E级超算系统的众核片上存储层次研究 被引量:1
19
作者 方燕飞 刘齐 +5 位作者 董恩铭 李雁冰 过锋 王谛 何王全 漆锋滨 《计算机工程》 CAS CSCD 北大核心 2023年第12期10-24,共15页
当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓... 当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓解“访存墙”问题并帮助HPC应用更好地发挥众核处理器的计算优势以提升实际应用性能的重要结构。众核片上存储层次的设计对众核片上系统性能、功耗和面积具有重要影响,是众核结构设计中的重要环节,也是业界的研究热点。由于众核芯片发展历史和片上微体系结构设计技术的不同,以及所面向的应用领域需求不同等原因,目前的HPC主流众核片上存储层次结构并不单一,但从横向比较和各处理器自身纵向发展趋势,以及从HPC与数据科学、机器学习不断融合发展带来的应用需求变化来看,SPM+Cache的混合结构最可能成为今后HPC E级超算系统众核处理器片上存储层次设计的主流选择。在面向E级计算的软件和算法层面,开展针对众核存储层次特点的设计与优化,可以帮助HPC应用更好地发挥众核处理器的计算优势,从而有效提升实际应用性能,因此面向众核片上存储层次特点的软件及算法设计与优化技术也是业界的研究热点之一。首先按照不同的组织方式将片上存储层次分为多级Cache结构、SPM结构和SPM+Cache混合结构,并总结分析3种结构的优缺点。然后分析国际主流GPU、同构众核、国产众核等面向主流E级超算系统的众核处理器片上存储层次设计现状与发展趋势。最后从众核LLC管理与缓存一致性协议、SPM空间管理与数据移动优化、SPM+Cache混合结构的全局视角优化等角度综述国际上的存储层次设计与优化相关软硬件技术的研究现状。在此基础上,从软硬件及算法设计等不同角度展望了片上存储层次的未来研究方向。 展开更多
关键词 E级超算 处理器 存储层次 高性能计算 便签式存储器 末级缓存
在线阅读 下载PDF
基于CELL宽带引擎架构的MPI研究与实现 被引量:1
20
作者 徐祯 孙济洲 +2 位作者 于策 亓大志 张旭明 《计算机应用研究》 CSCD 北大核心 2010年第7期2526-2529,共4页
研究了在CBEA上移植MPI消息传递编程模型和标准接口的可行性,并利用IBM CELL SDK 3.0实现了一组常用的MPI编程接口。实验结果表明,该组MPI接口可满足CBEA上应用开发的数据传输性能要求,并且其性能已接近现有DMA数据传输模式。该组MPI接... 研究了在CBEA上移植MPI消息传递编程模型和标准接口的可行性,并利用IBM CELL SDK 3.0实现了一组常用的MPI编程接口。实验结果表明,该组MPI接口可满足CBEA上应用开发的数据传输性能要求,并且其性能已接近现有DMA数据传输模式。该组MPI接口为CELL应用开发人员提供了一种通用编程接口解决方案。 展开更多
关键词 CELL宽带引擎架构 异构多核处理器 MPI接口 数据传输 高性能计算
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部