期刊文献+
共找到60篇文章
< 1 2 3 >
每页显示 20 50 100
国产神威环境下Athread代码生成工具的设计与开发 被引量:2
1
作者 刘加伟 郭强 +3 位作者 庄园 张海红 王利 曾云辉 《计算机工程与设计》 北大核心 2024年第2期633-640,F0003,共9页
针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调... 针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调用slave程序的三层模板程序架构,集成常用众核优化方法的代码框架。经过实验分析,采用该自动转换工具生成的Athread代码相较于人工编写的OpenACC*加速的程序有更高的加速比,特别是对多个核心段进行众核化加速时的加速比相差15%,验证该转换工具具有很好的实用性。 展开更多
关键词 加速线程库 代码生成 模板引擎 语法分析 众核处理器 神威·太湖之光 高性能计算
在线阅读 下载PDF
神威·太湖之光平台上宇宙N体模拟中FMM的并行优化
2
作者 韩承磊 梁建国 +3 位作者 傅游 叶雨曦 花嵘 李倩倩 《山东科技大学学报(自然科学版)》 CAS 北大核心 2024年第3期105-113,共9页
宇宙学模拟是典型的N体问题,是高性能计算中具有代表性和挑战性的问题之一。本研究在神威·太湖之光平台上对天文N体模拟软件PhotoNs-2中的计算主体——快速多极子方法(fast multipole method,FMM)进行移植和性能优化。针对目前研... 宇宙学模拟是典型的N体问题,是高性能计算中具有代表性和挑战性的问题之一。本研究在神威·太湖之光平台上对天文N体模拟软件PhotoNs-2中的计算主体——快速多极子方法(fast multipole method,FMM)进行移植和性能优化。针对目前研究中存在的计算效率不高、通信开销大问题,结合神威·太湖之光SW26010处理器架构特点,通过数据重整、超越函数计算重构、设计双缓冲和消息传递接口通信时合并发送树进行优化。相较于优化前,优化后的PhotoNs-2在3个不同算例规模下均取得约24倍的加速效果。提出的优化方案可以为其他高性能应用在神威·太湖之光平台上的移植与优化提供参考。 展开更多
关键词 神威·太湖之光平台 并行优化 数据重整 快速多极子方法 宇宙N体
在线阅读 下载PDF
面向神威·太湖之光的PETSc可扩展异构并行算法及其性能优化 被引量:16
3
作者 洪文杰 李肯立 +4 位作者 全哲 阳王东 李克勤 郝子宇 谢向辉 《计算机学报》 EI CSCD 北大核心 2017年第9期2057-2069,共13页
共性数学库PETSc(Portable,Extensible Toolkit for Scientific Computation)是高性能计算的基础模块,是超级计算机计算环境的基础算法库之一,其性能直接影响调用数学库的高性能数值计算应用的效率.面向国际上首台100P神威·太湖之... 共性数学库PETSc(Portable,Extensible Toolkit for Scientific Computation)是高性能计算的基础模块,是超级计算机计算环境的基础算法库之一,其性能直接影响调用数学库的高性能数值计算应用的效率.面向国际上首台100P神威·太湖之光异构超级计算机,根据实际研究需要选取PETSc中两个典型用例ex5(单节点线性求解方程组问题)和ex19(多节点求解2D驱动腔问题)进行实验探究.对运行结果分析找到的热点函数主要为PETSc函数库中7个核心函数,针对这7个核心函数(主要包括向量运算与矩阵运算),提出和实现了其异构并行算法,并结合机器的异构体系结构提出了相应的性能优化方法.在超级计算机上的实验结果为:核心函数并行算法在4主核、256从核的单节点上加速比最大可达到16.4;多节点情况下,当输入规模为16 384时,8192个节点相对于256节点的加速比为32,且加速比随着异构处理器数目的增加接近线性增加,表明PETSc核心函数并行算法在神威·太湖之光超级计算机上具有良好的可扩展性. 展开更多
关键词 并行算法设计 PETSc数学库 可扩展性 神威·太湖之光
在线阅读 下载PDF
BCCAGCM模式在神威·太湖之光系统的优化 被引量:5
4
作者 魏敏 王彬 +5 位作者 何香 孙俊 姜小成 肖洒 张莉 徐金秀 《应用气象学报》 CSCD 北大核心 2019年第4期502-512,共11页
开展气象数值模式在神威·太湖之光系统的移植与优化,对研究模式与新型计算架构的适应性有重要意义。该文以BCCAGCM模式为研究对象,将其移植到神威·太湖之光全国产异构众核计算系统,进行性能分析,对模式动力框架和物理过程计... 开展气象数值模式在神威·太湖之光系统的移植与优化,对研究模式与新型计算架构的适应性有重要意义。该文以BCCAGCM模式为研究对象,将其移植到神威·太湖之光全国产异构众核计算系统,进行性能分析,对模式动力框架和物理过程计算结构进行调整,将计算核心段采用OpenACC技术进行众核加速优化,大量代码进行算法重构。结果表明:各核心段计算效率基本达到未优化的3倍左右,最高可达14倍左右,将各核心段集成,形成异构众核集成版本,可正确、稳定运行,计算误差合理。在不同并行规模,采用从核对模式整体计算进行加速效果比较稳定,基本保持在1.9倍,26000核并行规模动力试验并行效率约70%,其他试验约为57%。 展开更多
关键词 BCCAGCM 神威·太湖之光 异构计算 众核
在线阅读 下载PDF
全球涡分辨率并行海洋模式POP在神威蓝光上的移植和应用 被引量:6
5
作者 赵伟 雷晓燕 +2 位作者 陈德训 赵春 宋振亚 《计算机应用与软件》 CSCD 北大核心 2014年第5期42-45,共4页
基于中国自行研制的超大规模并行计算机神威蓝光平台,对海洋环流模式POP进行移植和进一步优化,并进行模式和机器的并行测试。测试结果表明:0.1度分辨率在5 000核以内达到了线性加速比,随着使用线程数目的增多,虽然加速比依然增加,但是... 基于中国自行研制的超大规模并行计算机神威蓝光平台,对海洋环流模式POP进行移植和进一步优化,并进行模式和机器的并行测试。测试结果表明:0.1度分辨率在5 000核以内达到了线性加速比,随着使用线程数目的增多,虽然加速比依然增加,但是加速效率在降低,当线程数目达到24 000的时候加速比出现降低,加速效率只有12.6%;0.05度分辨率可在12 000核以内达到了线性加速比,同样随着线程数目的增多加速在增多但加速效率在降低,当线程数目达到32 000的时候加速比出现降低,加速效率只有25.7%。经过优化后的海洋环流模式POP在神威蓝光并行计算机系统上具有良好的兼容性,并行效率较高,而且具有很强的可扩展性,可用来开展超大规模的并行计算。对测试结果的进一步分析发现,发展并行性良好的线性方程组求解方案、快速高效的计算网络协议等问题是未来发展高分辨率模式中需解决的问题。 展开更多
关键词 神威蓝光 海洋环流模式 加速比
在线阅读 下载PDF
基于神威太湖之光的NAMD软件的移植与优化 被引量:12
6
作者 姚文军 陈俊仕 +3 位作者 苏志超 余洋 廖陈志 安虹 《计算机工程与科学》 CSCD 北大核心 2017年第6期1022-1030,共9页
纳米级粒度分子动力学NAMD是基于Charm++并行编程模型的开源免费分子动力学模拟软件,能够在大规模并行计算机上快速模拟百万原子级别的大分子体系。太湖之光是中国自主研发的超级计算机,峰值性能为125.4Pflop/s,共有1 000多万个核心,整... 纳米级粒度分子动力学NAMD是基于Charm++并行编程模型的开源免费分子动力学模拟软件,能够在大规模并行计算机上快速模拟百万原子级别的大分子体系。太湖之光是中国自主研发的超级计算机,峰值性能为125.4Pflop/s,共有1 000多万个核心,整机Linpack效率不低于70%。NAMD在空间上对原子进行划分,在计算上对力进行划分,充分曝露出单步模拟的并行度,并通过CHARM++对负载平衡进行调控。针对NAMD进行模拟计算时的特点,移植并优化了NAMD的核心计算代码,让其能够更好地运行在超级计算机神威太湖之光上,优化后性能提高了近20倍,单个核组的性能较Intel XeonE5-2650v2提高3倍。扩展性方面目前至多可达到325万核的并行度,突破百万核大关。 展开更多
关键词 分子动力学模拟 神威超级计算机 异构多核处理器
在线阅读 下载PDF
HPLC法测定三五神威胶囊中蛇床子素的含量 被引量:4
7
作者 于欣 哈永红 +2 位作者 张莉 梁春华 沙英威 《中成药》 CAS CSCD 北大核心 2001年第12期924-925,共2页
关键词 含量测定 HPLC 三五神威胶囊 蛇床子素
在线阅读 下载PDF
神威丸的药理作用研究 被引量:3
8
作者 韩大庆 邸琳 程秀娟 《中成药》 CAS CSCD 北大核心 1992年第3期31-32,共2页
神威丸由鹿茸、鹿鞭、人参、五味子等十几种中药组成的胶囊剂,具有养心益气补肾健脑作用。以3.0、1.5、0.75g/kg剂量灌胃给药,能促进雄性小鼠的性腺或副性腺器官的生长发育;增加肝中蛋白质及核酸含量;降低血浆中过氧化脂质(LPO)含量;对... 神威丸由鹿茸、鹿鞭、人参、五味子等十几种中药组成的胶囊剂,具有养心益气补肾健脑作用。以3.0、1.5、0.75g/kg剂量灌胃给药,能促进雄性小鼠的性腺或副性腺器官的生长发育;增加肝中蛋白质及核酸含量;降低血浆中过氧化脂质(LPO)含量;对抗樟柳碱引起的记忆获得障碍;增加小鼠自主活动以及具有抗疲劳,抗缺氧能力。 展开更多
关键词 神威 药理学
在线阅读 下载PDF
神威3000A高可用海量存储系统 被引量:2
9
作者 郑翔 余婷 《计算机工程与科学》 CSCD 北大核心 2009年第A01期40-41,45,共3页
神威3000A海量存储系统采用基于文件分条的网络数据冗余方法,支持网络RAID1和RAID5冗余模式,能够对存储服务器及盘阵故障在线容错,是一个高可用的分布式存储系统。
关键词 神威3000A 容错 高可用 数据冗余
在线阅读 下载PDF
长城抗战与二十九军大刀神威再审视 被引量:3
10
作者 侯杰 徐开阳 《河北学刊》 CSSCI 北大核心 2020年第4期65-74,共10页
1933年3月12日,在长城抗战喜峰口战役中,国民革命军第29军500名大刀队员夜袭敌营获得成功,鼓舞了民族士气,凝聚了国人构建民族国家与民族主义的政治诉求与情感需求,以及对民族危亡的焦虑,夹杂着对传统刀文化渴求,对男性气概的性别想象... 1933年3月12日,在长城抗战喜峰口战役中,国民革命军第29军500名大刀队员夜袭敌营获得成功,鼓舞了民族士气,凝聚了国人构建民族国家与民族主义的政治诉求与情感需求,以及对民族危亡的焦虑,夹杂着对传统刀文化渴求,对男性气概的性别想象。大刀神威的形成离不开鼓舞士气的政治需要和媒体塑造等因素的共同作用,反映了近代以来西方现代知识体系的冲击以及反抗日军侵略的背景下,国人处于对传统的眷恋与对民族独立和现代性的追求之中,努力尝试重建民族自信的强烈愿望与要求。正是因为现实困惑与美好愿景并存的境域,促使大刀神威一经形成便迅速传播,同时也引发了某些质疑大刀神威的声音。 展开更多
关键词 长城抗战 二十九军 大刀神威 男性气质 媒体塑造
在线阅读 下载PDF
并行技术在神威集合数值天气预报系统中的应用 被引量:3
11
作者 张眙 《应用气象学报》 CSCD 北大核心 2002年第2期232-238,共7页
文章讨论了基于神威巨型机的并行化集合数值天气预报系统中实现的各种并行算法 ,性能分析结果表明并行方案最大限度的利用了神威机的处理器资源 ,设计的并行算法效率较高 ,满足了实时业务运行的时效要求。
关键词 行处理 集合数值天气预报 归约 同步 神威巨型机
在线阅读 下载PDF
“神威·太湖之光”上Tend_lin并行优化 被引量:4
12
作者 傅游 王坦 +1 位作者 郭强 高希然 《山东科技大学学报(自然科学版)》 CAS 北大核心 2019年第2期90-99,共10页
大气环流模式是中科院地球系统模式中最为复杂的模式,在当前主流的众核异构平台上开展大气环流模式的众核并行化是高性能计算的热点研究问题。针对AGCM4.0热点程序动力框架的适应过程Tend_lin,利用神威OpenACC编程模型在"神威·... 大气环流模式是中科院地球系统模式中最为复杂的模式,在当前主流的众核异构平台上开展大气环流模式的众核并行化是高性能计算的热点研究问题。针对AGCM4.0热点程序动力框架的适应过程Tend_lin,利用神威OpenACC编程模型在"神威·太湖之光"高性能计算平台上实现并行化,并从循环分布、循环分块、数据传输的表达、函数调用的从核化等方面提升应用性能。详细讨论了不同场景下的数据传输表达,对比测试了不同分块尺寸对程序性能的影响。相比主核串行,两种测试规模下,Tend_lin应用的单核组多线程并行均获得6倍以上的加速;且随着应用分辨率的扩大,众核处理器的性能得到更好发挥,在C规模下,多进程获得了69倍的全应用加速。 展开更多
关键词 神威·太湖之光 Tend_lin 神威OpenACC 众核并行 优化
在线阅读 下载PDF
神威机上集合数值天气预报系统功能概述
13
作者 张眙 王岫峰 伏圣信 《应用气象学报》 CSCD 北大核心 2002年第2期228-231,共4页
文章对自主研制的基于神威巨型机的并行化集合数值天气预报系统的研制背景、系统组成、主要技术特点和应用发展前景作了一简要介绍。
关键词 集合数值天气预报 并行算法 可视化实时监控 神威巨型机
在线阅读 下载PDF
神威机上集合数值天气预报系统中文件资料的管理
14
作者 张眙 《应用气象学报》 CSCD 北大核心 2002年第2期250-253,共4页
从文件资料的命名、存放与输入输出管理三个方面介绍了在神威集合数值天气预报系统中对大规模文件资料的管理实现。
关键词 神威 集合数值天气预报 文件资料管理 环绕访问 命名 存放
在线阅读 下载PDF
神威太湖之光加速计算在脑神经网络模拟中的应用 被引量:8
15
作者 栗学磊 朱效民 +1 位作者 魏彦杰 冯圣中 《计算机学报》 EI CSCD 北大核心 2020年第6期1024-1036,共13页
脑神经网络模拟是脑科学研究和理论验证的重要方法.为提高脑模拟速度,异构加速已开始应用于脑模拟.然而现有异构加速脑模拟软件均存在明显的访存性能和计算精度问题.为此,本文基于神威太湖之光研发了脑模拟软件SWsnn,确保了随机访存多... 脑神经网络模拟是脑科学研究和理论验证的重要方法.为提高脑模拟速度,异构加速已开始应用于脑模拟.然而现有异构加速脑模拟软件均存在明显的访存性能和计算精度问题.为此,本文基于神威太湖之光研发了脑模拟软件SWsnn,确保了随机访存多发生在高速缓存中.为避免主存访问的随机性,将频繁出现随机访存且数据量较小的神经元信息长时间停留在局部存储(LDM),同时将数据量很大的突触连接数据存储在主存,且尽可能连续访问主存.为避免可塑性导致的对突触连接的随机搜索,对脉冲时间依赖可塑性(STDP)算法采用需要前再更新的方法,以确保主存访问的连续性.为了提高脑模拟精度,设计环形缓冲和延迟传送联合应用方法,以支持高精度时间步长的脑模拟.在此基础上,对SWsnn进行向量化、访存隐藏等优化操作,计算性能进一步提高约50%.SWsnn对104神经元全连接网络实现了生物实时模拟,比同等规模浮点计算能力GPU上运行的CARLsim快10倍左右. 展开更多
关键词 脉冲神经网络(SNN) 脑模拟 SW26010 随机访存 环形缓冲 神威太湖之光
在线阅读 下载PDF
LQCD Dslash在神威·太湖之光上的研究分析与MPI实现 被引量:3
16
作者 张淼 周宇 +3 位作者 陈建海 何钦铭 徐顺 宫明 《计算机科学与探索》 CSCD 北大核心 2019年第10期1664-1676,共13页
“神威·太湖之光”是我国全自主研发的千万核超级计算机,目前已有很多大型应用程序在此先进架构上进行了移植优化。然而,高能物理领域的格点量子色动力学(LQCD)数值模拟软件在神威平台上尚未进行过移植优化,这引起了科学工作者们... “神威·太湖之光”是我国全自主研发的千万核超级计算机,目前已有很多大型应用程序在此先进架构上进行了移植优化。然而,高能物理领域的格点量子色动力学(LQCD)数值模拟软件在神威平台上尚未进行过移植优化,这引起了科学工作者们的关注。针对LQCD在神威平台上的移植优化问题展开研究。首先,论述了国内外对LQCD在不同硬件架构上进行并行优化的发展历程。其次,通过对其热点模块Dslash的重构,实现了在神威平台上的成功移植。再次,针对申威26010芯片异构众核的架构和并行模式,实现了从核阵列异构并行、从核本地设备存储器(LDM)与主存之间的直接存储访问(DMA)通讯、主核之间的消息传递接口(MPI)通讯及全局归约等操作。最后,经过实验测试,单核组优化程序与16核组优化程序相比单主核程序分别获得了165倍和25倍的加速比,并发现了一些重要的性能瓶颈问题,为进一步优化提升整体效率奠定重要基础。同时,对国产超算平台的推广使用具有积极意义。 展开更多
关键词 格点量子色动力学(LQCD) Dslash 消息传递接口(MPI) 神威·太湖之光 众核芯片
在线阅读 下载PDF
基于神威太湖之光的AMBER软件移植与优化 被引量:5
17
作者 彭龙 陈俊仕 安虹 《计算机工程》 CAS CSCD 北大核心 2020年第12期12-20,共9页
AMBER是一款主流的分子动力学模拟软件,用于研究分子体系内的微观运动状态。为利用神威太湖之光的海量计算资源加速AMBER软件模拟分子体系的运动过程,将AMBER软件移植到SW26010处理器的主核上建立主从加速模型,实现AMBER软件的从核并行... AMBER是一款主流的分子动力学模拟软件,用于研究分子体系内的微观运动状态。为利用神威太湖之光的海量计算资源加速AMBER软件模拟分子体系的运动过程,将AMBER软件移植到SW26010处理器的主核上建立主从加速模型,实现AMBER软件的从核并行化设计。在从核并行化的基础上提出主从异步流水化方案,利用SW26010处理器从核的局部数据缓存和直接内存存取通道技术,解决从核访存速度过低及并行访存带宽受限的问题,并通过SIMD指令将部分从核代码向量化,进一步提升AMBER软件在神威太湖之光平台上的计算性能。测试结果表明,AMBER热点函数的计算性能较优化前约提升15倍,单核组的整体性能较Intel Xeon Platinum 8163约提升4.6倍。 展开更多
关键词 分子动力学模拟 神威太湖之光 异构众核处理器 并行优化 异步流水化
在线阅读 下载PDF
面向神威高性能多核处理器的并行编译优化方法 被引量:3
18
作者 周雍浩 徐金龙 +2 位作者 李斌 钱宏 聂凯 《计算机工程》 CAS CSCD 北大核心 2022年第9期130-138,共9页
在神威高性能多核服务器上,自动并行化编译系统为识别和申明程序中的并行性,产生的OpenMP程序没有经过充分的优化,其采用简单的fork-join模型,存在大量的并行循环嵌套,导致运行效率低。为提升自动并行化编译系统产生的OpenMP程序的运行... 在神威高性能多核服务器上,自动并行化编译系统为识别和申明程序中的并行性,产生的OpenMP程序没有经过充分的优化,其采用简单的fork-join模型,存在大量的并行循环嵌套,导致运行效率低。为提升自动并行化编译系统产生的OpenMP程序的运行效率,提出一种并行域重构优化技术。并行域重构技术通过合并程序中的并行域和扩展嵌套循环中的并行域范围,减少OpenMP程序的并行域数目,降低线程组频繁创建和合并等控制开销,将简单fork-join模型的OpenMP程序转换为性能更为高效的单程序多数据模型的OpenMP程序。实验结果表明,在新一代神威高性能多核服务器SW1621平台上,并行域重构技术在NPB3.3-OMP测试集和SPEC OMP2012测试集上的运行效率分别提高了10.77%和7.94%的,可有效提升自动并行化编译系统OpenMP程序的执行效率。 展开更多
关键词 神威高性能多核处理器 OpenMP编程 并行域重构 fork-join模型 单程序多数据模型
在线阅读 下载PDF
基于神威太湖之光的宇宙学多体模拟 被引量:2
19
作者 刘旭 张曦煌 +2 位作者 刘钊 吕小敬 朱光辉 《计算机工程》 CAS CSCD 北大核心 2020年第9期35-43,共9页
宇宙学模拟对于科学家研究非线性结构的形成以及暗物质、暗能量等假想形式具有重要作用,而高精度宇宙学模拟包含数千亿甚至数万亿个粒子,因此超级计算机强大的计算能力使其成为解决宇宙学模拟问题的理想平台。为在国产神威太湖之光超级... 宇宙学模拟对于科学家研究非线性结构的形成以及暗物质、暗能量等假想形式具有重要作用,而高精度宇宙学模拟包含数千亿甚至数万亿个粒子,因此超级计算机强大的计算能力使其成为解决宇宙学模拟问题的理想平台。为在国产神威太湖之光超级计算机上实现宇宙学N体模拟,分析PHoToNs软件中使用的粒子网格算法和快速多极子方法,并结合众核处理器架构提出多层次分解和负载均衡方案、执行树遍历和引力计算的流水线策略以及向量化引力计算算法等多种性能优化技术,从而实现能充分发挥神威太湖之光架构优势的N体模拟软件SwPHoToNs。实验结果表明,在神威太湖之光超级计算系统的5200000个计算核心上进行包含6400亿个粒子的宇宙学模拟,SwPHoToNs获得了29.44 PFLOPS的持续计算速度,且并行和计算效率分别为84.6%和48.3%。 展开更多
关键词 神威太湖之光 宇宙学 多体模拟 并行优化 可扩展性
在线阅读 下载PDF
PME算法在神威太湖之光上的移植和优化 被引量:2
20
作者 林增 武铮 +1 位作者 安虹 陈俊仕 《小型微型计算机系统》 CSCD 北大核心 2021年第1期9-14,共6页
分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW2601... 分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW26010异构众核处理器,峰值性能达到125.4PFlops.目前太湖之光上已有对GROM ACS短程力优化的相关研究,但对于PM E(Particle Mesh Ewald)算法未有探索性工作.本文基于申威平台对PME算法展开研究,针对随机访存模式、网格点写写冲突等挑战,提出了基于局部网格序的分块策略、数据重组策略、非线性函数近似等方法进行优化.最终优化后的结果相较于初始版本性能提升了8.85倍,相较于Intel CPU版本提升了1.2倍.本文采用的优化技术也可以为神威太湖之光上其他分子动力学模拟软件和涉及散乱数据插值程序的优化提供借鉴. 展开更多
关键词 PME GROMACS 神威太湖之光 异构众核处理器
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部