期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
计算与通信重叠和并行I/O在粒子模拟中的应用 被引量:2
1
作者 颜小洋 张伟文 +1 位作者 布社辉 邓辉舫 《计算机应用》 CSCD 北大核心 2011年第A01期33-36,39,共5页
三维电磁场粒子模拟是研究空间众多微观物理现象的一项先进数值模拟方法。虽然应用MPI和OpenMP混合编程技术实现了程序并行,但阻塞通信的通信同步和应用网络文件系统集中式数据I/O的数据传输降低了程序效率。介绍引入非阻塞通信法,最初... 三维电磁场粒子模拟是研究空间众多微观物理现象的一项先进数值模拟方法。虽然应用MPI和OpenMP混合编程技术实现了程序并行,但阻塞通信的通信同步和应用网络文件系统集中式数据I/O的数据传输降低了程序效率。介绍引入非阻塞通信法,最初计算需要通信部分,在其他计算继续时,进行非阻塞通信,最后接收全部数据,从而实现计算和通信重叠,减少通信等待时间;在分布式存储系统中,各节点同时把本节点数据输入输出到本地单独文件中,大幅度减少数据并行I/O时间,随着数据量和CPU数的增加,改善更加明显,从而提高程序性能。 展开更多
关键词 粒子模拟 并行优化 非阻塞通信 计算与通信重叠 分布式存储并行I/O
在线阅读 下载PDF
一种深度神经网络多步延迟参数更新并行优化方法
2
作者 巨涛 康贺廷 +2 位作者 刘帅 丁肖健 王龙翔 《哈尔滨工业大学学报》 北大核心 2025年第9期95-108,共14页
为解决深度神经网络(deep neural network,DNN)分布式数据并行训练中因聚合节点梯度进行全局梯度参数更新而导致的高通信开销问题,提出一种DNN多步延迟参数更新并行优化方法。首先,设计了一种自适应多步更新间隔选择策略,通过多次本地迭... 为解决深度神经网络(deep neural network,DNN)分布式数据并行训练中因聚合节点梯度进行全局梯度参数更新而导致的高通信开销问题,提出一种DNN多步延迟参数更新并行优化方法。首先,设计了一种自适应多步更新间隔选择策略,通过多次本地迭代,再聚合节点梯度,降低频繁通信造成的额外开销;同时,提出了一种参数修正策略,防止本地模型在多步本地更新后偏离全局模型,从而保证训练精度;其次,在聚合梯度时,将梯度张量切分为子张量,在梯度聚合过程中实现通信与计算的最大化重叠,进一步加速模型训练;最后,在CIFAR-100和ImageNet-mini数据集上,将本文方法与SSGD、Local SGD训练方法进行对比。实验结果表明,本文方法可以在保证模型训练精度的基础上,显著减少因参数更新引入的通信开销,可以实现通信与计算的最大化重叠,充分利用计算资源提升并行训练速度。研究结果可为降低DNN分布式训练过程中的通信开销提供新的方案。 展开更多
关键词 深度神经网络 数据并行 通信调度 参数更新 计算与通信重叠
在线阅读 下载PDF
基于软硬件的协同支持在众核上对1-DFFT算法的优化研究 被引量:9
3
作者 周永彬 张军超 +1 位作者 张帅 张浩 《计算机学报》 EI CSCD 北大核心 2008年第11期2005-2014,共10页
随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算... 随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算法和体系结构设计者共同面临的挑战.文中在众核处理器Godson-T平台上对1-D FFT算法进行了优化和评估,在节省几乎三分之一L2 Cache存储开销的情况下,通过隐藏矩阵转置,计算与通信重叠等优化策略,使得优化后的1-D FFT算法达到3倍以上的性能提升.并通过片上网络拥塞状况的实验分析,发现对于像FFT这样访存带宽受限的应用,增加L2 Cache的访问带宽,可以缓解因为爆发式读写带给片上网络和L2 Cache的压力,进一步提高程序的性能和扩展性. 展开更多
关键词 众核 Godson-T 快速傅立叶变换 计算与通信重叠
在线阅读 下载PDF
全球(z)双三次数值模式并行算法设计与实现
4
作者 赵军 吴建平 +1 位作者 宋君强 张磊 《计算机应用研究》 CSCD 北大核心 2013年第5期1337-1339,共3页
针对双三次数值天气预报模式进行了并行算法研究。采用一维区域分解算法,借鉴块棋盘划分矩阵转置算法,设计和实现了数据转置通信算法,并采取计算与通信重叠技术减小通信时间对并行效率的影响,最终实现了双三次数值天气预报模式的并行算... 针对双三次数值天气预报模式进行了并行算法研究。采用一维区域分解算法,借鉴块棋盘划分矩阵转置算法,设计和实现了数据转置通信算法,并采取计算与通信重叠技术减小通信时间对并行效率的影响,最终实现了双三次数值天气预报模式的并行算法,并在机群系统上进行了并行性能测试评估。结果表明,实现的双三次数值预报模式并行算法的并行效率较高,设计实现的数据转置通信算法、计算与通信重叠技术取得了较好的效果。 展开更多
关键词 双三次数值模式 并行算法 数据转置通信算法 计算与通信重叠
在线阅读 下载PDF
大规模海洋数据同化的并行优化 被引量:4
5
作者 蔡迪 洪学海 +1 位作者 肖俊敏 谭光明 《计算机研究与发展》 EI CSCD 北大核心 2023年第5期1177-1190,共14页
海洋数据同化是一种同时利用海洋观测资料和海洋数值模式对海洋数据进行修正的有效方法,经过处理的海洋数据更加接近海洋的真实情况.在高分辨率下,基于中国科学院大气物理研究所(Institute of Atmospheric Physics,Chinese Academy of S... 海洋数据同化是一种同时利用海洋观测资料和海洋数值模式对海洋数据进行修正的有效方法,经过处理的海洋数据更加接近海洋的真实情况.在高分辨率下,基于中国科学院大气物理研究所(Institute of Atmospheric Physics,Chinese Academy of Sciences,IAP)和大气科学和地球流体力学数值模拟国家重点实验室(State Key Laboratory Modelling for Atmospheric Sciences and Geophysical Fluid Dynamics,LASG)发展的LASG/IAP气候系统海洋模式(LASG/IAP climate ocean model,LICOM)的同化并行程序往往涉及大量的文件读取、通信和计算,以往的研究虽然对这些方面进行了优化,但是由于优化只是停留在上层算法层面,没有考虑底层的文件系统以及超算集群的架构,因此优化的效果不太明显.针对以往研究存在的问题,进一步将海洋数据同化的数据特性、计算特性与所使用的超算平台的架构特性相结合,在此基础上结合时间局部性和空间局部性,提出了基于计算拓扑图的负载均衡策略、基于Lustre文件存储架构和超算集群特性的并行优化策略,以及计算、读取通信、写回3层重叠策略.最后,使用高分辨率数据集,在天河2号超算集群上对所提算法进行了测试.相比于现有算法,所提的算法在4 000核下对总体同化性能上提升了18倍.另外,还在曙光7 000超算集群上开展了测试.在4 000块DCU加速卡上,相比于已有算法,所提算法提升总体计算性能8倍左右. 展开更多
关键词 数据同化 负载均衡 I/O优化 并行优化 计算与通信重叠
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部