期刊文献+
共找到139篇文章
< 1 2 7 >
每页显示 20 50 100
申威26010众核处理器上Winograd卷积算法的研究与优化 被引量:2
1
作者 武铮 金旭 安虹 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期955-972,共18页
卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处... 卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法.该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算.整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行.通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销.同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案.最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍.同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能.其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%. 展开更多
关键词 深度学习 Winograd卷积 高性能计算 并行算法 申威处理器
在线阅读 下载PDF
Hadoop平台的性能优化研究 被引量:51
2
作者 栾亚建 黄翀民 +1 位作者 龚高晟 赵铁柱 《计算机工程》 CAS CSCD 北大核心 2010年第14期262-263,266,共3页
随着基于MapReduce模型的应用程序越来越多,Hadoop性能取决于应用程序。针对上述特性,从应用着手剖析Hadoop存在的局限和不足,提出解决方案,利用作业和任务的多重并发平衡磁盘和网络带宽,减小瓶颈出现的可能性,提高系统性能。
关键词 分布式计算 存储 并发i/o 性能优化
在线阅读 下载PDF
高性能计算机I/O技术PCI Express分析 被引量:14
3
作者 徐君明 裴先登 +1 位作者 王海卫 黄浩 《计算机工程》 CAS CSCD 北大核心 2004年第12期6-7,151,共3页
分析了PCI/PCI-X架构I/O瓶颈,然后深入阐述第三代I/O技术PCIExpress的特性及其体系结构,最后指出PCIExpress作为InfiniBandTM的重要补充必将在未来计算机I/O体系结构中扮演举足轻重的角色。
关键词 PCI EXPRESS PCI/PCI-X 高性能计算机i/o INFINIBAND 总线技术
在线阅读 下载PDF
高性能计算中的并行I/O技术 被引量:2
4
作者 李东升 卢凯 +1 位作者 李铭 卢锡城 《计算机科学》 CSCD 北大核心 2002年第5期1-3,共3页
1 引言 高性能计算能力已经日益成为一个国家经济、科技与国防实力的重要组成部分.由于科学工程计算和大规模商业事务处理需求的牵引,高性能计算中对I/O处理能力的要求简直是无止境的.大规模多媒体应用要求大容量快速存储系统支持,多用... 1 引言 高性能计算能力已经日益成为一个国家经济、科技与国防实力的重要组成部分.由于科学工程计算和大规模商业事务处理需求的牵引,高性能计算中对I/O处理能力的要求简直是无止境的.大规模多媒体应用要求大容量快速存储系统支持,多用户事务处理环境要求快速I/O支持实时访同,而一些重大挑战性科学计算课题更是追求计算机系统具有3T性能(即要求能提供1 Teraflops计算能力、1 Terabyte主存容量和1 Terabyte/s I/O带宽). 展开更多
关键词 高性能计算 并行i/o技术 并行计算机 体系结构
在线阅读 下载PDF
并行I/O技术研究 被引量:8
5
作者 刘敏 王意洁 《计算机应用研究》 CSCD 北大核心 2003年第8期29-31,共3页
从分析提高I/O性能的途径开始,对在分布主存的高性能计算机中利用存储系统并行性来完成数据访问的并行文件系统所涉及到的问题进行了分析和探讨,最后介绍了几个著名的并行文件系统。
关键词 并行i/o 并行文件系统 高性能计算
在线阅读 下载PDF
科学计算双路并行I/O优化方法 被引量:2
6
作者 曹立强 莫则尧 +2 位作者 沈卫超 夏芳 陈军 《计算机学报》 EI CSCD 北大核心 2015年第5期1035-1043,共9页
科学计算数据集由数据和元数据组成.一般条件下,数据的尺寸较大,元数据尺寸较小.传统的高性能计算机并行文件系统可以高效率地读写大块连续数据,但是无法高效率地读写大量较小块的元数据.一旦大块数据和小块元数据两类读写特征混杂在一... 科学计算数据集由数据和元数据组成.一般条件下,数据的尺寸较大,元数据尺寸较小.传统的高性能计算机并行文件系统可以高效率地读写大块连续数据,但是无法高效率地读写大量较小块的元数据.一旦大块数据和小块元数据两类读写特征混杂在一起,元数据将较严重地干扰并行I/O,造成性能的下降.为此,文中提出数据与元数据分治的双路并行I/O方法.该方法在高层I/O库中建立内存文件系统与并行文件系统两级存储,在存储资源之间并行迁移科学计算元数据.一方面降低较频繁读写元数据的I/O延迟,另一方面改变科学计算数据的存储特征与存储模式,从而提高科学计算应用、尤其是数据分析与可视化等读入密集型应用的I/O效率.测试表明,双路并行I/O方法可提高写性能8%~13%,提高读性能89%到1.01倍. 展开更多
关键词 并行i/o 高层i/o 性能优化 数据格式 双路并行i/o
在线阅读 下载PDF
求解Boltzmann模型方程高性能并行算法在航天跨流域空气动力学应用研究 被引量:9
7
作者 李志辉 蒋新宇 +2 位作者 吴俊林 徐金秀 白智勇 《计算机学报》 EI CSCD 北大核心 2016年第9期1801-1811,共11页
对Boltzmann方程碰撞积分物理分析与可计算建模,得到适于描述航天再入从外层空间到近地面各流域统一Boltzmann模型方程,提出求解Boltzmann模型方程统一算法高性能并行计算数学模型.发展离散速度空间区域分解大规模并行计算技术,分析统... 对Boltzmann方程碰撞积分物理分析与可计算建模,得到适于描述航天再入从外层空间到近地面各流域统一Boltzmann模型方程,提出求解Boltzmann模型方程统一算法高性能并行计算数学模型.发展离散速度空间区域分解大规模并行计算技术,分析统一算法变量依赖关系,建立可扩展并行计算方案;研究数据并行分布与并行执行特征,开展大规模并行化程序设计,并在小、中、大规模256-512、4096-20 625CPU及异构计算机500-45 000、3125-112 500进程并行算法测试,建立稳定运行于国产千万亿次超级计算机高性能可扩展大规模并行算法与航天器再入跨流域复杂气动力/热绕流问题并行化软件应用平台.通过对稀薄流到连续流再入飞行不同高度可回收返回式卫星飞行器、近空间大尺度机动飞行器跨流域绕流环境不同粒度高性能计算与验证,揭示大尺度复杂结构飞行器跨流区飞行稀薄过渡流区热流系数比连续、近连续流区热流系数随物面变化剧烈得多、大得多,发现该类飞行器后端面热流最大值发生在水平舵外侧拐角处,达驻点热流六分之一量级,提供了一个可靠求解航天器再入各流域高超声速绕流问题统一算法高性能并行计算应用研究方向. 展开更多
关键词 航天器 跨流域空气动力学 BoLTZMANN模型方程 统一算法 区域分解 高性能并行计算
在线阅读 下载PDF
面向算力网络的跨集群数据迁移系统的设计和实现
8
作者 李俊哲 付振新 +3 位作者 杨宏辉 马银萍 李若淼 樊春 《计算机工程与科学》 北大核心 2025年第5期775-786,共12页
在算力网络的建设中,如何在不同地域算力中心的集群之间进行高效可靠的数据迁移,是影响算力网络建设成功与否的关键研究课题。鉴于此,设计并实现了基于RSYNC的高性能传输软件SCOW-SYNC。首先,SCOW-SYNC采用队列和线程池架构,对传统的RS... 在算力网络的建设中,如何在不同地域算力中心的集群之间进行高效可靠的数据迁移,是影响算力网络建设成功与否的关键研究课题。鉴于此,设计并实现了基于RSYNC的高性能传输软件SCOW-SYNC。首先,SCOW-SYNC采用队列和线程池架构,对传统的RSYNC进行了优化,通过并行建立多个TCP连接和并行传输,提高了带宽利用率。此外,SCOW-SYNC还支持大文件自动切分、动态压缩、后台运行、进度实时查询和SSH连接池管理等功能。经测试,SCOW-SYNC相比RSYNC能够达到125%~130%的加速比。其次,为了提高传输的安全性,面向算力中心提出了一套可靠的跨集群传输系统架构,数据传输仅在“传输节点”之间发起,使用“传输密钥”进行加密,该密钥由“管理节点”负责动态检查、生成和分发。最后,将SCOW-SYNC集成到高性能计算门户和管理平台SCOW中,实现了SCOW的跨集群传输模块,使得用户可以通过浏览器在不同集群之间进行高性能的数据迁移,并通过容器化技术部署到了北京大学跨集群环境中,提高了生产效率。 展开更多
关键词 高性能计算系统软件 算力网络 并行传输 RSYNC 集群安全
在线阅读 下载PDF
一种基于NVMeoF存储池的分域共享并发存储架构 被引量:5
9
作者 李琼 宋振龙 +1 位作者 袁远 谢徐超 《计算机工程与科学》 CSCD 北大核心 2020年第10期1711-1719,共9页
E级计算和大数据时代,为了充分利用超级计算机系统的并行计算能力,许多大数据应用程序在高性能计算HPC系统上运行,超级计算机的I/O模式更趋复杂,I/O瓶颈问题日益严峻。当前基于闪存的存储阵列或存储服务器已逐步应用在高性能计算机的并... E级计算和大数据时代,为了充分利用超级计算机系统的并行计算能力,许多大数据应用程序在高性能计算HPC系统上运行,超级计算机的I/O模式更趋复杂,I/O瓶颈问题日益严峻。当前基于闪存的存储阵列或存储服务器已逐步应用在高性能计算机的并行存储系统中,但传统存储体系结构、I/O协议软件栈和存储网络的较高延迟使得新型存储介质不能发挥性能优势,存储系统依然存在I/O访问延迟高、并发I/O吞吐率和瞬发I/O(Burst I/O)带宽受限的问题。针对上述问题和技术挑战,提出了一种基于非易失存储介质NVM的分域共享并发存储架构,设计了一种支持NVMeoF网络存储的Burst I/O缓冲存储池NV-BSP,实现了虚拟化存储池资源管理、基于天河高速互连网的NVMeoF网络存储通信等关键技术,具有横向和纵向扩展能力,可有效支持面向特定计算任务的Burst I/O加速和低延迟远程存储访问。基于HPC和大数据应用程序混合运行性能分析模型,提出了一种混合应用程序QoS控制策略。小规模验证系统上的性能测评结果表明:NV-BSP存储池的读写性能可随并发I/O处理线程数良好扩展;与Linux操作系统自带的MD-RAID相比具有明显的性能优势;相比本地I/O访问,基于天河互连网络的NVMeoF远程存储读写延迟仅增加了59.25μs和54.03μs。通过计算与存储分离,NV-BSP在提供堪比本地存储池性能的同时,提高了系统存储资源动态调配的灵活性和系统可靠性。 展开更多
关键词 存储系统结构 Burst Buffer NVMe SSD NVMeoF 高性能计算 大数据
在线阅读 下载PDF
映天湖:晶圆级通用异构多芯粒千万亿次计算机
10
作者 董文阔 殷春锁 +7 位作者 张志锰 王鹏超 沙江 王梦雅 朱旻琦 刘宏伟 刘宇航 郝沁汾 《计算机研究与发展》 北大核心 2025年第6期1492-1512,共21页
晶圆级计算机通过先进封装技术集成多芯粒,突破传统芯片面积限制实现算力扩展,但现存方案因领域专用化设计难以满足通用计算需求.面向高性能计算与智能计算场景的负载特征,提出一种新型通用化晶圆级系统架构——映天湖.首先通过解耦式... 晶圆级计算机通过先进封装技术集成多芯粒,突破传统芯片面积限制实现算力扩展,但现存方案因领域专用化设计难以满足通用计算需求.面向高性能计算与智能计算场景的负载特征,提出一种新型通用化晶圆级系统架构——映天湖.首先通过解耦式计算模组-互连基板架构设计,结合标准化I/O接口支持多种计算模组;其次构建可重构晶上网络,采用动态拓扑重构技术适配不同业务流量模式;继而开发拓扑无关的容错控制,保障计算单元失效时的服务持续性.实验结果表明,所设计的可重构晶上网络可实现秒级拓扑切换时延.基于TSMC28nm工艺成功流片验证的16个计算模组的原型系统,在高性能线性代数计算任务中展现了约1.45倍的吞吐量提升,在深度学习推理任务中则展现约1.78倍的时延性能提升,单晶圆可实现千万亿次性能,证实该架构在实现晶圆级系统通用化方面的技术突破,为下一代异构计算平台提供了可扩展的硬件基础架构. 展开更多
关键词 晶圆级计算机 高性能计算 智能计算 标准化i/o设计 可重构晶上网络
在线阅读 下载PDF
基于作业路径的存储系统作业感知条带优化方法
11
作者 鲜港 杨文祥 +2 位作者 张晓蓉 喻杰 田永强 《计算机工程》 北大核心 2025年第3期34-44,共11页
为解决超级计算机I/O效率不高、用户无法充分利用存储系统I/O能力的问题,研究生产型超级计算机对象存储目标(OST)上的工作负载,分析高性能计算作业的I/O模式和整个系统中作业的I/O分布情况,探索提升I/O效率的方法。研究结果显示:在传统... 为解决超级计算机I/O效率不高、用户无法充分利用存储系统I/O能力的问题,研究生产型超级计算机对象存储目标(OST)上的工作负载,分析高性能计算作业的I/O模式和整个系统中作业的I/O分布情况,探索提升I/O效率的方法。研究结果显示:在传统非条带化设置下,OST上的瞬时负载严重不平衡,导致无法调用未充分利用的OST进行I/O请求;不同作业的I/O模式对OST的使用情况也有所不同,因此可以根据作业的I/O模式适当调整文件条带布局,调动未充分利用的OST来提升I/O性能。提出一种作业感知条带优化方法,包括静态和动态文件条带化。静态文件条带化将用户的作业均进行条带优化,而动态文件条带化利用作业名和作业路径的聚类方式提取作业之间的相似性,预测用户部分可条带优化的作业,并在作业完成后还原条带配置以减小条带设置错误的负面影响。实验结果表明,作业感知文件条带化能够增加作业使用的OST数量,有效提升作业的并行I/O性能,同时不会对系统稳定性产生显著影响。 展开更多
关键词 作业感知 文件条带化 高性能计算 并行i/o 存储系统
在线阅读 下载PDF
基于Python的大规模高性能LBM多相流模拟 被引量:7
12
作者 徐传福 王曦 +2 位作者 刘舒 陈世钊 林玉 《计算机科学》 CSCD 北大核心 2020年第1期17-23,共7页
Python由于具有丰富的第三方库、开发高效等优点,已成为数据科学、智能科学等应用领域最流行的编程语言之一。Python强调了对科学与工程计算的支持,目前已积累了丰富的科学与工程计算库和工具。例如,SciPy和NumPy等数学库提供了高效的... Python由于具有丰富的第三方库、开发高效等优点,已成为数据科学、智能科学等应用领域最流行的编程语言之一。Python强调了对科学与工程计算的支持,目前已积累了丰富的科学与工程计算库和工具。例如,SciPy和NumPy等数学库提供了高效的多维数组操作及丰富的数值计算功能。以往,Python主要作为脚本语言,起到连接数值模拟前处理、求解器和后处理的“胶水”功能,以提升数值模拟的自动化处理水平。近年来,国外已有学者尝试采用Python代码实现求解计算功能,并在高性能计算机上开展了超大规模并行计算研究,取得了不错的效果。由于自身特点,高效大规模Python数值模拟的实现和性能优化与传统基于C/C++和Fortran的数值模拟等具有很大的不同。文中实现了国际上首个完全基于Python的大规模并行三维格子玻尔兹曼多相流模拟代码PyLBMFlow,探索了Python大规模高性能计算和性能优化方法。首先,利用NumPy多维数组和通用函数设计实现了LBM流场数据结构和典型计算内核,通过一系列性能优化并对LBM边界处理算法进行重构,大幅提升了Python的计算效率,相对于基准实现,优化后的串行性能提升了两个量级。在此基础上,采用三维流场区域分解方法,基于mpi4py和Cython实现了MPI+OpenMP混合并行;在天河二号超级计算机上成功模拟了基于D3Q19离散方法和Shan-Chen BGK碰撞模型的气液两相流,算例规模达百亿网格,并行规模达1024个结点,并行效率超过90%。 展开更多
关键词 格子玻尔兹曼方法 并行计算 性能优化 高性能Python 多相流模拟
在线阅读 下载PDF
面向天河新一代超算的大规模平行城市交通仿真
13
作者 何贤浩 胡逸騉 +5 位作者 李毅晨 严宇威 吕宜生 廖清 李勇 李肯立 《软件学报》 北大核心 2025年第8期3693-3708,共16页
随着城市规模不断增加,城市交通系统面临着越来越多的挑战,如交通拥堵、交通安全等问题.交通仿真是一种解决城市交通问题的方法,其采用虚实结合的计算技术,以处理实时交通数据、优化城市交通效率,是平行城市理论在智能交通的重要实现方... 随着城市规模不断增加,城市交通系统面临着越来越多的挑战,如交通拥堵、交通安全等问题.交通仿真是一种解决城市交通问题的方法,其采用虚实结合的计算技术,以处理实时交通数据、优化城市交通效率,是平行城市理论在智能交通的重要实现方法.然而,传统的计算系统在运行大规模城市交通仿真中会出现计算资源不足、仿真延迟过长等问题.针对上述问题,基于平行城市理论,结合天河新一代超算的异构体系结构,提出一种平行城市交通仿真并行算法.该算法能够精确模拟车辆、道路、交通信号等交通要素,并采取路网划分、车辆并行化行驶、信号灯并行化控制等方法,以实现高性能交通仿真.该算法运行在16节点、超过2.5万核心的天河新一代超算平台,并针对北京市五环内240万辆车、7797个路口和17万条车道的真实交通场景进行仿真.相比于传统的单节点仿真,每步仿真时间从2.21 s减少到0.37 s,取得近6倍的加速效果,在国产超算异构平台上成功实现百万车辆规模的城市交通仿真. 展开更多
关键词 平行城市 数字孪生 高性能计算 交通仿真
在线阅读 下载PDF
并行科学计算应用中采样数据的聚集I/O 被引量:1
14
作者 曹立强 罗红兵 《计算机工程与科学》 CSCD 北大核心 2018年第9期1534-1539,共6页
采样数据的并行I/O制约一些并行应用的运行效率。设计、实现了采样数据的聚集并行I/O方法。该方法在客户端部署采样数据缓存,然后合并数据到输出进程,再存储到文件。为了保障并行程序长时间运行过程中采样数据的存储一致性,该方法在JAS... 采样数据的并行I/O制约一些并行应用的运行效率。设计、实现了采样数据的聚集并行I/O方法。该方法在客户端部署采样数据缓存,然后合并数据到输出进程,再存储到文件。为了保障并行程序长时间运行过程中采样数据的存储一致性,该方法在JASMIN框架中监测应用程序的运行状态,当并行程序发生负载平衡或者重启动时刷新或者恢复数据。I/O过程中,进一步使用HDF5的分块I/O提高列存储数据的读写效率。测试表明,新方法不仅具有较好的可扩展性,还能在具有负载平衡与重启动等复杂功能的并行应用中提高采样数据的并行I/O效率7.5倍以上。 展开更多
关键词 科学计算 采样数据 并行i/o 性能优化 聚合缓存
在线阅读 下载PDF
HPC海量存储系统Pass-Through访问策略研究 被引量:2
15
作者 朱平 《计算机研究与发展》 EI CSCD 北大核心 2013年第8期1667-1673,共7页
为了解决海量信息处理中实时访问中的"I/O墙"的问题,提高海量信息分布式存储系统的性能,提出了一种基于高性能计算(high performance computing,HPC)的存储部件新型访问策略.首先,分析传统访问模型存在的问题;其次,研究存储... 为了解决海量信息处理中实时访问中的"I/O墙"的问题,提高海量信息分布式存储系统的性能,提出了一种基于高性能计算(high performance computing,HPC)的存储部件新型访问策略.首先,分析传统访问模型存在的问题;其次,研究存储部件直通路模式的工作机理,建立存储系统分解为多层次、分布式的模型,根据不同的层次和映射策略实现存储空间物理地址、缓存地址、存储系统逻辑空间地址的连续映射;第三,分析直通路访问模式下的存储路径时间开销;第四,在模拟环境下存储部件访问的性能测试,在实际采用该策略的应用系统中进行验证.通过验证测试结果表明,该方法能有效提高存储系统的性能,能够不断满足海量信息处理实时需要. 展开更多
关键词 高性能计算 海量存储系统 存储部件直通路 存储层次映射 存储策略
在线阅读 下载PDF
I/O受限的并行加速比模型与可扩展I/O体系结构
16
作者 李琼 杜云飞 杨学军 《计算机工程与科学》 CSCD 北大核心 2011年第3期28-33,共6页
为了缓解I/O瓶颈问题,可以从应用程序、可扩展算法、编译器和语言、运行时库、操作系统和体系结构六方面展开研究。其中,I/O体系结构是所有技术途径的关键支撑。当前并行I/O性能分析缺乏科学的理论模型为I/O体系结构设计提供理论依据。... 为了缓解I/O瓶颈问题,可以从应用程序、可扩展算法、编译器和语言、运行时库、操作系统和体系结构六方面展开研究。其中,I/O体系结构是所有技术途径的关键支撑。当前并行I/O性能分析缺乏科学的理论模型为I/O体系结构设计提供理论依据。本文针对并行计算机系统的可扩展性问题,研究了I/O负载对并行计算机系统可扩展性的影响,建立了I/O受限的并行加速比性能模型,对目前大规模并行计算机系统中三种常用I/O体系结构的可扩展性进行了分析;以此为理论依据,提出了一种面向高性能计算的可扩展并行I/O系统结构。同时,还提出了几种有效降低I/O操作服务时间的策略,从而达到增强系统可扩展性的目的,为后续研究奠定了基础。 展开更多
关键词 高性能计算 i/o体系结构 并行加速比模型
在线阅读 下载PDF
并行计时偏差评测指标及工具
17
作者 廖秋承 周洋 林新华 《计算机科学》 北大核心 2025年第5期41-49,共9页
在并行计算程序中插桩计时,是多核处理器中常用的性能测量和分析手段。然而,高精度并行计时的准确性受到计时方法、硬件配置和运行时环境等影响,测量结果不稳定,性能分析结论难以复现。近年来,高性能多核处理器的核心数量不断攀升,给多... 在并行计算程序中插桩计时,是多核处理器中常用的性能测量和分析手段。然而,高精度并行计时的准确性受到计时方法、硬件配置和运行时环境等影响,测量结果不稳定,性能分析结论难以复现。近年来,高性能多核处理器的核心数量不断攀升,给多核心并行计时的准确性带来了更大挑战。目前,在真实计算程序中,高精度并行计时技术面临两大问题:1)无法定量比较不同计时函数的准确性;2)无法定量分析多种因素影响下微秒、毫秒级并行计时分布的偏差幅度。针对上述问题,首先设计了用于定量评测计时结果统计学分布偏差的指标,并开发了支持X86和Armv8指令集的多核心计时结果偏差评测工具ParTES。ParTES可以模拟真实计算场景的缓存特征和计时间隔,定量评测不同计时函数的测量偏差。其次,在鲲鹏、飞腾和海光高性能处理器上开展了微秒和毫秒级并行计时稳定性量化分析。实验结果表明,计时方法、缓存命中率、计时函数邻近指令和服务器硬件配置等因素,均会对并行计时结果的准确性产生影响。在鲲鹏、飞腾和海光处理器上,计时结果偏差最小且偏差幅度变化最稳定的计时方法分别是PAPI的计时函数、POSIX的clock_gettime计时函数和C86指令集汇编计时指令RDTSC。 展开更多
关键词 高性能计算 并行计算 性能评测 性能分析 误差分析
在线阅读 下载PDF
云存储上的I/O特征获取机制 被引量:2
18
作者 施杨斌 吴杰 梁瑾 《计算机工程与设计》 CSCD 北大核心 2011年第8期2870-2873,2888,共5页
为有效地获取云存储系统上的I/O特征,从云存储的体系结构出发,根据不同层面的结构特征提出一种层次化的I/O特征获取机制。该机制从全局云平台、集群和局部物理节点两个方面收集和分析云存储系统上的I/O特征数据,通过在云存储虚拟层嵌入... 为有效地获取云存储系统上的I/O特征,从云存储的体系结构出发,根据不同层面的结构特征提出一种层次化的I/O特征获取机制。该机制从全局云平台、集群和局部物理节点两个方面收集和分析云存储系统上的I/O特征数据,通过在云存储虚拟层嵌入监听模块来采集I/O特征,并通过统计分析模块对收集的数据做在线的分析。实验结果表明,该机制能够有效获取云存储系统的I/O特征,为云存储系统性能优化提供参考。 展开更多
关键词 云存储 i/o特征 虚拟机 性能优化 云计算
在线阅读 下载PDF
基于HDF5的结构网格计算流体动力学程序并行I/O技术 被引量:4
19
作者 杨丽鹏 车永刚 《计算机应用》 CSCD 北大核心 2013年第9期2423-2427,共5页
大规模计算流体动力学(CFD)计算对数据I/O能力提出了很高需求。层次式文件格式(HDF5)可有效管理大规模科学数据,并对并行I/O具有良好的支持。针对结构网格CFD并行程序,设计了其数据文件的HDF5存储模式,并基于HDF5并行I/O编程... 大规模计算流体动力学(CFD)计算对数据I/O能力提出了很高需求。层次式文件格式(HDF5)可有效管理大规模科学数据,并对并行I/O具有良好的支持。针对结构网格CFD并行程序,设计了其数据文件的HDF5存储模式,并基于HDF5并行I/O编程接口实现了其数据文件的并行I/O,在并行计算机系统上进行了性能测试与分析。结果表明,在使用4~32个进程时,基于HDF5并行I/O方式的写文件性能比每进程独立写普通文件的方式高6.9~16.1倍;基于HDF5并行I/O方式的读文件性能不及后者,为后者的20%~70%,但是读文件的时间开销远小于写文件的时间开销,因此对总体性能的影响较小。 展开更多
关键词 计算流体动力学 结构网格 并行I o 层次式文件格式 I o性能
在线阅读 下载PDF
直接模拟Monte Carlo方法并行化研究 被引量:1
20
作者 张伟 姜恺 刘洪 《计算机应用与软件》 CSCD 2009年第9期1-3,13,共4页
传统的直接模拟Monte Carlo(DSMC)方法大部分应用于稀薄气体的数值模拟计算,在较高密度和较大尺度模拟的情况下该方法需要的大计算量限制了其向更广泛领域发展。结合高性能计算发展带来的契机,提出利用并行化作为提升DSMC方法计算效率... 传统的直接模拟Monte Carlo(DSMC)方法大部分应用于稀薄气体的数值模拟计算,在较高密度和较大尺度模拟的情况下该方法需要的大计算量限制了其向更广泛领域发展。结合高性能计算发展带来的契机,提出利用并行化作为提升DSMC方法计算效率的手段,以推动更多对DSMC的研究,使其使用范围得到发展。对DSMC方法进行并行化分析,发现其属于不易并行的方法。同时根据分析结果提出了全局网格并行化解决方案,通过数值验证了该并行策略对于DSMC方法在计算效率上确实有显著的提升。 展开更多
关键词 DSMC 高性能计算 并行化
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部