期刊文献+
共找到726篇文章
< 1 2 37 >
每页显示 20 50 100
基于Pthreads的车辆图像兴趣区域提取并行算法研究
1
作者 周艺华 王文东 +2 位作者 陈宏彩 王婷 张常有 《计算机科学》 CSCD 北大核心 2017年第3期36-37,69,共3页
为了提高公安机关查找犯罪车辆的效率,提高车辆识别的效率很必要。据统计,提取兴趣区域(Region Of Interest,ROI)约占车型识别过程的60%,因此如何加速提取ROI过程尤其重要。首先,通过数据划分方法实现基本并行算法;然后,经过实验分析,... 为了提高公安机关查找犯罪车辆的效率,提高车辆识别的效率很必要。据统计,提取兴趣区域(Region Of Interest,ROI)约占车型识别过程的60%,因此如何加速提取ROI过程尤其重要。首先,通过数据划分方法实现基本并行算法;然后,经过实验分析,在基本并行算法的基础上,精心设计预处理过程的分解方案,设置多队列缓冲区,减少共用缓冲区的线程数量和每个缓冲区互斥锁锁定的次数。实验证明,所提算法在双CPU 12核(支持超线程到24线程)的服务器上运行,相对于串行算法,实现了13.1x的加速比。 展开更多
关键词 车型识别 兴趣区域 并行化 pthreads 多核
在线阅读 下载PDF
基于Pthreads的并行DSRC压缩算法设计与实现
2
作者 詹科 张云泉 +2 位作者 王婷 郑晶晶 张鹏 《计算机科学》 CSCD 北大核心 2015年第1期90-91,100,共3页
高通量测序仪产生大量的DNA数据,FASTQ是被广泛使用的存储DNA数据的数据格式。对FASTQ格式的数据进行压缩处理,能有效地节省存储空间。DSRC算法具有压缩比高的优点,因此对DSRC算法进行并行能提高压缩FASTQ格式的DNA数据的效率。基于Pthr... 高通量测序仪产生大量的DNA数据,FASTQ是被广泛使用的存储DNA数据的数据格式。对FASTQ格式的数据进行压缩处理,能有效地节省存储空间。DSRC算法具有压缩比高的优点,因此对DSRC算法进行并行能提高压缩FASTQ格式的DNA数据的效率。基于Pthreads,实现了并行DSRC算法。测试结果表明,当使用4线程时加速比达到3.5。 展开更多
关键词 FASTQ 数据压缩 DSRC pthreads
在线阅读 下载PDF
基于“天河二号”聚合通信卸载特性的MPI_Barrier优化
3
作者 朱琦 戴艺 +5 位作者 彭晋韬 谢旻 梁崇山 刘鹏 杨博 刘杰 《计算机工程与科学》 北大核心 2025年第3期400-411,共12页
Barrier作为消息传递接口MPI程序的基本操作,是确保程序正确执行的重要机制之一。目前已有的Barrier实现方案主要存在2个缺陷:首先,节点间同步存在大量冗余的数据路径传输开销;其次,节点内同步存在大量缓存失效的情况。为解决这些性能限... Barrier作为消息传递接口MPI程序的基本操作,是确保程序正确执行的重要机制之一。目前已有的Barrier实现方案主要存在2个缺陷:首先,节点间同步存在大量冗余的数据路径传输开销;其次,节点内同步存在大量缓存失效的情况。为解决这些性能限制,针对“天河二号”定制网络TH-Express聚合通信卸载特性,提出了基于GLEX NIC的Barrier加速和共享内存标志位重排列2种优化技术,有效减少了节点间同步开销,提高了节点内基于共享内存的同步效率。基于上述优化方法,重新设计了MPI_Barrier算法,并将其集成到MPI通信库中,并在国家超级计算长沙中心通过运行微基准测试程序和实际应用程序对所提优化方法进行性能测试,规模达到7168个节点。实验结果表明,优化后的MPI_Barrier集合操作获得了1.3~14.5倍的加速,并在应用级真实负载评测中,性能提升高达54%。 展开更多
关键词 mpi BARRIER 大规模并行应用 NIC聚合通信卸载
在线阅读 下载PDF
电大涂覆目标SBR算法与MPI并行加速技术
4
作者 吴扬 王思凡 +5 位作者 申子昂 贾浩文 祝强强 徐若锋 郭卿超 赵雷 《电波科学学报》 北大核心 2025年第3期407-414,共8页
为满足涂覆雷达吸波材料(radar absorbing material,RAM)的复杂目标电磁散射快速计算需求,提出了一种基于弹跳射线(shooting and bouncing ray,SBR)的高效计算方法。该方法利用广义传播矩阵法理论推导了金属衬底多层介质的反射系数,并... 为满足涂覆雷达吸波材料(radar absorbing material,RAM)的复杂目标电磁散射快速计算需求,提出了一种基于弹跳射线(shooting and bouncing ray,SBR)的高效计算方法。该方法利用广义传播矩阵法理论推导了金属衬底多层介质的反射系数,并将其与SBR法耦合,精确计算了多层介质涂覆目标的雷达散射截面(radar cross section,RCS);为进一步提高计算效率,采用基于CPU平台的MPI并行加速技术,实现了SBR算法的高效并行。数值结果表明:所计算的二面角反射器模型和舰船模型RCS结果与商业软件FEKO结果之间吻合良好,其中二面角反射器的均方根误差小于3 dBsm;针对电大涂覆飞行器目标,各计算进程的并行效率均达到80%以上。该方法有效解决了电大涂覆目标电磁散射计算的精度和速度,为电大复杂目标隐身性能的评估计算提供了高效的解决方案。 展开更多
关键词 弹跳射线(SBR)法 广义传播矩阵法 mpi并行 雷达散射截面(RCS) 雷达吸波材料(RAM)
在线阅读 下载PDF
基于线程的MPI通信加速器技术研究 被引量:12
5
作者 刘志强 宋君强 +1 位作者 卢风顺 赵娟 《计算机学报》 EI CSCD 北大核心 2011年第1期154-164,共11页
为了针对多核系统构建更高效的MPI支撑环境,文中提出了一种基于线程的MPI加速器,称作MPIActor.MPIActor是一种用于协助传统MPI库的透明中间件,用户可以在编译期选择是否在单线程MPI程序中采用该中间件.加入MPIActor后,每个节点内的MPI... 为了针对多核系统构建更高效的MPI支撑环境,文中提出了一种基于线程的MPI加速器,称作MPIActor.MPIActor是一种用于协助传统MPI库的透明中间件,用户可以在编译期选择是否在单线程MPI程序中采用该中间件.加入MPIActor后,每个节点内的MPI进程都被映射成同一进程中的多个线程,从而节点内的通信可通过轻量级的线程通信机制实现.作者给出了MPIActor的基本设计,详细阐述了其工作机制、通信体系结构及关键技术,并在真实系统上分别针对MVAPICH2和OpenMPI并行环境利用OSU LATENCY基准测试进行了性能评测.实验结果表明在两种MPI环境上进行节点内8 KB^4 MB数据通信时MPIActor都能使通信性能平均提高一倍左右. 展开更多
关键词 mpi软件结构 线程mpi mpi加速器 mpiActor
在线阅读 下载PDF
基于MPI的二维大地电磁正演的并行计算 被引量:12
6
作者 李焱 胡祥云 +2 位作者 吴桂桔 叶益信 廖国忠 《地震地质》 EI CSCD 北大核心 2010年第3期392-401,共10页
大地电磁二维正演对每一个频率分别进行计算,各频率对应的电磁场值间相互独立,根据这一特点可以将程序按频率划分粒度,将每个频点计算分配到各个进程同时进行计算,并行执行。文中给出了大地电磁二维有限元正演的并行算法,它结合了MPI的... 大地电磁二维正演对每一个频率分别进行计算,各频率对应的电磁场值间相互独立,根据这一特点可以将程序按频率划分粒度,将每个频点计算分配到各个进程同时进行计算,并行执行。文中给出了大地电磁二维有限元正演的并行算法,它结合了MPI的优点,采用主从并行模式、分频并行计算的并行方案来执行。为了检验编写的并行程序,对设计的2个模型进行试算,并与串行程序对比验证了该算法的可行性、正确性,为二维反演、三维正反演的并行计算提供了研究基础。 展开更多
关键词 大地电磁 mpi 二维 有限元 正演
在线阅读 下载PDF
基于SMP集群的MPI+OpenMP混合编程模型研究 被引量:19
7
作者 潘卫 陈燎原 +3 位作者 张锦华 李永革 潘莉 夏凡 《计算机应用研究》 CSCD 北大核心 2009年第12期4592-4594,共3页
讨论了MPI+OpenMP混合编程模型的特点及其实现方法。建立了对拉普拉斯偏微分方程求解的混合并行算法,并在HL-2A高性能计算系统上同纯MPI算法作了性能方面的比较。结果表明,该混合并行算法具有更好的扩展性和加速比。
关键词 对称式多处理器集群 消息传递界面 OPENMP mpi+OPENMP HL-2A高性能计算系统
在线阅读 下载PDF
基于MPI的主从式并行遗传算法框架 被引量:26
8
作者 刘晓平 安竹林 郑利平 《系统仿真学报》 CAS CSCD 2004年第9期1938-1940,1956,共4页
遗传算法是一种求解复杂系统优化问题的有效工具.其本身具有的固有并行性,在并行系统构架下有着非常广阔的应用前景。本文对D.L.Carroll的“遗传算法驱动”进行了改进,加入对当前通用消息传递接口MPI的支持,形成了一个可重用的主从式并... 遗传算法是一种求解复杂系统优化问题的有效工具.其本身具有的固有并行性,在并行系统构架下有着非常广阔的应用前景。本文对D.L.Carroll的“遗传算法驱动”进行了改进,加入对当前通用消息传递接口MPI的支持,形成了一个可重用的主从式并行遗传算法框架。并且,针对该框架使用通用遗传算法测试函数,在由两台双至强处理器的工作站组成的COW集群上进行了测试。该框架使不具有并行程序设计经验的用户,可以很方便的构造并行遗传算法程序。 展开更多
关键词 并行遗传算法 主从式 mpi 协同
在线阅读 下载PDF
一种新的MPI Allgather算法及其在万亿次机群系统上的实现与性能分析 被引量:9
9
作者 陈靖 张云泉 +1 位作者 张林波 袁伟 《计算机学报》 EI CSCD 北大核心 2006年第5期808-814,共7页
给出一个新的MPIAllgather算法———邻居交换算法(neighborexchange).提出的平均逻辑通信距离的概念和计算公式,可以有效地衡量通信的局部性.通过分析,发现在4种MPIAllgather算法中,邻居交换和环算法均具有最优的通信局部性.在万亿次... 给出一个新的MPIAllgather算法———邻居交换算法(neighborexchange).提出的平均逻辑通信距离的概念和计算公式,可以有效地衡量通信的局部性.通过分析,发现在4种MPIAllgather算法中,邻居交换和环算法均具有最优的通信局部性.在万亿次机群深腾6800和曙光4000A上对4个MPIAllgather算法进行的性能测试和分析结果表明,邻居交换算法的长消息通信性能最优,中长消息通信性能不稳定,短消息通信性能次于递归倍增和Bruck算法. 展开更多
关键词 mpi Allgather算法 集合通信 性能评测 机群
在线阅读 下载PDF
一种支持多种访存技术的CBEA片上多核MPI并行编程模型 被引量:6
10
作者 冯国富 董小社 +2 位作者 胡冰 王旭昊 王恩东 《计算机学报》 EI CSCD 北大核心 2008年第11期1965-1974,共10页
现有的CBEA(Cell Broadband Engine Architecture)编程模型多侧重于支持类似于流处理的“批量访存”(Bulk Data Transfer)应用,传统非规则访存应用性能较低.文中基于Cell架构提出了一种同时支持“批量访存”与非规则访存应用的MPI... 现有的CBEA(Cell Broadband Engine Architecture)编程模型多侧重于支持类似于流处理的“批量访存”(Bulk Data Transfer)应用,传统非规则访存应用性能较低.文中基于Cell架构提出了一种同时支持“批量访存”与非规则访存应用的MPI并行编程模型,将通信分解在PPE(PowerPC Processing Element)上,拓宽模型的适用范围;在统一访存接口下,通过运行时访存剖分信息指导选择和优化访存以提高计算效率.实验结果表明,文中提出的编程模型支持多种访存模式并具有很好的并行加速比,可获得较同类相关技术30%-50%左右的性能提升. 展开更多
关键词 异构多核 CBE架构 并行编程模型 mpi 访存技术 剖分优化
在线阅读 下载PDF
基于MPI+OpenMP的三维声波方程正演模拟 被引量:5
11
作者 宋鹏 解闯 +3 位作者 李金山 谭军 刘伟 谭惠文 《中国海洋大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第9期97-102,129,共7页
针对三维声波方程数值模拟的大计算量和大内存消耗问题,研究并实现了基于MPI+OpenMP的三维声波方程数值模拟并行算法,在PC-Cluster的计算节点间采用基于MPI的按炮分任务的多进程并行模式,在计算节点内采用基于OpenMP的按空间分任务的多... 针对三维声波方程数值模拟的大计算量和大内存消耗问题,研究并实现了基于MPI+OpenMP的三维声波方程数值模拟并行算法,在PC-Cluster的计算节点间采用基于MPI的按炮分任务的多进程并行模式,在计算节点内采用基于OpenMP的按空间分任务的多线程并行模式,以有效地利用计算和存储资源。3D-Overthrust模型的实验结果显示,基于MPI+OpenMP的三维声波方程数值模拟并行算法的计算效率与基于MPI的按炮分任务并行计算模式相当,但其内存消耗远远低于后者,其更适合于基于大模型或实际模型的三维模拟。 展开更多
关键词 三维声波方程 正演模拟 并行计算 mpi+OPENMP
在线阅读 下载PDF
基于MPI的大规模栅格影像并行瓦片化算法 被引量:7
12
作者 刘世永 陈荦 +2 位作者 熊伟 吴烨 李军 《计算机工程与应用》 CSCD 北大核心 2018年第1期48-53,111,共7页
当前主流GIS软件以及互联网地图应用在Web GIS(网络地理信息系统)解决方案中都广泛采用地图切片(又称瓦片),切片处理服务是实现影像在Web GIS上快速无缝浏览的关键技术。针对目前传统算法以及商业GIS软件在大数据量栅格影像快速瓦片化... 当前主流GIS软件以及互联网地图应用在Web GIS(网络地理信息系统)解决方案中都广泛采用地图切片(又称瓦片),切片处理服务是实现影像在Web GIS上快速无缝浏览的关键技术。针对目前传统算法以及商业GIS软件在大数据量栅格影像快速瓦片化方面的不足,提出一种名为ParaTile的高效栅格影像快速瓦片化方法,ParaTile基于MPI共享外存的并行技术,利用多进程对原始栅格影像进行数据划分,每个进程对其所划分的区域进行独立读写和计算,而后再按照TMS或者Google Tile定义的标准将瓦片进行编码输出。实验采用不同级别大小的遥感影像进行测试,结果表明ParaTile在面对不同规模的数据时,无论从速度还是算法稳定性上都较现有算法和工具具有显著优势,特别是当数据量越大时,这种优势愈加明显。 展开更多
关键词 栅格影像 并行瓦片化 消息传递接口(mpi)
在线阅读 下载PDF
基于MPI技术的AREM模式并行开发及试验 被引量:5
13
作者 普业 王斌 +2 位作者 徐幼平 程锐 成巍 《气候与环境研究》 CSCD 北大核心 2008年第5期675-680,共6页
应用消息传递接口函数库(MPI)并行程序设计技术开发了中尺度暴雨数值预报模式AREM(Ad-vanced Regional Eta-coordinate Model)的并行版本,并在3种计算机系统平台下进行了加速比测试,结果显示出较高的并行效率和较好的可扩展性。建立并... 应用消息传递接口函数库(MPI)并行程序设计技术开发了中尺度暴雨数值预报模式AREM(Ad-vanced Regional Eta-coordinate Model)的并行版本,并在3种计算机系统平台下进行了加速比测试,结果显示出较高的并行效率和较好的可扩展性。建立并行版本后,模式高分辨率版本能够满足时效性要求。通过采用并行模式的高低分辨率版本对一个暴雨个例进行模拟表明,高分辨并行版本的模拟结果与观测更为接近,并具有较好的预报时效性。 展开更多
关键词 mpi 并行计算 AREM模式 加速比 并行效率
在线阅读 下载PDF
基于MPI的三维瑞雷面波有限差分并行模拟 被引量:8
14
作者 张明财 熊章强 张大洲 《石油物探》 EI CSCD 北大核心 2013年第4期354-362,331-332,共9页
三维地震波动方程数值求解对计算机的内存大小和运算速度都有很高的要求。采用基于消息传递接口(Message Passing Interface,MPI)的并行算法对三维空间的瑞雷面波进行了交错网格有限差分正演模拟。该算法将待模拟区域划分为若干个子区域... 三维地震波动方程数值求解对计算机的内存大小和运算速度都有很高的要求。采用基于消息传递接口(Message Passing Interface,MPI)的并行算法对三维空间的瑞雷面波进行了交错网格有限差分正演模拟。该算法将待模拟区域划分为若干个子区域,各个进程互相协同,并行完成各个子区域的数值模拟过程,从而达到扩大模型规模、加快模拟速度的目的。数值模拟过程中,采用声学-弹性界面法处理自由地表边界。利用均匀各向同性介质模型模拟所得的单道地震记录与解析解的对比结果和波场快照验证了算法的可行性和正确性;通过3层速度递增模型数值模拟所得波场记录的频散曲线与解析解对比,进一步验证了算法的有效性。 展开更多
关键词 mpi 瑞雷面波 有限差分 并行模拟
在线阅读 下载PDF
大规模MPI并行计算的可扩展三模冗余容错机制 被引量:13
15
作者 王之元 杨学军 周云 《软件学报》 EI CSCD 北大核心 2012年第4期1022-1035,共14页
随着系统规模的扩大,并行计算的性能不断提高,但可靠性却也在不断下降,因此需要采用某种容错机制来容忍或恢复硬件故障和数据错误.目前常用的容错机制Checkpoint/Restart和多模冗余均引入了额外的开销,这些开销均在某种程度上制约了并... 随着系统规模的扩大,并行计算的性能不断提高,但可靠性却也在不断下降,因此需要采用某种容错机制来容忍或恢复硬件故障和数据错误.目前常用的容错机制Checkpoint/Restart和多模冗余均引入了额外的开销,这些开销均在某种程度上制约了并行计算的可扩展性.因此,在高性能计算需求不断增长的今天,可扩展容错机制的设计显得尤为迫切和重要.以三模冗余(triple modular redundancy,简称TMR)为典型案例,描述了传统TMR在大规模MPI并行计算上的实现方法,分析了该机制所面临的实际问题,进而指出传统TMR制约了并行计算的扩展.根据该技术所面临的问题,设计了可扩展三模冗余(scalable triple modular redundancy,简称STMR),并进一步验证了其有效性和可扩展性.该机制不仅能够处理Checkpoint/Restart针对的fail-stop故障,还能够解决绝大部分硬件不能直接感知的数据错误.最后,借用BlueGene/L的系统参数进行模拟,预测当系统规模增大时,在分别采用TMR和STMR的情况下并行计算可扩展性的变化,结果进一步验证了STMR是可扩展的容错机制. 展开更多
关键词 容错机制 可扩展性 三模冗余 大规模并行计算 mpi
在线阅读 下载PDF
构建基于Windows和MPI的Beowulf并行计算系统 被引量:14
16
作者 陈星 黄卡玛 《计算机工程与应用》 CSCD 北大核心 2003年第4期59-61,共3页
利用普通微机构建并行计算集群(常称为Beowulf系统),能够以低廉的价格获得强大的计算能力。文章介绍了利用16台微机构建一套Beowulf并行计算系统,节点微机上运行Windows2000操作系统,采用MPI(Message-Passing-Interface)的MPICH最新版本... 利用普通微机构建并行计算集群(常称为Beowulf系统),能够以低廉的价格获得强大的计算能力。文章介绍了利用16台微机构建一套Beowulf并行计算系统,节点微机上运行Windows2000操作系统,采用MPI(Message-Passing-Interface)的MPICH最新版本:MPICH.NT1.2.3作为并行计算的支撑环境,并以100Mbps高速交换式以太网作为互连网络。通过编制的并行计算程序对该Beowulf系统进行了并行效率的实际测试,测试结果表明该Beowulf系统能够达到非常高的并行加速比和并行效率。 展开更多
关键词 并行计算机 WINDOWS mpi BEOWULF 并行计算系统
在线阅读 下载PDF
大规模变网格三维地震正演MPI并行策略与实现 被引量:8
17
作者 蔡志成 顾汉明 +3 位作者 成景旺 刘春成 刘志斌 刘少勇 《石油地球物理勘探》 EI CSCD 北大核心 2017年第3期468-476,共9页
三维波动方程数值模拟是复杂储层波场特征分析和地震响应识别模式建立的重要手段。针对大规模三维模型正演模拟面临的内存消耗巨大、计算耗时长的问题,使用MPI并行技术将模型切割计算,同时为了对局部复杂区域进行精细模拟,引入变网格算... 三维波动方程数值模拟是复杂储层波场特征分析和地震响应识别模式建立的重要手段。针对大规模三维模型正演模拟面临的内存消耗巨大、计算耗时长的问题,使用MPI并行技术将模型切割计算,同时为了对局部复杂区域进行精细模拟,引入变网格算法对速度场进行局部加密,从空间上有效提高模拟精度;设计了适用于三维变网格算法的MPI并行子区域划分策略,降低了计算网格点数和内存需求。模型试算表明基于MPI并行变网格方法进行大规模三维正演数值模拟减少了内存消耗、提高了计算效率。 展开更多
关键词 mpi并行 三维波动方程正演 变网格 并行子区域 划分策略
在线阅读 下载PDF
MCATNP蒙特卡罗粒子输运程序的MPI并行化 被引量:5
18
作者 陶应龙 王建国 +1 位作者 牛胜利 范如玉 《核电子学与探测技术》 CAS CSCD 北大核心 2011年第5期490-494,共5页
MCATNP是模拟中子、光子在大气中输运的蒙特卡罗程序,用于高空核爆炸电离效应的数值模拟。采用"跳跃法"进行伪随机数的分段,对程序进行MPI并行化改造,实现了并行化。测试结果表明并行程序取得了与串行程序一致的结果,加速比... MCATNP是模拟中子、光子在大气中输运的蒙特卡罗程序,用于高空核爆炸电离效应的数值模拟。采用"跳跃法"进行伪随机数的分段,对程序进行MPI并行化改造,实现了并行化。测试结果表明并行程序取得了与串行程序一致的结果,加速比近似呈线性增长,在16和32个处理器上的并行效率分别达到了97%和94%。算例的结果表明并行化可以解决高空核爆炸电离效应蒙特卡罗模拟的耗时问题。 展开更多
关键词 蒙特卡罗 MCATNP mpi并行化
在线阅读 下载PDF
MPI模型在矸石山复垦土壤生产力评价中的应用 被引量:7
19
作者 刘青柏 刘明国 冯景刚 《水土保持研究》 CSCD 北大核心 2006年第3期24-25,共2页
应用MPI模型(复垦土壤生产力指数的修正模型)对阜新矿区矸石山复垦土地生产力进行了评价,结果表明,MPI模型在评价矸石山土壤复垦质量时,考虑了影响土壤生产力的因子间相关性和时空变异性,适用于矸石山复垦土壤生产力质量评价。
关键词 mpi模型 矸石山 生产力指数 土壤复垦质量
在线阅读 下载PDF
面向MPI代码生成的Open64编译器后端 被引量:5
20
作者 赵捷 赵荣彩 +1 位作者 韩林 李宝亮 《计算机学报》 EI CSCD 北大核心 2014年第7期1620-1632,共13页
随着计算机体系结构的发展,分布式存储结构以其良好的扩展性逐渐占据了高性能计算机体系结构市场的主导地位.为了将现有的串行程序转换为能够在高性能计算机上运行的并行程序,研究人员提出了并行化编译器.然而,当前面向分布存储并行系... 随着计算机体系结构的发展,分布式存储结构以其良好的扩展性逐渐占据了高性能计算机体系结构市场的主导地位.为了将现有的串行程序转换为能够在高性能计算机上运行的并行程序,研究人员提出了并行化编译器.然而,当前面向分布存储并行系统的编译器发展却相对较慢,而面向共享存储并行系统的编译器及其相应技术已逐渐成熟.一种开发面向分布存储并行系统编译器的可行方法是改进现有的面向共享存储并行系统的编译器,使其自动生成能够在分布存储结构高性能计算机上运行的MPI(Message Passing Interface)并行程序.因此,该文为面向共享存储并行系统的编译器Open64设计并实现了一个支持MPI代码生成的后端.根据分布式并行化编译的特点,主要从自动生成计算划分、改进循环优化和自动生成MPI并行代码3个方面对Open64进行了改进,使其能够实现面向分布存储的并行化编译.实验测试利用带有MPI后端的Open64对串行程序进行编译,生成的MPI并行代码可直接运行在具有分布存储结构的高性能计算机上.通过将该MPI并行代码的执行效率与传统面向分布存储并行系统编译器生成的MPI代码效率进行比较,并行效率有明显的提升. 展开更多
关键词 高性能计算 分布存储 并行化编译系统 Open64编译器 mpi代码
在线阅读 下载PDF
上一页 1 2 37 下一页 到第
使用帮助 返回顶部