期刊文献+
共找到109篇文章
< 1 2 6 >
每页显示 20 50 100
基于“天河二号”聚合通信卸载特性的MPI_Barrier优化
1
作者 朱琦 戴艺 +5 位作者 彭晋韬 谢旻 梁崇山 刘鹏 杨博 刘杰 《计算机工程与科学》 北大核心 2025年第3期400-411,共12页
Barrier作为消息传递接口MPI程序的基本操作,是确保程序正确执行的重要机制之一。目前已有的Barrier实现方案主要存在2个缺陷:首先,节点间同步存在大量冗余的数据路径传输开销;其次,节点内同步存在大量缓存失效的情况。为解决这些性能限... Barrier作为消息传递接口MPI程序的基本操作,是确保程序正确执行的重要机制之一。目前已有的Barrier实现方案主要存在2个缺陷:首先,节点间同步存在大量冗余的数据路径传输开销;其次,节点内同步存在大量缓存失效的情况。为解决这些性能限制,针对“天河二号”定制网络TH-Express聚合通信卸载特性,提出了基于GLEX NIC的Barrier加速和共享内存标志位重排列2种优化技术,有效减少了节点间同步开销,提高了节点内基于共享内存的同步效率。基于上述优化方法,重新设计了MPI_Barrier算法,并将其集成到MPI通信库中,并在国家超级计算长沙中心通过运行微基准测试程序和实际应用程序对所提优化方法进行性能测试,规模达到7168个节点。实验结果表明,优化后的MPI_Barrier集合操作获得了1.3~14.5倍的加速,并在应用级真实负载评测中,性能提升高达54%。 展开更多
关键词 mpi BARRIER 大规模并行应用 NIC聚合通信卸载
在线阅读 下载PDF
电大涂覆目标SBR算法与MPI并行加速技术
2
作者 吴扬 王思凡 +5 位作者 申子昂 贾浩文 祝强强 徐若锋 郭卿超 赵雷 《电波科学学报》 北大核心 2025年第3期407-414,共8页
为满足涂覆雷达吸波材料(radar absorbing material,RAM)的复杂目标电磁散射快速计算需求,提出了一种基于弹跳射线(shooting and bouncing ray,SBR)的高效计算方法。该方法利用广义传播矩阵法理论推导了金属衬底多层介质的反射系数,并... 为满足涂覆雷达吸波材料(radar absorbing material,RAM)的复杂目标电磁散射快速计算需求,提出了一种基于弹跳射线(shooting and bouncing ray,SBR)的高效计算方法。该方法利用广义传播矩阵法理论推导了金属衬底多层介质的反射系数,并将其与SBR法耦合,精确计算了多层介质涂覆目标的雷达散射截面(radar cross section,RCS);为进一步提高计算效率,采用基于CPU平台的MPI并行加速技术,实现了SBR算法的高效并行。数值结果表明:所计算的二面角反射器模型和舰船模型RCS结果与商业软件FEKO结果之间吻合良好,其中二面角反射器的均方根误差小于3 dBsm;针对电大涂覆飞行器目标,各计算进程的并行效率均达到80%以上。该方法有效解决了电大涂覆目标电磁散射计算的精度和速度,为电大复杂目标隐身性能的评估计算提供了高效的解决方案。 展开更多
关键词 弹跳射线(SBR)法 广义传播矩阵法 mpi并行 雷达散射截面(RCS) 雷达吸波材料(RAM)
在线阅读 下载PDF
MPI程序同步通信基本模型死锁检测 被引量:6
3
作者 廖名学 范植华 《电子学报》 EI CAS CSCD 北大核心 2008年第2期402-407,共6页
本文提出了MPI程序的同步通信模型及三个基本简化模型,给出了判定这些基本模型是否死锁的方法和定理并予以了严格证明.简化模型的死锁检测理论和方法是真实MPI程序死锁检测的必要基础.这些方法基于程序静态分析,必要时进行运行时检测,... 本文提出了MPI程序的同步通信模型及三个基本简化模型,给出了判定这些基本模型是否死锁的方法和定理并予以了严格证明.简化模型的死锁检测理论和方法是真实MPI程序死锁检测的必要基础.这些方法基于程序静态分析,必要时进行运行时检测,它们对两种简化模型可以在程序编译前确定是否死锁,对另外一种模型,在编译前可静态确定部分死锁,运行中可确定其他死锁.我们的理论可以证明MPI程序死锁检测主流算法的正确性,其方法可以减少它们对客户源代码或MPI profiling接口的修改量,从而大大降低死锁检测开销,并可在运行前判定死锁. 展开更多
关键词 mpi(Message PASSING interface) 死锁 同步通信
在线阅读 下载PDF
基于MPI的云计算模型 被引量:38
4
作者 郭本俊 王鹏 +1 位作者 陈高云 黄健 《计算机工程》 CAS CSCD 北大核心 2009年第24期84-86,共3页
根据消息传递接口(MPI)的特点,提出云计算在MPI领域的应用方法,包括MPI的云计算算法设计模型、云计算原理、核心计算模式、处理流程,并介绍云计算的分布式及并行化特性。理论分析结果表明,该算法是有效可行的,优于传统并行技术,能够为... 根据消息传递接口(MPI)的特点,提出云计算在MPI领域的应用方法,包括MPI的云计算算法设计模型、云计算原理、核心计算模式、处理流程,并介绍云计算的分布式及并行化特性。理论分析结果表明,该算法是有效可行的,优于传统并行技术,能够为算法分布化及并行化提供新思路。 展开更多
关键词 云计算 消息传递接口 机群系统 Hadoop架构
在线阅读 下载PDF
PC机群上JIAJIA与MPI的比较 被引量:5
5
作者 胡明昌 史岗 +2 位作者 胡伟武 唐志敏 张福新 《软件学报》 EI CSCD 北大核心 2003年第7期1187-1194,共8页
对JIAJIA 和MPI (message passing interface)是进行了比较.JIAJIA 和MPI 分别代表共享存储和消息传递的编程模式.MPI 显式进行数据传输,编程复杂;JIAJIA 由底层维护数据一致性,并附加提供简单的消息传递函数,编程容易、灵活.JIAJIA 分... 对JIAJIA 和MPI (message passing interface)是进行了比较.JIAJIA 和MPI 分别代表共享存储和消息传递的编程模式.MPI 显式进行数据传输,编程复杂;JIAJIA 由底层维护数据一致性,并附加提供简单的消息传递函数,编程容易、灵活.JIAJIA 分配共享内存时开销较大,初始化时间比MPI 长.提出了一个关于并行加速比与进程数目之间关系的近似经验公式,推出JIAJIA 和MPI 性能差距随着进程数目的增多而增大的结论.测试结果表明,大部分应用程序的JIAJIA 和MPI 版本的并行性能差距不超过10%.对于通信量很小的应用程序,其JIAJIA 和MPI 的性能差距较小,而通信量本身较大的应用程序,其JIAJIA 和MPI 的性能差距主要取决于运行时产生的实际通信量. 展开更多
关键词 JIAJIA mpi(message PASSING interface) 共享虚拟存储 消息传递 加速比 并行性能 通信量 PC机群
在线阅读 下载PDF
基于MPI的大规模栅格影像并行瓦片化算法 被引量:7
6
作者 刘世永 陈荦 +2 位作者 熊伟 吴烨 李军 《计算机工程与应用》 CSCD 北大核心 2018年第1期48-53,111,共7页
当前主流GIS软件以及互联网地图应用在Web GIS(网络地理信息系统)解决方案中都广泛采用地图切片(又称瓦片),切片处理服务是实现影像在Web GIS上快速无缝浏览的关键技术。针对目前传统算法以及商业GIS软件在大数据量栅格影像快速瓦片化... 当前主流GIS软件以及互联网地图应用在Web GIS(网络地理信息系统)解决方案中都广泛采用地图切片(又称瓦片),切片处理服务是实现影像在Web GIS上快速无缝浏览的关键技术。针对目前传统算法以及商业GIS软件在大数据量栅格影像快速瓦片化方面的不足,提出一种名为ParaTile的高效栅格影像快速瓦片化方法,ParaTile基于MPI共享外存的并行技术,利用多进程对原始栅格影像进行数据划分,每个进程对其所划分的区域进行独立读写和计算,而后再按照TMS或者Google Tile定义的标准将瓦片进行编码输出。实验采用不同级别大小的遥感影像进行测试,结果表明ParaTile在面对不同规模的数据时,无论从速度还是算法稳定性上都较现有算法和工具具有显著优势,特别是当数据量越大时,这种优势愈加明显。 展开更多
关键词 栅格影像 并行瓦片化 消息传递接口(mpi)
在线阅读 下载PDF
基于MPI+CUDA的异构并行可压缩流求解器 被引量:7
7
作者 刘枫 李桦 +1 位作者 田正雨 潘沙 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第1期6-10,共5页
在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数... 在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数个算例,对比了异构并行计算和传统CPU并行计算计算结果和计算效率。将该算法运用于高超声速流动的数值模拟中,数值结果显示,基于MPI+CUDA的异构并行可压缩流求解器鲁棒性好,计算效率较CPU同构并行计算提高10倍以上。 展开更多
关键词 消息传递接口 统一计算设备架构 异构计算 可压缩流
在线阅读 下载PDF
MPI_ALLGATHER实现算法的改进与性能分析 被引量:2
8
作者 李占胜 毕会娟 +1 位作者 都志辉 焦青 《计算机工程与应用》 CSCD 北大核心 2007年第27期66-71,共6页
首先分析了影响MPI组通信性能的各方面因素,提出了一种衡量算法性能的模型。基于这种分析及模型,提出了一种将邻居交换和递归倍增两种算法结合的新的MPI_ALLGATHER实现算法。新的算法比邻居交换算法通信次数少,比递归倍增算法具有较好... 首先分析了影响MPI组通信性能的各方面因素,提出了一种衡量算法性能的模型。基于这种分析及模型,提出了一种将邻居交换和递归倍增两种算法结合的新的MPI_ALLGATHER实现算法。新的算法比邻居交换算法通信次数少,比递归倍增算法具有较好的通信局部性。通过在高性能机群系统中的测试,发现新算法在多种情况下比邻居交换算法具有更优的性能,在中等长度消息通信时具有最优的性能,在长消息通信时性能比递归倍增算法和Bruck算法的性能更优,且在长消息通信时多数情况下性能最优。 展开更多
关键词 并行编程 mpi 组通信 mpi_ALLGATHER算法
在线阅读 下载PDF
PROFIBUS-DP和MPI在造纸生产通信网络中的应用 被引量:3
9
作者 葛锁良 卫胤强 方唐利 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第7期1024-1026,1039,共4页
针对某造纸厂生产线改造项目,文章介绍一种基于MPI和PROFIBUS-DP通信网络控制系统,该通信网络控制系统包括监控级和现场级,监控级采用MPI通信总线,现场级采用PROFIBUS-DP通信总线,系统可靠性高、开放性好。文中介绍了通信网络的整体结构... 针对某造纸厂生产线改造项目,文章介绍一种基于MPI和PROFIBUS-DP通信网络控制系统,该通信网络控制系统包括监控级和现场级,监控级采用MPI通信总线,现场级采用PROFIBUS-DP通信总线,系统可靠性高、开放性好。文中介绍了通信网络的整体结构,详细阐述了上位机中WinCC监控系统的实现方式和现场级网络中DP主站和DP从站的通信过程及网络设置,并给出相关的软件实现。经过现场安装和调试,整个系统运行稳定。 展开更多
关键词 PROFIBUS-DP 多点接口 WINCC 通信网络
在线阅读 下载PDF
异构环境下MPI通信技术研究 被引量:3
10
作者 蒋艳凰 赵强利 卢宇彤 《小型微型计算机系统》 CSCD 北大核心 2009年第9期1724-1729,共6页
异构环境下的高性能计算技术是当前获取高性价比计算平台的重要方法,在MPI系统中提供用户透明、高性能的异构支持是实现异构环境下进程间通信的自然选择,相关技术研究已成为高性能计算领域急待解决的问题.本文对网络异构和处理器异构进... 异构环境下的高性能计算技术是当前获取高性价比计算平台的重要方法,在MPI系统中提供用户透明、高性能的异构支持是实现异构环境下进程间通信的自然选择,相关技术研究已成为高性能计算领域急待解决的问题.本文对网络异构和处理器异构进行了详细阐述,分析它们对MPI通信的影响;然后基于Open MPI系统,对这两类异构问题的具体实现进行介绍,测试并分析它们对通信性能的影响;最后展望了这一研究方向的技术难点与发展趋势. 展开更多
关键词 高性能计算 mpi 集群 网络异构 处理器异构
在线阅读 下载PDF
基于MPI的并行PSO混合K均值聚类算法 被引量:13
11
作者 吕奕清 林锦贤 《计算机应用》 CSCD 北大核心 2011年第2期428-431,437,共5页
传统的串行聚类算法在对海量数据进行聚类时性能往往不尽如人意,为了适应海量数据聚类分析的性能要求,针对传统聚类算法的不足,提出一种基于消息传递接口(MPI)集群的并行PSO混合K均值聚类算法。首先将改进的粒子群与K均值结合,提高该算... 传统的串行聚类算法在对海量数据进行聚类时性能往往不尽如人意,为了适应海量数据聚类分析的性能要求,针对传统聚类算法的不足,提出一种基于消息传递接口(MPI)集群的并行PSO混合K均值聚类算法。首先将改进的粒子群与K均值结合,提高该算法的全局搜索能力,然后利用该算法提出一种新的并行聚类策略,并将该算法与K均值聚类算法、粒子群优化(PSO)聚类算法进行比较。实验结果表明,该算法不仅具有较好的全局收敛性,而且具有较高的加速比。 展开更多
关键词 消息传递接口集群 粒子群优化算法 K均值算法 并行聚类
在线阅读 下载PDF
基于曙光-2000的MPI循环并行方法 被引量:1
12
作者 韩丛英 贺国平 张广梅 《计算机工程》 CAS CSCD 北大核心 2003年第3期47-49,共3页
曙光-2000并行机系统是分布式存储系统,在此类系统上直接写并行程序是很困 难的。该文通过详细分析书写MPI程序的各种模式,结合曙光-2000并行机,给出一种将串行 程序改写成MPI并行程序的方法:分析串行程序的循环体,考虑数据依赖关... 曙光-2000并行机系统是分布式存储系统,在此类系统上直接写并行程序是很困 难的。该文通过详细分析书写MPI程序的各种模式,结合曙光-2000并行机,给出一种将串行 程序改写成MPI并行程序的方法:分析串行程序的循环体,考虑数据依赖关系,加以适当的 M PI函数,使之并行化。 展开更多
关键词 曙光—2000 消息传送接口 数据依赖 mpi 循环并行方法 分布式存储系统 并行计算机
在线阅读 下载PDF
基于MPI的三维CT并行重建实现 被引量:1
13
作者 孙翠丽 路宏年 +1 位作者 杨民 赵飞 《计算机工程与应用》 CSCD 北大核心 2006年第4期213-214,221,共3页
分析了三维CT近似重建FDK快速算法理论基础,采用基于MPI并行环境地并行实现方案实现三维CT的并行重建,得到比较理想的重建时间结果和比较理想的加速比与效率。
关键词 三维CT 并行处理 消息传递接口
在线阅读 下载PDF
基于CELL宽带引擎架构的MPI研究与实现 被引量:1
14
作者 徐祯 孙济洲 +2 位作者 于策 亓大志 张旭明 《计算机应用研究》 CSCD 北大核心 2010年第7期2526-2529,共4页
研究了在CBEA上移植MPI消息传递编程模型和标准接口的可行性,并利用IBM CELL SDK 3.0实现了一组常用的MPI编程接口。实验结果表明,该组MPI接口可满足CBEA上应用开发的数据传输性能要求,并且其性能已接近现有DMA数据传输模式。该组MPI接... 研究了在CBEA上移植MPI消息传递编程模型和标准接口的可行性,并利用IBM CELL SDK 3.0实现了一组常用的MPI编程接口。实验结果表明,该组MPI接口可满足CBEA上应用开发的数据传输性能要求,并且其性能已接近现有DMA数据传输模式。该组MPI接口为CELL应用开发人员提供了一种通用编程接口解决方案。 展开更多
关键词 CELL宽带引擎架构 异构多核处理器 mpi接口 数据传输 高性能计算
在线阅读 下载PDF
基于MPI的伪谱法DNS并行计算方法研究 被引量:3
15
作者 肖红林 王连生 《计算机工程与应用》 CSCD 2012年第4期54-55,60,共3页
使用伪谱方法的直接数值模拟准确、高效,但在高雷诺数情况下,计算量非常巨大,需要采用并行方法,但是快速傅里叶变换的并行算法在实际应用中有很大的困难。针对这一问题,提出了一种新的基于MPI的伪谱法直接数值模拟的并行计算方法。通过... 使用伪谱方法的直接数值模拟准确、高效,但在高雷诺数情况下,计算量非常巨大,需要采用并行方法,但是快速傅里叶变换的并行算法在实际应用中有很大的困难。针对这一问题,提出了一种新的基于MPI的伪谱法直接数值模拟的并行计算方法。通过实例验证,该方法准确、易行、稳健,并且可以大幅提高计算速度,节省计算时间,这对直接模拟在科学研究和工程实际中的广泛应用都具有重要意义。 展开更多
关键词 直接数值模拟 谱方法 傅里叶展开 消息传递接口(mpi) 并行计算
在线阅读 下载PDF
基于MPI+CUDA异步模型的并行矩阵乘法 被引量:2
16
作者 刘青昆 马名威 阎慰椿 《计算机应用》 CSCD 北大核心 2011年第12期3327-3330,共4页
矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型... 矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型的并行矩阵乘法。该模型避免了主机端进入等待状态,并采用CUDA流技术解决数据量超过GPU内存问题。通过分析异步模型的加速比和效率,实验结果表明,此方法显著提高了并行效率和大型矩阵乘法的运算速度,充分发挥了节点间分布式存储和节点内共享内存的优势,是一种有效可行的并行策略。 展开更多
关键词 矩阵乘法 并行计算 混合编程 消息传递接口 统一计算设备架构
在线阅读 下载PDF
基于MPI的OBC三维多波多分量地震观测正演模拟并行算法实现 被引量:5
17
作者 周丽 顾汉明 +3 位作者 成景旺 刘春成 刘志斌 杨小春 《石油物探》 EI CSCD 北大核心 2014年第6期665-674,共10页
针对海上OBC三维地震观测正演数值模拟的海量计算需求,研究并实现了基于信息传递接口(Message Passing Interface,MPI)并行平台的交错网格有限差分数值模拟并行算法。该算法能够以三维任意偶阶空间精度从X,Y和Z3个方向同时实现并行运算... 针对海上OBC三维地震观测正演数值模拟的海量计算需求,研究并实现了基于信息传递接口(Message Passing Interface,MPI)并行平台的交错网格有限差分数值模拟并行算法。该算法能够以三维任意偶阶空间精度从X,Y和Z3个方向同时实现并行运算,可以任意选择空间并行计算方向以及并行计算的进程个数。在算法实现过程中,引入了进程坐标系的概念,使得每一个参与计算的进程对应一个进程坐标,通过进程坐标来判断边界条件的使用;同时引入虚拟进程以方便模型边界处的数据交换。通过层状模型采用不同计算进程个数的正演计算验证了该并行算法的可行性和运行效率;最后对海上某靶区三维地质模型进行了Patch观测系统下的多波多分量地震观测正演并行模拟。 展开更多
关键词 OBC观测 多波多分量地震勘探 mpi 进程坐标系 并行模拟
在线阅读 下载PDF
基于MPI和OpenCV遥感图像匹配的并行实现 被引量:2
18
作者 崔丹丹 张耀南 赵国辉 《计算机应用》 CSCD 北大核心 2014年第A01期203-205,共3页
灰度匹配是遥感图像处理中一项重要技术,匹配方法虽然精度高,但计算量大,时间长。针对这一问题,介绍了遥感图像灰度匹配的并行策略,基于消息传递接口(MPI)和开源计算机视觉库(OpenCV)实现了归一化积相关灰度匹配并行算法,并依此算法来... 灰度匹配是遥感图像处理中一项重要技术,匹配方法虽然精度高,但计算量大,时间长。针对这一问题,介绍了遥感图像灰度匹配的并行策略,基于消息传递接口(MPI)和开源计算机视觉库(OpenCV)实现了归一化积相关灰度匹配并行算法,并依此算法来验证遥感灰度匹配的并行性能。实验结果表明,该算法能获得良好的加速比且并行效率大于1,说明基于该算法的遥感图像匹配可以显著提高遥感图像处理的效率。 展开更多
关键词 遥感图像处理 图像匹配 消息传递接口 开源计算机视觉库
在线阅读 下载PDF
MPI+TBB混合并行编程模型在分子动力学中的应用 被引量:2
19
作者 白明泽 赵文辉 +2 位作者 豆育升 孙世新 温迪 《计算机应用研究》 CSCD 北大核心 2012年第5期1772-1774,1794,共4页
为了提高分子动力学模拟在对称多处理(SMP)集群上的计算速度,在分子动力学并行方法中引入MPI+TBB的混合并行编程模型。基于该模型,在分子动力学软件LAMMPS中设计并实现混合并行算法,在节点间采用MPI及空间分解技术实施进程级并行,节点... 为了提高分子动力学模拟在对称多处理(SMP)集群上的计算速度,在分子动力学并行方法中引入MPI+TBB的混合并行编程模型。基于该模型,在分子动力学软件LAMMPS中设计并实现混合并行算法,在节点间采用MPI及空间分解技术实施进程级并行,节点内采用TBB及临界区技术实施线程级并行。在SMP集群中的测试表明,该方法在体系较大以及节点数较多时可以明显减少通信时间,使加速比在纯MPI模型上提高45%。结果表明,MPI+TBB混合并行编程模型可促进分子动力学并行模拟且效率明显提升。 展开更多
关键词 分子动力学 混合并行编程模型 SMP集群 mpi 线程构建块
在线阅读 下载PDF
基于MPI的并行最大最小蚂蚁系统 被引量:3
20
作者 刘彩云 陈忠 熊杰 《计算机工程》 CAS CSCD 北大核心 2010年第19期200-202,共3页
现有蚁群系统在求解大规模组合优化问题时所需的计算时间较长。针对该不足,提出基于消息传递接口的粗粒度异步协作并行最大最小蚂蚁系统,能在保证解质量的前提下,降低并行计算中的通信开销。在曙光4000L并行机上进行的数值实验结果表明... 现有蚁群系统在求解大规模组合优化问题时所需的计算时间较长。针对该不足,提出基于消息传递接口的粗粒度异步协作并行最大最小蚂蚁系统,能在保证解质量的前提下,降低并行计算中的通信开销。在曙光4000L并行机上进行的数值实验结果表明,该系统具有较优的并行加速比和加速效率,且适合于大规模TSP问题的求解。 展开更多
关键词 并行最大最小蚂蚁系统 消息传递接口 部分异步并行实现 粗粒度 多蚁群协作
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部