期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于OpenMP的分子动力学并行算法的性能分析与优化 被引量:10
1
作者 白明泽 程丽 +1 位作者 豆育升 孙世新 《计算机应用》 CSCD 北大核心 2012年第1期163-166,共4页
为提高分子动力学模拟在共享内存式服务器上的计算速度,对基于OpenMP的分子动力学并行算法(Critical方法)进行了性能分析与优化。通过在多核服务器上的测试,以及加速比和并行效率的计算分析了Critical方法的并行性能,进而提出优化的三... 为提高分子动力学模拟在共享内存式服务器上的计算速度,对基于OpenMP的分子动力学并行算法(Critical方法)进行了性能分析与优化。通过在多核服务器上的测试,以及加速比和并行效率的计算分析了Critical方法的并行性能,进而提出优化的三角形方法。所提方法中每个线程所计算的粒子数固定,且粒子数目呈阶梯状上升,使得各线程能够错时到达临界区。从而使程序在临界区的闲置时间比Critical方法减半,加速比明显提高。 展开更多
关键词 分子动力学 并行计算 多核中央处理器 openmp 临界区
在线阅读 下载PDF
面向嵌入式多核的OpenMP扩展方法(英文)
2
作者 王庆 季振洲 刘涛 《计算机科学与探索》 CSCD 2011年第1期81-86,共6页
为多核平台开发一种有效的编程方法已经成为并行软件研究的一个重要目标。在嵌入式多核平台上进行了OpenMP并行程序的有效的实施运行。针对嵌入式具有有限内存资源的特点,提出了通过扩展OpenMP自定义制导语句tiling来提高并行程序在嵌... 为多核平台开发一种有效的编程方法已经成为并行软件研究的一个重要目标。在嵌入式多核平台上进行了OpenMP并行程序的有效的实施运行。针对嵌入式具有有限内存资源的特点,提出了通过扩展OpenMP自定义制导语句tiling来提高并行程序在嵌入式多核平台上的运行效率。扩展后的OpenMP并行程序支持循环分片,从而能够充分利用层次内存结构。实验结果证明,该方法在嵌入式多核平台上的运行性能能够提高10%。 展开更多
关键词 嵌入式多核 openmp 循环分片
在线阅读 下载PDF
异构平台上基于OpenCL的矩阵乘并行算法 被引量:3
3
作者 肖汉 肖诗洋 +1 位作者 李彩林 周清雷 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第11期147-153,共7页
在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上,从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法,并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示,与基于CPU的单线程算法、基于OpenMP多... 在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上,从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法,并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示,与基于CPU的单线程算法、基于OpenMP多线程算法和基于统一计算设备架构(CUDA)并行算法相比,基于OpenCL架构的矩阵乘并行算法效率更高. 展开更多
关键词 矩阵乘 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
露天矿全流程智能开采架构与关键技术研究 被引量:5
4
作者 曲福明 王怀远 +2 位作者 柳小波 岳星彤 马意彭 《金属矿山》 CAS 北大核心 2024年第5期134-143,共10页
针对目前大型金属露天矿智能建设过程中存在的系统规划难、系统智能难和系统协同难三大难题,开展了大型金属露天矿全流程智能开采架构与关键技术研究及应用。基于大型金属露天矿智能安全开采的全工艺流程,构建了包括“三大平台、四大层... 针对目前大型金属露天矿智能建设过程中存在的系统规划难、系统智能难和系统协同难三大难题,开展了大型金属露天矿全流程智能开采架构与关键技术研究及应用。基于大型金属露天矿智能安全开采的全工艺流程,构建了包括“三大平台、四大层次和四大板块”在内的大型金属露天矿智能矿山的总体架构,设计了穿孔、爆破、采装、运输和排卸五大生产工序全流程智能安全开采框架,提出了涵盖设备状态及运行环境智能感知、智能导航与设备行为规划和智能装备核心控制等在内的多环节、系列化的智能开采关键技术。研究成果成功应用于齐大山露天铁矿,分别以齐大山矿智能生产中的三维模拟仿真系统、智能指挥调度系统和钻机远程遥控系统为例进行了相关技术的阐述与应用效果分析。最终在齐大山矿实现了多场景、多环节、多工序的智能安全应用,形成了“全流程规划—多工序智能—多场景联动”的大型金属露天矿智能开采模式,解决了露天矿智能开采关键共性理论和技术难题,对我国露天矿智能化建设具有一定的参考意义。 展开更多
关键词 金属露天矿 智能开采 全流程 多工序 总体架构 智慧生产
在线阅读 下载PDF
一种多线程负载均衡分析方法研究 被引量:5
5
作者 陈佐 杨秋伟 +1 位作者 万新 任小西 《计算机应用研究》 CSCD 北大核心 2011年第5期1752-1755,1760,共5页
为了精确分析负载均衡问题,以优化程序运行性能,确定了负载均衡分析单元,度量了负载不均衡程度以及潜在的并行调整效率,提出了一种以负载均衡分析单元为分析对象来检测、分析、调整OpenMP多线程程序负载均衡的方法。该方法在隐含同步显... 为了精确分析负载均衡问题,以优化程序运行性能,确定了负载均衡分析单元,度量了负载不均衡程度以及潜在的并行调整效率,提出了一种以负载均衡分析单元为分析对象来检测、分析、调整OpenMP多线程程序负载均衡的方法。该方法在隐含同步显示化的基础上,使用指导语句改写的方法对源程序进行插桩并获取性能数据;在负载均衡方面,对程序进行性能分析,根据潜在的并行调整效率有选择地对程序进行负载均衡调整。实验表明该方法是可行有效的。 展开更多
关键词 openmp 负载均衡分析单元 插桩 负载均衡调整
在线阅读 下载PDF
面向CIMS的多数据源互操作与开放分布处理系统———CIMS-MIODP的设计与实现 被引量:5
6
作者 李贵 尹朝万 《计算机集成制造系统-CIMS》 EI CSCD 1999年第4期35-40,共6页
多数据源互操作与开放分布处理系统CIMS-MIODP是采用分布对象互操作与代理技术,实现面向CIMS的基于RPC的远程对象访问ROA(RemoteObjectAces)功能和基于SQL3的远程数据库访问RDA(Rem... 多数据源互操作与开放分布处理系统CIMS-MIODP是采用分布对象互操作与代理技术,实现面向CIMS的基于RPC的远程对象访问ROA(RemoteObjectAces)功能和基于SQL3的远程数据库访问RDA(RemotDatabaseAces)功能的系统,为CIMS环境下的信息集成与分布处理提供了不同层次的支持功能。本文讨论了CIMS-MIODP系统的主要设计和实现问题,包括基本模型、扩展服务和协议、对SQL3的支持、系统实现结构等。 展开更多
关键词 CIMS 数据源 互损伤 分布处理系统
在线阅读 下载PDF
CIMS环境下开放分布处理系统研究与实现 被引量:5
7
作者 尹朝万 李贵 +1 位作者 汪小男 齐潇隽 《计算机集成制造系统-CIMS》 EI CSCD 1997年第3期42-45,共4页
本文给出了CIMS环境下的实现应用系统、多种数据源互操作与开放式分布处理(ODP)系统的实现机制、方法和原型系统。提出了基于数据库远程访问(RDA)、数据库远程调用(DBRPC)规范的ODP层次模型;给出了实现RDA... 本文给出了CIMS环境下的实现应用系统、多种数据源互操作与开放式分布处理(ODP)系统的实现机制、方法和原型系统。提出了基于数据库远程访问(RDA)、数据库远程调用(DBRPC)规范的ODP层次模型;给出了实现RDA、DBRPC的多数据源互操作客户/服务代理机制与实现结构,RDA/DBRPC数据通信服务器互连机制,语言接口和应用编程接口。 展开更多
关键词 数据源 信息集成 ODP CIMS
在线阅读 下载PDF
空地域A2G大规模MIMO信道建模与分析 被引量:1
8
作者 周杰 吴苏洁 +1 位作者 王学英 吕智康 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第4期707-714,共8页
为了研究空地环境的三维大规模多输入多输出天线阵列信道传射特性,提出了一种三维单射球形散射体的无人机、车空地大规模多输入多输出信道模型.相比以往的空地多输入多输出天线模型,在建模过程中考虑互耦效应对天线阵列的影响,并采用生... 为了研究空地环境的三维大规模多输入多输出天线阵列信道传射特性,提出了一种三维单射球形散射体的无人机、车空地大规模多输入多输出信道模型.相比以往的空地多输入多输出天线模型,在建模过程中考虑互耦效应对天线阵列的影响,并采用生灭过程对大规模多输入多输出天线的非平稳特性进行理论分析和建模,推导无人机和车在任意运动状态下的不同高度、运动方向以及时间的互相关函数以及不同角度扩展下对信道容量的影响.利用以往文献的空地实测数据和本模型仿真结果进行对比,数值结果表明该信道模型的特性与实际测量结果拟合程度高.通过分析衰落信道数据可知,在一定范围内增加天线间距和数量以及控制无人机飞行高度和俯仰角可以有效提升信道容量,这为设计航空通信链路中使用的大规模多输入多输出天线和定向天线中天线阵列的先进信号处理技术奠定了基础. 展开更多
关键词 空地一体化 无人机信道模型 互相关函数 大规模多输入多输出天线通信 生灭过程
在线阅读 下载PDF
多核CPU下的K-means遥感影像分类并行方法 被引量:11
9
作者 吴洁璇 陈振杰 +2 位作者 张云倩 骈宇哲 周琛 《计算机应用》 CSCD 北大核心 2015年第5期1296-1301,共6页
针对海量遥感影像快速分类的应用需求,提出一种基于K-means算法的遥感影像并行分类方法。该方法结合CPU下进程级与线程级模式的并行特征,设计融合进程级与线程级并行的两阶段数据粒度划分方法和任务调度方法,在保证精度的基础上实现并... 针对海量遥感影像快速分类的应用需求,提出一种基于K-means算法的遥感影像并行分类方法。该方法结合CPU下进程级与线程级模式的并行特征,设计融合进程级与线程级并行的两阶段数据粒度划分方法和任务调度方法,在保证精度的基础上实现并行加速。利用大数据量的多尺度遥感影像进行实验,结果表明:所提并行方法可大大减少遥感影像的分类时间,取得了良好的加速比(13.83),并可达到负载均衡,从而解决了大区域遥感影像快速分类的问题。 展开更多
关键词 K-MEANS算法 并行计算 负载均衡 数据粒度划分 消息传递接口 open MP
在线阅读 下载PDF
多核CPU和GPU加速分子动力学模拟 被引量:6
10
作者 林江宏 林锦贤 吕暾 《计算机应用》 CSCD 北大核心 2011年第3期843-847,共5页
在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了... 在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了计算机的处理能力。性能测试结果表明,相对于优化后的CPU串行计算,多核CPU-GPU异构并行计算模型有强大的性能优势,特别是将占整个程序执行时间90%的作用力的计算移植到GPU上执行,获得了最高可达12倍的计算加速比。 展开更多
关键词 分子动力学 图形处理器 多核中央处理器 AMBER力场 计算统一设备架构 openmp
在线阅读 下载PDF
基于CPU与GPU的异构模板计算优化研究 被引量:4
11
作者 李博 黄东强 +3 位作者 贾金芳 吴利 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2023年第4期131-137,共7页
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基... 模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。 展开更多
关键词 模板计算 消息传递接口 跨平台多线程 单指令多数据 非一致内存访问 统一计算设备架构
在线阅读 下载PDF
面向异构架构的传递闭包并行算法 被引量:3
12
作者 肖汉 郭宝云 +1 位作者 李彩林 周清雷 《计算机工程》 CAS CSCD 北大核心 2021年第8期131-139,共9页
传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言(OpenCL)框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于Op... 传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言(OpenCL)框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于OpenCL的传递闭包并行算法。利用本地存储器优化的并行子矩阵乘算法来优化计算步骤,提高图形处理器(GPU)的存储器利用率,降低数据获取延迟。通过分块矩阵乘并行计算算法实现大数据量的矩阵乘,提高GPU计算核心的利用率。数据结果表明,与CPU串行算法、基于开放多处理的并行算法和基于统一设备计算架构的并行算法相比,传递闭包并行算法在OpenCL架构下NVIDIA GeForce GTX 1070计算平台上分别获得了593.14倍、208.62倍和1.05倍的加速比。 展开更多
关键词 矩阵乘 传递闭包 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
基于格子Boltzmann方法和大涡模拟的颈动脉分叉狭窄流动并行计算 被引量:2
13
作者 张毅卓 葛森 +3 位作者 王良军 谢江 曹洁 张武 《计算机应用》 CSCD 北大核心 2020年第2期404-409,共6页
颈动脉斑块的形成与复杂的血流动力学因素密切相关,血液流动状况的精确模拟对颈动脉斑块的临床诊断具有重要意义。为了精确模拟脉动流场,在格子Boltzmann方法(LBM)的基础上,添加大涡模拟(LES)模型,建立了LBM-LES颈动脉模拟算法。利用医... 颈动脉斑块的形成与复杂的血流动力学因素密切相关,血液流动状况的精确模拟对颈动脉斑块的临床诊断具有重要意义。为了精确模拟脉动流场,在格子Boltzmann方法(LBM)的基础上,添加大涡模拟(LES)模型,建立了LBM-LES颈动脉模拟算法。利用医学图像重构软件,建立颈动脉狭窄真实几何模型,对颈动脉狭窄脉动流动进行了数值模拟,通过计算血液流动速度、壁面剪切应力(WSS)等,得出了有意义的流动结果,验证了LBM-LES对颈动脉狭窄后段血液流动研究的有效性。基于OpenMP编程环境,在高性能集群机全互联胖节点上进行了千万量级网格的并行计算,结果表明LBM-LES颈动脉模拟算法具有较好的并行性能。 展开更多
关键词 格子BOLTZMANN方法 大涡模拟 颈动脉狭窄 壁面剪切力 openmp
在线阅读 下载PDF
月面地形重构系统中的并行Delaunay算法设计
14
作者 王喆 高三红 +1 位作者 郑慧英 李立春 《计算机应用》 CSCD 北大核心 2013年第8期2177-2183,共7页
三角剖分过程是影响三维重建系统实时性的瓶颈之一,为提高三角剖分速度,基于共享内存多核计算机设计并实现了并行Delaunay算法。该算法在分治三角剖分算法的基础上,通过改进子三角网归并过程及Delaunay三角网优化过程避免了并行计算中... 三角剖分过程是影响三维重建系统实时性的瓶颈之一,为提高三角剖分速度,基于共享内存多核计算机设计并实现了并行Delaunay算法。该算法在分治三角剖分算法的基础上,通过改进子三角网归并过程及Delaunay三角网优化过程避免了并行计算中的数据竞争问题。利用月面仿真实验场真实地形数据在50万到500万不同规模的点云数据集上进行了实验,加速比最高可达6.44。除此之外,对算法复杂度、加速比以及并行效率进行了全面分析,并将算法实际应用于月面地形重构系统,实现了虚拟地形的快速构建。 展开更多
关键词 DELAUNAY算法 并行计算 地形重构 开放多处理 多维树
在线阅读 下载PDF
并行Harris特征点检测算法 被引量:1
15
作者 朱超 吴素萍 《计算机科学》 CSCD 北大核心 2019年第S11期289-293,共5页
针对三维重建大数据量问题中的特征点提取算法,存在运算量大、耗时多、效率低等问题,文中对Harris特征点检测算法进行改进,提出了基于OpenMP的多核CPU和基于CUDA及OpenCL框架的GPU下的Harris特征点检测并行算法。在不同实验平台进行对... 针对三维重建大数据量问题中的特征点提取算法,存在运算量大、耗时多、效率低等问题,文中对Harris特征点检测算法进行改进,提出了基于OpenMP的多核CPU和基于CUDA及OpenCL框架的GPU下的Harris特征点检测并行算法。在不同实验平台进行对比实验,实验结果表明,基于CUDA及OpenCL框架的GPU并行特征点检测算法具有良好的数据和平台可扩展性,基于GPU并行特征点检测算法的加速比最高可达91.19,加速效果显著。基于OpenMP的多核CPU特征点检测算法具有良好的多核可扩展性。 展开更多
关键词 HARRIS 特征点检测 共享存储并行编程 计算机统一设备架构 开放式计算语言 并行算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部