期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于OpenMP的分子动力学并行算法的性能分析与优化 被引量:10
1
作者 白明泽 程丽 +1 位作者 豆育升 孙世新 《计算机应用》 CSCD 北大核心 2012年第1期163-166,共4页
为提高分子动力学模拟在共享内存式服务器上的计算速度,对基于OpenMP的分子动力学并行算法(Critical方法)进行了性能分析与优化。通过在多核服务器上的测试,以及加速比和并行效率的计算分析了Critical方法的并行性能,进而提出优化的三... 为提高分子动力学模拟在共享内存式服务器上的计算速度,对基于OpenMP的分子动力学并行算法(Critical方法)进行了性能分析与优化。通过在多核服务器上的测试,以及加速比和并行效率的计算分析了Critical方法的并行性能,进而提出优化的三角形方法。所提方法中每个线程所计算的粒子数固定,且粒子数目呈阶梯状上升,使得各线程能够错时到达临界区。从而使程序在临界区的闲置时间比Critical方法减半,加速比明显提高。 展开更多
关键词 分子动力学 并行计算 多核中央处理器 openmp 临界区
在线阅读 下载PDF
面向嵌入式多核的OpenMP扩展方法(英文)
2
作者 王庆 季振洲 刘涛 《计算机科学与探索》 CSCD 2011年第1期81-86,共6页
为多核平台开发一种有效的编程方法已经成为并行软件研究的一个重要目标。在嵌入式多核平台上进行了OpenMP并行程序的有效的实施运行。针对嵌入式具有有限内存资源的特点,提出了通过扩展OpenMP自定义制导语句tiling来提高并行程序在嵌... 为多核平台开发一种有效的编程方法已经成为并行软件研究的一个重要目标。在嵌入式多核平台上进行了OpenMP并行程序的有效的实施运行。针对嵌入式具有有限内存资源的特点,提出了通过扩展OpenMP自定义制导语句tiling来提高并行程序在嵌入式多核平台上的运行效率。扩展后的OpenMP并行程序支持循环分片,从而能够充分利用层次内存结构。实验结果证明,该方法在嵌入式多核平台上的运行性能能够提高10%。 展开更多
关键词 嵌入式多核 openmp 循环分片
在线阅读 下载PDF
一种多线程负载均衡分析方法研究 被引量:5
3
作者 陈佐 杨秋伟 +1 位作者 万新 任小西 《计算机应用研究》 CSCD 北大核心 2011年第5期1752-1755,1760,共5页
为了精确分析负载均衡问题,以优化程序运行性能,确定了负载均衡分析单元,度量了负载不均衡程度以及潜在的并行调整效率,提出了一种以负载均衡分析单元为分析对象来检测、分析、调整OpenMP多线程程序负载均衡的方法。该方法在隐含同步显... 为了精确分析负载均衡问题,以优化程序运行性能,确定了负载均衡分析单元,度量了负载不均衡程度以及潜在的并行调整效率,提出了一种以负载均衡分析单元为分析对象来检测、分析、调整OpenMP多线程程序负载均衡的方法。该方法在隐含同步显示化的基础上,使用指导语句改写的方法对源程序进行插桩并获取性能数据;在负载均衡方面,对程序进行性能分析,根据潜在的并行调整效率有选择地对程序进行负载均衡调整。实验表明该方法是可行有效的。 展开更多
关键词 openmp 负载均衡分析单元 插桩 负载均衡调整
在线阅读 下载PDF
针对特普利茨线性系统的多级并行算法
4
作者 张哲 《计算机工程》 CAS CSCD 北大核心 2011年第1期36-38,共3页
利用并行体系结构中不同层次级别的内存和计算单元,提出一种求解对称结构化特普利茨线性系统的多级并行算法。通过数学推导将特普利茨线性系统转换成柯西式线性系统,利用消息传递接口和开放多平台共享内存并行程序设计工具实现该算法,... 利用并行体系结构中不同层次级别的内存和计算单元,提出一种求解对称结构化特普利茨线性系统的多级并行算法。通过数学推导将特普利茨线性系统转换成柯西式线性系统,利用消息传递接口和开放多平台共享内存并行程序设计工具实现该算法,并通过实验验证其可行性。 展开更多
关键词 特普利茨矩阵 柯西式矩阵 多级并行程序设计 消息传递接口 开放多平台共享内存并行程序设计
在线阅读 下载PDF
多核CPU下的K-means遥感影像分类并行方法 被引量:11
5
作者 吴洁璇 陈振杰 +2 位作者 张云倩 骈宇哲 周琛 《计算机应用》 CSCD 北大核心 2015年第5期1296-1301,共6页
针对海量遥感影像快速分类的应用需求,提出一种基于K-means算法的遥感影像并行分类方法。该方法结合CPU下进程级与线程级模式的并行特征,设计融合进程级与线程级并行的两阶段数据粒度划分方法和任务调度方法,在保证精度的基础上实现并... 针对海量遥感影像快速分类的应用需求,提出一种基于K-means算法的遥感影像并行分类方法。该方法结合CPU下进程级与线程级模式的并行特征,设计融合进程级与线程级并行的两阶段数据粒度划分方法和任务调度方法,在保证精度的基础上实现并行加速。利用大数据量的多尺度遥感影像进行实验,结果表明:所提并行方法可大大减少遥感影像的分类时间,取得了良好的加速比(13.83),并可达到负载均衡,从而解决了大区域遥感影像快速分类的问题。 展开更多
关键词 K-MEANS算法 并行计算 负载均衡 数据粒度划分 消息传递接口 open MP
在线阅读 下载PDF
多核CPU和GPU加速分子动力学模拟 被引量:6
6
作者 林江宏 林锦贤 吕暾 《计算机应用》 CSCD 北大核心 2011年第3期843-847,共5页
在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了... 在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了计算机的处理能力。性能测试结果表明,相对于优化后的CPU串行计算,多核CPU-GPU异构并行计算模型有强大的性能优势,特别是将占整个程序执行时间90%的作用力的计算移植到GPU上执行,获得了最高可达12倍的计算加速比。 展开更多
关键词 分子动力学 图形处理器 多核中央处理器 AMBER力场 计算统一设备架构 openmp
在线阅读 下载PDF
基于格子Boltzmann方法和大涡模拟的颈动脉分叉狭窄流动并行计算 被引量:2
7
作者 张毅卓 葛森 +3 位作者 王良军 谢江 曹洁 张武 《计算机应用》 CSCD 北大核心 2020年第2期404-409,共6页
颈动脉斑块的形成与复杂的血流动力学因素密切相关,血液流动状况的精确模拟对颈动脉斑块的临床诊断具有重要意义。为了精确模拟脉动流场,在格子Boltzmann方法(LBM)的基础上,添加大涡模拟(LES)模型,建立了LBM-LES颈动脉模拟算法。利用医... 颈动脉斑块的形成与复杂的血流动力学因素密切相关,血液流动状况的精确模拟对颈动脉斑块的临床诊断具有重要意义。为了精确模拟脉动流场,在格子Boltzmann方法(LBM)的基础上,添加大涡模拟(LES)模型,建立了LBM-LES颈动脉模拟算法。利用医学图像重构软件,建立颈动脉狭窄真实几何模型,对颈动脉狭窄脉动流动进行了数值模拟,通过计算血液流动速度、壁面剪切应力(WSS)等,得出了有意义的流动结果,验证了LBM-LES对颈动脉狭窄后段血液流动研究的有效性。基于OpenMP编程环境,在高性能集群机全互联胖节点上进行了千万量级网格的并行计算,结果表明LBM-LES颈动脉模拟算法具有较好的并行性能。 展开更多
关键词 格子BOLTZMANN方法 大涡模拟 颈动脉狭窄 壁面剪切力 openmp
在线阅读 下载PDF
基于CPU与GPU的异构模板计算优化研究 被引量:4
8
作者 李博 黄东强 +3 位作者 贾金芳 吴利 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2023年第4期131-137,共7页
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基... 模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。 展开更多
关键词 模板计算 消息传递接口 跨平台多线程 单指令多数据 非一致内存访问 统一计算设备架构
在线阅读 下载PDF
月面地形重构系统中的并行Delaunay算法设计
9
作者 王喆 高三红 +1 位作者 郑慧英 李立春 《计算机应用》 CSCD 北大核心 2013年第8期2177-2183,共7页
三角剖分过程是影响三维重建系统实时性的瓶颈之一,为提高三角剖分速度,基于共享内存多核计算机设计并实现了并行Delaunay算法。该算法在分治三角剖分算法的基础上,通过改进子三角网归并过程及Delaunay三角网优化过程避免了并行计算中... 三角剖分过程是影响三维重建系统实时性的瓶颈之一,为提高三角剖分速度,基于共享内存多核计算机设计并实现了并行Delaunay算法。该算法在分治三角剖分算法的基础上,通过改进子三角网归并过程及Delaunay三角网优化过程避免了并行计算中的数据竞争问题。利用月面仿真实验场真实地形数据在50万到500万不同规模的点云数据集上进行了实验,加速比最高可达6.44。除此之外,对算法复杂度、加速比以及并行效率进行了全面分析,并将算法实际应用于月面地形重构系统,实现了虚拟地形的快速构建。 展开更多
关键词 DELAUNAY算法 并行计算 地形重构 开放多处理 多维树
在线阅读 下载PDF
并行Harris特征点检测算法 被引量:1
10
作者 朱超 吴素萍 《计算机科学》 CSCD 北大核心 2019年第S11期289-293,共5页
针对三维重建大数据量问题中的特征点提取算法,存在运算量大、耗时多、效率低等问题,文中对Harris特征点检测算法进行改进,提出了基于OpenMP的多核CPU和基于CUDA及OpenCL框架的GPU下的Harris特征点检测并行算法。在不同实验平台进行对... 针对三维重建大数据量问题中的特征点提取算法,存在运算量大、耗时多、效率低等问题,文中对Harris特征点检测算法进行改进,提出了基于OpenMP的多核CPU和基于CUDA及OpenCL框架的GPU下的Harris特征点检测并行算法。在不同实验平台进行对比实验,实验结果表明,基于CUDA及OpenCL框架的GPU并行特征点检测算法具有良好的数据和平台可扩展性,基于GPU并行特征点检测算法的加速比最高可达91.19,加速效果显著。基于OpenMP的多核CPU特征点检测算法具有良好的多核可扩展性。 展开更多
关键词 HARRIS 特征点检测 共享存储并行编程 计算机统一设备架构 开放式计算语言 并行算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部