期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于GPGPU的海量山地地形数据的实时绘制算法 被引量:3
1
作者 王春 马纯永 陈戈 《计算机应用》 CSCD 北大核心 2009年第8期2105-2108,共4页
针对山地地形海量数据的特点,基于GPU的GeometricalClipmap算法,应用简化的工作流程,结合GPGPU技术,采用了一种更为合理的高程数据组织交换模式,通过引入高程误差数据巧妙地解决不同分辨率之间的裂缝问题,并对高分辨率的遥感影像作为地... 针对山地地形海量数据的特点,基于GPU的GeometricalClipmap算法,应用简化的工作流程,结合GPGPU技术,采用了一种更为合理的高程数据组织交换模式,通过引入高程误差数据巧妙地解决不同分辨率之间的裂缝问题,并对高分辨率的遥感影像作为地形纹理的实现方法加以补充,进而实现可应用于虚拟现实系统的海量地形数据的实时可视化。 展开更多
关键词 基于GPU的通用计算 几何体剪切图 山地地形 海量数据
在线阅读 下载PDF
基于GPGPU和CUDA的高速AES算法的实现和优化 被引量:3
2
作者 顾青 高能 +1 位作者 包珍珍 向继 《中国科学院研究生院学报》 CAS CSCD 北大核心 2011年第6期776-785,共10页
随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(comput... 随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(compute unified devicearchitecture,统一计算架构)的出现更加速了GPGPU应用面的扩张.基于GPGPU和CUDA技术对AES算法的实现进行加速,得到整体吞吐量6~7Gbit/s的速度.如果不考虑数据加载时间,对于1MB以上的输入规模,吞吐量可以达到20Gbit/s. 展开更多
关键词 通用图像处理器 统一计算架构 AES算法 并行计算
在线阅读 下载PDF
基于Tensor Cores的新型GPU架构的高性能Cholesky分解
3
作者 石璐 邹高远 +1 位作者 伍思琦 张少帅 《计算机工程与科学》 北大核心 2025年第7期1170-1180,共11页
稠密矩阵乘法(GEMMs)在Tensor Cores上可以实现高度优化。然而,现有的Cholesky分解的实现由于其有限的并行性无法达到Tensor Cores大部分的峰值性能。研究使用一种递归Cholesky分解的算法,通过将对角线块的递归细分,将原本的对称矩阵秩... 稠密矩阵乘法(GEMMs)在Tensor Cores上可以实现高度优化。然而,现有的Cholesky分解的实现由于其有限的并行性无法达到Tensor Cores大部分的峰值性能。研究使用一种递归Cholesky分解的算法,通过将对角线块的递归细分,将原本的对称矩阵秩K更新(SYRK)和三角方程组求解(TRSM)操作转化为大量的通用矩阵乘法(GEMMs),从而更充分地发挥Tensor Cores的峰值性能。实验结果表明,提出的递归Cholesky分解算法在FP32和FP16上分别比MAGMA/cuSOLVER算法提高了1.72倍和1.62倍。 展开更多
关键词 CHOLESKY分解 高性能计算 数值线性代数 通用图形处理器(gpgpu)
在线阅读 下载PDF
基于GPGPU的大整数矩阵行列式快速准确计算方法 被引量:1
4
作者 魏渐俊 陈良育 《计算机工程》 CAS CSCD 北大核心 2018年第3期47-54,共8页
传统计算数值矩阵行列式的方法多数基于串行计算,存在初等变换频繁、计算缓慢等问题。为此,提出基于通用计算图形处理器(GPGPU)的计算方法,以快速准确解决大整数矩阵行列式计算问题。在众核环境下利用GPGPU和模方法并行求解整数矩阵行列... 传统计算数值矩阵行列式的方法多数基于串行计算,存在初等变换频繁、计算缓慢等问题。为此,提出基于通用计算图形处理器(GPGPU)的计算方法,以快速准确解决大整数矩阵行列式计算问题。在众核环境下利用GPGPU和模方法并行求解整数矩阵行列式,以加速计算过程并避免浮点运算误差,同时运用中国剩余定理得到准确计算结果。实验结果表明,与常用Maple、NTL等计算软件相比,该方法计算速度快,消耗内存少,可解决计算过程中内存膨胀的问题,对于高阶整数矩阵行列式优势较为明显。 展开更多
关键词 通用计算图形处理器 行列式 高性能计算 并行算法 模方法
在线阅读 下载PDF
面向GPU并行编程的线程同步综述 被引量:3
5
作者 高岚 赵雨晨 +2 位作者 张伟功 王晶 钱德沛 《软件学报》 EI CSCD 北大核心 2024年第2期1028-1047,共20页
并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GP... 并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GPU系统却难以高效地支持真实应用中复杂的线程同步.研究者虽然提出了很多支持GPU线程同步的方法并取得了较大进展,但GPU独特的体系结构及并行模式导致GPU线程同步的研究仍然面临很多挑战.根据不同的线程同步目的和粒度对GPU并行编程中的线程同步进行分类.在此基础上,围绕GPU线程同步的表达和执行,首先分析总结GPU线程同步存在的难以高效表达、错误频发、执行效率低的关键问题及挑战;而后依据不同的GPU线程同步粒度,从线程同步表达方法和性能优化方法两个方面入手,介绍近年来学术界和产业界对GPU线程竞争同步及合作同步的研究,对现有研究方法进行分析与总结.最后,指出GPU线程同步未来的研究趋势和发展前景,并给出可能的研究思路,从而为该领域的研究人员提供参考. 展开更多
关键词 通用图形处理器(gpgpu) 并行编程 线程同步 性能优化
在线阅读 下载PDF
新能源电力系统细粒度并行与多速率电磁暂态仿真 被引量:3
6
作者 王啟国 徐晋 +2 位作者 汪可友 周建其 樊涛 《电力系统自动化》 EI CSCD 北大核心 2024年第3期113-121,共9页
随着可再生能源的快速发展,电力系统设备类型越来越多,系统振荡特征越来越复杂,对电磁暂态仿真的精度和效率提出了更高要求。基于大规模集成电路设计中所使用的延迟插入法(LIM),提出了新能源电力系统的细粒度建模方法,并结合图形处理器(... 随着可再生能源的快速发展,电力系统设备类型越来越多,系统振荡特征越来越复杂,对电磁暂态仿真的精度和效率提出了更高要求。基于大规模集成电路设计中所使用的延迟插入法(LIM),提出了新能源电力系统的细粒度建模方法,并结合图形处理器(GPU)的资源优势,实现了算法的并行求解。所提方法将传统交流电网与电力电子设备进行解耦,并基于混合数值稳定性判据和局部截断误差的方法确定了各子系统的步长。然后,通过插值实现了新能源电力系统的多速率仿真。最后,基于GPU硬件平台,以含新能源接入的改进39节点系统为例验证了所提方法的精度,并以不同规模的新能源接入、不同仿真步长的组合验证了所提方法在仿真效率方面的优势。 展开更多
关键词 可再生能源 电力系统 电磁暂态仿真 并行计算 细粒度仿真 多速率仿真 延迟插入法 图形处理器
在线阅读 下载PDF
基于GPU的并行优化技术 被引量:23
7
作者 左颢睿 张启衡 +1 位作者 徐勇 赵汝进 《计算机应用研究》 CSCD 北大核心 2009年第11期4115-4118,共4页
针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法... 针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。 展开更多
关键词 图形处理器 并行优化 累加和 统一计算设备架构
在线阅读 下载PDF
地震叠前时间偏移的一种图形处理器提速实现方法 被引量:74
8
作者 李博 刘国峰 刘洪 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2009年第1期245-252,共8页
新近发展的图形处理器(GPU,Graphic Processing Unit)通用计算技术,现已日趋实用成型,并获得诸多应用领域的广泛关注.对油气勘探专项资料处理技术的运用而言,概因GPU与中央处理器(CPU)的计算性能的甚大差异,致使GPU这一通用计算技... 新近发展的图形处理器(GPU,Graphic Processing Unit)通用计算技术,现已日趋实用成型,并获得诸多应用领域的广泛关注.对油气勘探专项资料处理技术的运用而言,概因GPU与中央处理器(CPU)的计算性能的甚大差异,致使GPU这一通用计算技术在石油工业中的应用研究正在有效开展.本文仅借助于油气勘探中广泛使用的叠前时间偏移,旨在于扼要阐明其基于GPU应用的有效性;文中还提出一种利用GPU实现地震叠前时间偏移的软件构件方法,并针对非对称走时叠前时间偏移所拓展的应用软件提供一种具体实现架构.与以往用个人计算机(PC,Personal Computer)或者PC集群所用的叠前时间偏移相比,本文方法可甚大地提高计算效率,从而在石油物探资料处理中可显著地节约计算成本和维护费用.文中实际例证也表明,基于GPU进行高性能并行计算,当是适应目前石油工业中大规模计算需求的一个重要发展途径. 展开更多
关键词 非对称走时叠前时间偏移 图形处理器 GPU通用计算 统一计算设备架构
在线阅读 下载PDF
基于CUDA的高速FFT计算 被引量:22
9
作者 赵丽丽 张盛兵 +1 位作者 张萌 姚涛 《计算机应用研究》 CSCD 北大核心 2011年第4期1556-1559,共4页
针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明... 针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明了该算法的高效性,且优化后的FFT加速比能达到CUFFT库加速比的2~6倍。 展开更多
关键词 图形处理器 统一计算架构 映射策略 存储层次
在线阅读 下载PDF
并行时空处理模型下的快速N-body算法 被引量:3
10
作者 王伟 曾栩鸿 +2 位作者 王福焕 傅丽丽 曾国荪 《计算机科学与探索》 CSCD 2011年第11期1006-1013,共8页
图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的... 图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的应用程序接口(application programming interface,API),便于程序员发挥GPU的并行计算能力。采用图形硬件进行加速计算,通过一种新的GPU处理模型——并行时间空间模型,对现有GPU上的N-body实现进行了分析,从而提出了一种新的GPU上快速仿真N-body问题的算法,并在AMD的HD Radeon 5850上进行了实现。实验结果表明,相对于CPU上的实现,获得了400倍左右的加速;相对于已有GPU上的实现,也获得了2至5倍的加速。 展开更多
关键词 N-BODY 并行计算 通用图形处理器(gpgpu) 时间空间模型
在线阅读 下载PDF
基于图形处理器的通用计算模式 被引量:9
11
作者 王磊 张春燕 《计算机应用研究》 CSCD 北大核心 2009年第6期2356-2358,共3页
针对GPU图形处理的特点,分析其应用于通用计算的并行处理机制和数据映射,提出了一种GPU通用计算模式的映射机制和一般性设计方法,并针对GPU的吞吐量、数据流处理能力和基本数学运算能力等进行性能测试,为GPU通用计算的算法设计、实现和... 针对GPU图形处理的特点,分析其应用于通用计算的并行处理机制和数据映射,提出了一种GPU通用计算模式的映射机制和一般性设计方法,并针对GPU的吞吐量、数据流处理能力和基本数学运算能力等进行性能测试,为GPU通用计算的算法设计、实现和性能优化提供参考依据。 展开更多
关键词 图形处理器 通用计算 图形流水线
在线阅读 下载PDF
图形处理器(GPU)加速时域有限元的二维辐射计算 被引量:5
12
作者 刘昆 王晓斌 廖成 《电波科学学报》 EI CSCD 北大核心 2008年第1期111-114,共4页
时域有限元方法是在电磁场与微波工程领域广泛应用的方法之一。然而,时域有限元在大型机上运行时都是相当缓慢的。对时域有限元计算的硬件加速的研究已经开始进行。与同一代技术的CPU比较,目前一般用户的图形加速卡(GPU)对时域有限元的... 时域有限元方法是在电磁场与微波工程领域广泛应用的方法之一。然而,时域有限元在大型机上运行时都是相当缓慢的。对时域有限元计算的硬件加速的研究已经开始进行。与同一代技术的CPU比较,目前一般用户的图形加速卡(GPU)对时域有限元的加速可以达到CPU的近4倍左右。以OpenGL作为应用编程接口(API),使用一个标准的商业图形卡编程解决二维时域有限元的辐射问题。 展开更多
关键词 图形加速卡(GPU) 时域有限元(TD-FEM) 通用计算图形处理单元 (gpgpu)
在线阅读 下载PDF
大规模稀疏矩阵的主特征向量计算优化方法 被引量:3
13
作者 王伟 陈建平 +2 位作者 曾国荪 俞莉花 谭一鸣 《计算机科学与探索》 CSCD 2012年第2期118-124,共7页
矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图... 矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图形处理单元求解得到了广泛关注。分别从应用特征和GPU体系结构特征两方面分析了PEC运算的性能瓶颈,提出了一种面向GPU的稀疏矩阵存储格式——GPU-ELL和一个针对GPU的线程优化映射策略,并设计了相应的PEC优化执行算法。在ATI HD Radeon5850上的实验结果表明,相对于传统CPU,该方案获得了最多200倍左右的加速,相对于已有GPU上的实现,也获得了2倍的加速。 展开更多
关键词 图形处理单元通用计算(gpgpu) 主特征向量计算 稀疏矩阵向量乘 线程优化
在线阅读 下载PDF
基于CUDA的拉普拉斯边缘检测算法 被引量:6
14
作者 孟小华 刘坚强 +1 位作者 区业祥 张庆丰 《计算机工程》 CAS CSCD 2012年第18期190-193,共4页
拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并... 拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并行算法。分割天文图像得到多幅子图,根据GPU的硬件配置设定Block和Grid的大小,将子图依次传输到显卡进行并行计算,传回主存后拼接得到完整的图像输出。实验结果表明,图像尺寸越大,该并行算法与串行算法相比具有的速度优势越大,可获得10倍以上的加速比。 展开更多
关键词 拉普拉斯边缘检测算法 图形处理单元 统一计算设备架构 并行处理 天文图像 宇宙射线
在线阅读 下载PDF
基于GPU加速的binLBT压缩解压算法 被引量:3
15
作者 于卓 梁晓辉 +1 位作者 马上 沈旭昆 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2010年第3期368-372,共5页
地形数据的压缩/解压是大规模地形实时绘制方法的关键步骤,与绘制效率密切相关.通过对压缩/解压方法核心重叠双正交变换的分析,采用重叠双正交变换的整数提升方法将变换中的浮点数操作转换为整数操作及移位操作.使用支持图形处理单元(GP... 地形数据的压缩/解压是大规模地形实时绘制方法的关键步骤,与绘制效率密切相关.通过对压缩/解压方法核心重叠双正交变换的分析,采用重叠双正交变换的整数提升方法将变换中的浮点数操作转换为整数操作及移位操作.使用支持图形处理单元(GPU,Graphic Processing Unit)通用计算的CUDA(Compute Unified Device Architecture)对变换过程及编码过程进行加速.针对数据超出显存容量的情况,采取数据分块的方法将数据分别载入显存进行变换与编码以完成对整体数据的处理.实验结果表明,基于GPU加速的重叠双正交变换整数提升方法的压缩算法有效提高了地形数据处理的效率,并加快了大规模地形绘制速度. 展开更多
关键词 重叠双正交变换整数提升 压缩/解压 大规模地形实时绘制 图形处理单元通用计算
在线阅读 下载PDF
基于GPU的单源最短路径算法设计与实现 被引量:4
16
作者 郭绍忠 王伟 +1 位作者 周刚 胡艳 《计算机工程》 CAS CSCD 2012年第2期42-44,共3页
针对目前图形处理器(GPU)上的动态数据处理问题,在分析现有并行单源最短路径(SSSP)算法的基础上,对GPU上的Moore SSSP算法进行并行化设计与实现。搜索时,综合应用层次化任务分配、层次化工作队列、层次化Kernel调用等策略。在不同类型... 针对目前图形处理器(GPU)上的动态数据处理问题,在分析现有并行单源最短路径(SSSP)算法的基础上,对GPU上的Moore SSSP算法进行并行化设计与实现。搜索时,综合应用层次化任务分配、层次化工作队列、层次化Kernel调用等策略。在不同类型图数据上进行实验测试,实验结果表明,该算法能有效减少空线程开销、访存开销以及同步时间。 展开更多
关键词 图形处理器 图论 动态数据 单源最短路径 计算统一设备架构
在线阅读 下载PDF
面向CPU-GPU架构的源到源自动映射方法 被引量:2
17
作者 朱正东 刘袁 +3 位作者 魏洪昌 颜康 王寅峰 董小社 《计算机工程与应用》 CSCD 北大核心 2015年第21期41-47,共7页
针对GPU上应用开发移植困难的问题,提出了一种串行计算源程序到并行计算源程序的映射方法。该方法从串行源程序中获得可并行化循环的层次信息,建立循环体结构与GPU线程的对应关系,生成GPU端核心函数代码;根据变量引用读写属性生成CPU端... 针对GPU上应用开发移植困难的问题,提出了一种串行计算源程序到并行计算源程序的映射方法。该方法从串行源程序中获得可并行化循环的层次信息,建立循环体结构与GPU线程的对应关系,生成GPU端核心函数代码;根据变量引用读写属性生成CPU端控制代码。基于该方法实现了一个编译原型系统,完成了C语言源程序到CUDA源程序的自动生成。对原型系统在功能和性能方面的测试结果表明,该系统生成的CUDA源程序与C语言源程序在功能上一致,其性能有显著提高,在一定程度上解决了计算密集型应用向CPU-GPU异构多核系统移植困难的问题。 展开更多
关键词 通用计算图形处理器(gpgpu) 统一计算架构(CUDA) 自动映射 源到源编译
在线阅读 下载PDF
图形处理器并行计算用于离子发动机粒子模拟 被引量:1
18
作者 仇钎 刘宇 +4 位作者 任军学 汤海滨 钟凌伟 温正 李娟 《强激光与粒子束》 EI CAS CSCD 北大核心 2011年第2期507-511,共5页
为了研究离子发动机羽流对航天器的影响,采用质点网格-蒙特卡罗碰撞方法对离子发动机羽流中的交换电荷离子进行了模拟。利用计算设备统一架构技术,开发出一套基于图形处理器的并行粒子模拟程序。随机数生成采用并行MT19937伪随机数生成... 为了研究离子发动机羽流对航天器的影响,采用质点网格-蒙特卡罗碰撞方法对离子发动机羽流中的交换电荷离子进行了模拟。利用计算设备统一架构技术,开发出一套基于图形处理器的并行粒子模拟程序。随机数生成采用并行MT19937伪随机数生成器算法,电场方程使用完全近似存储格式的代数多重网格法求解。r-z轴对称坐标系中,在z=0 m处获得的电流密度均值为4.5×10^-5A/m^2,图形处理器所得结果与中央处理器模拟结果吻合。在16核心的NVIDIA GeForce 9400 GT图形显示卡上,取得相对于Intel Core 2 E6300中央处理器4.5-10.0倍的加速比。 展开更多
关键词 离子发动机 粒子模拟 多重网格 图形处理器 并行计算
在线阅读 下载PDF
Matlab的图形处理器并行计算及其在拓扑优化中的应用 被引量:3
19
作者 蔡勇 李胜 《计算机应用》 CSCD 北大核心 2016年第3期628-632,652,共6页
针对传统并行计算方法实现结构拓扑优化快速计算的硬件成本高、程序开发效率低的问题,提出了一种基于Matlab和图形处理器(GPU)的双向渐进结构优化(BESO)方法的全流程并行计算策略。首先,探讨了Matlab编程环境中实现GPU并行计算的三种途... 针对传统并行计算方法实现结构拓扑优化快速计算的硬件成本高、程序开发效率低的问题,提出了一种基于Matlab和图形处理器(GPU)的双向渐进结构优化(BESO)方法的全流程并行计算策略。首先,探讨了Matlab编程环境中实现GPU并行计算的三种途径的优缺点和适用范围;其次,分别采用内置函数直接并行的方式实现了拓扑优化算法中向量和稠密矩阵的并行化计算,采用MEX函数调用CUSOLVER库的形式实现了稀疏格式有限元方程组的快速求解,采用并行线程执行(PTX)代码的方式实现了拓扑优化中单元敏度分析等优化决策的并行化计算。数值算例表明,基于Matlab直接开发GPU并行计算程序不仅编程效率高,而且还可以避免不同编程语言间的计算精度差异,最终使GPU并行程序可以在保持计算结果不变的前提下取得可观的加速比。 展开更多
关键词 并行计算 图形处理器 拓扑优化 MATLAB 有限元分析
在线阅读 下载PDF
CPU-GPU协同加速Kriging插值的负载均衡方法 被引量:2
20
作者 姜春雷 张树清 《国防科技大学学报》 EI CAS CSCD 北大核心 2015年第5期35-39,148,共6页
Kriging插值算法被广泛应用于地学各领域,有着极其重要的现实意义,但在面对大规模输出网格及大量输入采样点时,不可避免地遇到了性能瓶颈。利用Open CL和Open MP在异构平台上实现了CPU与GPU协同加速普通Kriging插值。针对Kriging插值中... Kriging插值算法被广泛应用于地学各领域,有着极其重要的现实意义,但在面对大规模输出网格及大量输入采样点时,不可避免地遇到了性能瓶颈。利用Open CL和Open MP在异构平台上实现了CPU与GPU协同加速普通Kriging插值。针对Kriging插值中采样点的不规则分布及CPU和GPU由于体系结构差异对其的不同适应性,提出一种基于不同设备间计算性能的差异和数据分布特点的负载均衡方法。试验结果表明,该方法能有效提高普通Kriging插值速度,同时还能节约存储空间和提高访存效率。 展开更多
关键词 通用计算图形处理器 开放运算语言 KRIGING插值 负载均衡
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部