期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
GPU通用计算及其在计算智能领域的应用 被引量:15
1
作者 丁科 谭营 《智能系统学报》 CSCD 北大核心 2015年第1期1-11,共11页
在日趋复杂的图形处理任务的推动下,GPU已经演化成为具有众多计算核心、计算能力强大的通用计算设备,并被越来越多地应用于图形处理之外的计算领域。GPU具有高并行、低能耗和低成本的特点,在数据并行度高的计算任务中,相比与传统的CPU... 在日趋复杂的图形处理任务的推动下,GPU已经演化成为具有众多计算核心、计算能力强大的通用计算设备,并被越来越多地应用于图形处理之外的计算领域。GPU具有高并行、低能耗和低成本的特点,在数据并行度高的计算任务中,相比与传统的CPU平台有着显著的优势。随着GPU体系结构的不断演进以及开发平台的逐步完善,GPU已经进入到高性能计算的主流行列。GPU通用计算的普及,使个人和小型机构能有机会获得以往昂贵的大型、超级计算机才能提供的计算能力,并一定程度上改变了科学计算领域的格局和编程开发模式。GPU提供的强大计算能力极大地推动了计算智能的发展,并且已经在深度学习和群体智能优化方法等子领域获得了巨大的成功,更是在图像、语音等领域取得了突破性的进展。随着人工智能技术和方法的不断进步,GPU将在更多的领域获得更加广泛的应用。 展开更多
关键词 计算智能 群体智能 演化算法 机器学习 深度学习 图形处理器 gpu通用计算 异构计算 高性能计算
在线阅读 下载PDF
面向多任务的GPU通用计算虚拟化技术研究 被引量:4
2
作者 张云洲 袁家斌 吕相文 《计算机工程与科学》 CSCD 北大核心 2013年第11期119-125,共7页
随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU在通用计算领域的应用越来越广泛,使用GPU集群来进行海量数据计算的例子不胜枚举。但是,相对于CPU,GPU的功耗较大,如果每个节点都配备GPU,则将大大增加集群的功耗。虚拟化技术的引... 随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU在通用计算领域的应用越来越广泛,使用GPU集群来进行海量数据计算的例子不胜枚举。但是,相对于CPU,GPU的功耗较大,如果每个节点都配备GPU,则将大大增加集群的功耗。虚拟化技术的引入使得在虚拟机中利用GPU资源进行通用计算成为可能。为高效、充分地利用GPU,针对GPU的特点,提出了一种面向多任务的可动态调度、支持多用户并发的GPU虚拟化解决方案。在已有的GPU虚拟化方案的基础上,综合考虑虚拟机域间通信的通用性以及任务的周转时间,建立了CUDA管理端来对GPU资源进行统一管理。通过设置综合负载评价值实现负载均衡并降低任务的平均周转时间。在设计的系统上进行大规模矩阵运算实验,结果说明了GPU虚拟化方案在计算系统中的可行性和高效性。 展开更多
关键词 gpu通用计算 虚拟化 CUDA 负载均衡
在线阅读 下载PDF
基于GPU通用计算的并行算法和计算框架的实现 被引量:3
3
作者 朱宇兰 《山东农业大学学报(自然科学版)》 CSCD 2016年第3期473-476,480,共5页
GPU通用计算是近几年来迅速发展的一个计算领域,以其强大的并行处理能力为密集数据单指令型计算提供了一个绝佳的解决方案,但受限制于芯片的制造工艺,其运算能力遭遇瓶颈。本文从GPU通用计算的基础——图形API开始,分析GPU并行算法特征... GPU通用计算是近几年来迅速发展的一个计算领域,以其强大的并行处理能力为密集数据单指令型计算提供了一个绝佳的解决方案,但受限制于芯片的制造工艺,其运算能力遭遇瓶颈。本文从GPU通用计算的基础——图形API开始,分析GPU并行算法特征、运算的过程及特点,并抽象出了一套并行计算框架。通过计算密集行案例,演示了框架的使用方法,并与传统GPU通用计算的实现方法比较,证明了本框架具有代码精简、与图形学无关的特点。 展开更多
关键词 gpu通用计算 并行计算 计算框架
在线阅读 下载PDF
基于GPU的电力系统并行潮流计算的实现 被引量:35
4
作者 夏俊峰 杨帆 +1 位作者 李静 郑秀玉 《电力系统保护与控制》 EI CSCD 北大核心 2010年第18期100-103,110,共5页
在研究GPU通用计算方法和潮流计算算法的基础上,针对GPU计算密集、高度并行化等特点,对潮流计算牛顿法进行了适当的简化,并应用统一计算设备架构(Compute Unified Device Architecture,CUDA)的开发平台,提出了一种基于GPU的并行潮流计... 在研究GPU通用计算方法和潮流计算算法的基础上,针对GPU计算密集、高度并行化等特点,对潮流计算牛顿法进行了适当的简化,并应用统一计算设备架构(Compute Unified Device Architecture,CUDA)的开发平台,提出了一种基于GPU的并行潮流计算程序的设计方法。仿真计算结果表明此算法可行,并具有较高的计算效率,为电力系统并行潮流计算的研究提供了一种可行的方法。 展开更多
关键词 潮流计算 并行计算 gpu通用计算 统一计算设备架构 牛顿法
在线阅读 下载PDF
GPU加速分子动力学模拟中的电荷分布计算 被引量:1
5
作者 张德好 刘青昆 宫利东 《计算机应用与软件》 CSCD 北大核心 2012年第10期79-81,93,共4页
在集群与GPU组成的异构并行计算平台上,使用MPI+CUDA混合编程模型,实现基于ABEEMσπ模型的分子动力学模拟中电荷分布的计算。通过对电荷分布分布求解中的计算部分移植到GPU上进行,并针对算法中通信开销大和资源未充分利用的问题,通过... 在集群与GPU组成的异构并行计算平台上,使用MPI+CUDA混合编程模型,实现基于ABEEMσπ模型的分子动力学模拟中电荷分布的计算。通过对电荷分布分布求解中的计算部分移植到GPU上进行,并针对算法中通信开销大和资源未充分利用的问题,通过异构平台的异步并发方法进行优化,提高了求解效率。性能测试结果表明,相比于单纯MPI并行算法,优化后GPU加速的异构并行算法,在化学大分子模型电荷分布计算上,有着明显的性能优势。 展开更多
关键词 gpu通用计算 集群系统 分子动力学 电荷分布 ABEEMΣΠ模型
在线阅读 下载PDF
基于交错网格Fourier伪谱微分矩阵算子的地震波场模拟GPU加速方案 被引量:15
6
作者 龙桂华 李小凡 江东辉 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2010年第12期2964-2971,共8页
作为高精度波形反演或逆时偏移的重要组成部分,地震波数值模拟对计算速度和效率提出了更高要求.GPU通用计算技术的产生及其内在数据并行性,为高效地震波数值模拟应用和研究得以有效开展奠定了基础.本文借助交错网格的Fourier伪谱微分矩... 作为高精度波形反演或逆时偏移的重要组成部分,地震波数值模拟对计算速度和效率提出了更高要求.GPU通用计算技术的产生及其内在数据并行性,为高效地震波数值模拟应用和研究得以有效开展奠定了基础.本文借助交错网格的Fourier伪谱微分矩阵算子和GPU上高效矩阵乘法,实现了复杂介质中地震波模拟的高效算法.数值试验表明,优化后的GPU计算相比CPU单核计算在大规模二维地震波场计算中获得至少100x以上的加速比.这对我们快速分析目标反射层在地震剖面中同相轴位置,制定优化采集方案具有重要意义. 展开更多
关键词 伪谱微分矩阵算子 gpu通用计算 地震波高效正演模拟
在线阅读 下载PDF
GBLHT:一种GPU加速的批量插入线性哈希表 被引量:2
7
作者 黄玉龙 奚建清 +2 位作者 张平健 方晓霖 刘勇 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第4期49-56,共8页
为改善线性哈希表这一有效索引结构的插入性能,在分析现有方法的基础上,结合CUDA并行编程模型,设计并实现了一种基于GPU的批量插入线性哈希表GBLHT;借助原子函数atomicAdd,GBLHT可以充分利用GPU强大的并行吞吐量来实现大规模记录的无锁... 为改善线性哈希表这一有效索引结构的插入性能,在分析现有方法的基础上,结合CUDA并行编程模型,设计并实现了一种基于GPU的批量插入线性哈希表GBLHT;借助原子函数atomicAdd,GBLHT可以充分利用GPU强大的并行吞吐量来实现大规模记录的无锁批量插入;通过实验对比传统串行插入方法、CPU批量插入方法以及GBLHT的插入性能,发现在不同参数设置条件下,GBLHT的插入性能比传统串行方式提升了7~14倍,与4线程的CPU批量插入方法相比则提升了3~6倍. 展开更多
关键词 线性哈希表 图形加速器 gpu通用计算 无锁批量插入 内存数据索引结构 原子函数atomicAdd
在线阅读 下载PDF
多视图像的三维重建并行计算仿真平台 被引量:2
8
作者 陈国军 牛玉美 申宝明 《系统仿真学报》 CAS CSCD 北大核心 2012年第1期72-75,共4页
针对基于视频图像的三维重建所需设备复杂和计算量大的问题,提出基于CUDA的可视外壳并行计算仿真实验平台。用三维图形绘制管线中的视点模拟真实相机,应用相机参数将各图像中物体轮廓坐标统一转换到世界坐标系,利用CUDA并行计算可视外... 针对基于视频图像的三维重建所需设备复杂和计算量大的问题,提出基于CUDA的可视外壳并行计算仿真实验平台。用三维图形绘制管线中的视点模拟真实相机,应用相机参数将各图像中物体轮廓坐标统一转换到世界坐标系,利用CUDA并行计算可视外壳。在此平台上将基于体素的可视外壳生成算法转化为CUDA线程块并行计算,仿真实验表明加速效果明显。 展开更多
关键词 三维重建 可视外壳 gpu通用计算 CUDA 并行计算
在线阅读 下载PDF
基于GPU的高效图像协方差矩阵算法与实现 被引量:2
9
作者 陈彬 陈和平 李晓卉 《计算机工程与设计》 CSCD 北大核心 2014年第12期4238-4242,共5页
为提高图像处理领域协方差矩阵的计算效率,满足其在实时要求下的应用,借助GPU通用计算技术,结合CUDA编程模型,对协方差矩阵的计算进行有针对性的并行化优化,设计并实现一种高效的并行图像协方差矩阵算法。为在通用PC平台上使用协方差矩... 为提高图像处理领域协方差矩阵的计算效率,满足其在实时要求下的应用,借助GPU通用计算技术,结合CUDA编程模型,对协方差矩阵的计算进行有针对性的并行化优化,设计并实现一种高效的并行图像协方差矩阵算法。为在通用PC平台上使用协方差矩阵并满足实时性需求的各种图像处理应用提供了一个可行的解决方法,对其它领域涉及到协方差矩阵的实时计算也有良好的借鉴作用。与原有的CPU实现方法相比,GPU的效率有了平均数千倍的提升。 展开更多
关键词 协方差矩阵 并行计算 gpu通用计算 统一计算架构
在线阅读 下载PDF
基于CUDA-GPU的宽带高速频谱分析系统的研究 被引量:1
10
作者 刘东亮 南仁东 李建斌 《高技术通讯》 CAS CSCD 北大核心 2012年第2期159-164,共6页
针对射电信号观测的需求,设计并实现了一种基于统一计算设备架构(CUDA)和图形显示卡(GPU)的宽带高速频谱分析系统。该系统通过运用库利.图基(Cooley-Tukey)快速傅立叶变换算法与谱分析算法实现实时宽带高速频谱分析。系统的关... 针对射电信号观测的需求,设计并实现了一种基于统一计算设备架构(CUDA)和图形显示卡(GPU)的宽带高速频谱分析系统。该系统通过运用库利.图基(Cooley-Tukey)快速傅立叶变换算法与谱分析算法实现实时宽带高速频谱分析。系统的关键部分在于通过CUDA来完成运用线程合并算法对数据在CPU-9GPU之间传递时的转换,并使用并行流水算法在总线中共享多核GPU来降低实时运算时间。该系统主要为500m口径射电望远镜工程的高分辨率微波巡视项目而设计,实测中满足目标需求,并可应用在射电信号观测或类似的高速密集数据运算中。 展开更多
关键词 频谱分析 并行计算 库利-图基傅立叶变换 gpu通用计算
在线阅读 下载PDF
地下多相流动数值模拟的GPU并行优化
11
作者 魏晓辉 朱彤 +2 位作者 李洪亮 李维山 许天福 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2013年第2期250-256,共7页
针对减少模拟计算时间及提高问题求解规模问题,基于设备编程架构(CUDA)将使用预处理的稳定双共轭梯度法在图形处理器(GPU)上实现,并将其整合到TOUGHREACT软件中,在GPU平台实现了对地下多相流动数值模拟问题的并行求解,并给出了稳定共轭... 针对减少模拟计算时间及提高问题求解规模问题,基于设备编程架构(CUDA)将使用预处理的稳定双共轭梯度法在图形处理器(GPU)上实现,并将其整合到TOUGHREACT软件中,在GPU平台实现了对地下多相流动数值模拟问题的并行求解,并给出了稳定共轭梯度算法中最耗时的两个操作稀疏矩阵向量乘积和向量内积计算的GPU平台实现及优化方法.实验结果表明,GPU的使用对求解过程有良好的加速效果,针对不同的网格规模进行多相流模拟实验,达到了1.7~3.4倍的加速比. 展开更多
关键词 gpu通用计算 并行计算 多相流模拟
在线阅读 下载PDF
微分域网格变形的GPU加速算法
12
作者 赵健 徐凯 吴玲达 《小型微型计算机系统》 CSCD 北大核心 2009年第3期488-492,共5页
微分域网格变形方法能够较好的保持网格模型的局部细节特征,但其计算需要耗费较长的时间.结合GPU的高速并行运算性能,设计并实现了一种基于GPU的微分域网格变形算法.通过GPU进行网格的微分坐标求解、线性系统系数矩阵的Cholesky分解、... 微分域网格变形方法能够较好的保持网格模型的局部细节特征,但其计算需要耗费较长的时间.结合GPU的高速并行运算性能,设计并实现了一种基于GPU的微分域网格变形算法.通过GPU进行网格的微分坐标求解、线性系统系数矩阵的Cholesky分解、线性系统求解等运算,从而将网格局部细节特征编码和解码过程以及变形结果的绘制完全通过GPU完成.实验结果表明该算法能够有效加速微分域网格变形方法的计算和绘制. 展开更多
关键词 网格变形 拉普拉斯坐标 gpu通用计算
在线阅读 下载PDF
基于GPU的视点相关自适应细分 被引量:7
13
作者 李胜 黄鑫 汪国平 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2007年第4期409-414,共6页
利用GPU的强大浮点数计算能力和并行处理能力,提出一种完全基于GPU的视点相关自适应细分内核进行快速细分计算的方法.在GPU中,依次实现视点相关的面片细分深度值计算、基于基函数表的细分表面顶点求值、细分表面绘制等核心步骤,无须与CP... 利用GPU的强大浮点数计算能力和并行处理能力,提出一种完全基于GPU的视点相关自适应细分内核进行快速细分计算的方法.在GPU中,依次实现视点相关的面片细分深度值计算、基于基函数表的细分表面顶点求值、细分表面绘制等核心步骤,无须与CPU端系统内存进行几何数据交换.视点相关的自适应细分准则在表面绘制精度保持不变的情况下,有效地降低了细分表面的细分深度和细分的计算量,在此基础上完全基于GPU的细分框架使得曲面细分具有快速高效的特点.该方法还可以在局部重要细节用较大深度值进行实时自适应细分,以逼近极限曲面. 展开更多
关键词 基于gpu通用计算 视点相关 自适应细分 细分深度
在线阅读 下载PDF
基于GPGPU的海量山地地形数据的实时绘制算法 被引量:3
14
作者 王春 马纯永 陈戈 《计算机应用》 CSCD 北大核心 2009年第8期2105-2108,共4页
针对山地地形海量数据的特点,基于GPU的GeometricalClipmap算法,应用简化的工作流程,结合GPGPU技术,采用了一种更为合理的高程数据组织交换模式,通过引入高程误差数据巧妙地解决不同分辨率之间的裂缝问题,并对高分辨率的遥感影像作为地... 针对山地地形海量数据的特点,基于GPU的GeometricalClipmap算法,应用简化的工作流程,结合GPGPU技术,采用了一种更为合理的高程数据组织交换模式,通过引入高程误差数据巧妙地解决不同分辨率之间的裂缝问题,并对高分辨率的遥感影像作为地形纹理的实现方法加以补充,进而实现可应用于虚拟现实系统的海量地形数据的实时可视化。 展开更多
关键词 基于gpu通用计算 几何体剪切图 山地地形 海量数据
在线阅读 下载PDF
采用GPU加速的三维实体模型绘制 被引量:7
15
作者 袁友伟 《电子学报》 EI CAS CSCD 北大核心 2008年第B12期144-146,共3页
利用GPU的强大浮点数计算能力和并行处理能力,提出一种完全基于GPU的具有真实感三维实体模型快速绘制方法.本文利用现代图形加速卡中GPU的可编程管线,实现了快速的网格生成及简化.在保证不改变网格的拓扑结构的前提下,调整网格,使能量... 利用GPU的强大浮点数计算能力和并行处理能力,提出一种完全基于GPU的具有真实感三维实体模型快速绘制方法.本文利用现代图形加速卡中GPU的可编程管线,实现了快速的网格生成及简化.在保证不改变网格的拓扑结构的前提下,调整网格,使能量方程的数值尽量降低,从而大大降低线性曲面中三角形的数量.实验结果表明,该方法能够实现实时的三维实体模型快速绘制,具有重要的应用价值. 展开更多
关键词 基于gpu通用计算 基于硬件的绘制 能量方程 网格优化
在线阅读 下载PDF
基于GPU的大图数据上的关键字检索算法 被引量:3
16
作者 林鹤翔 乔连鹏 +1 位作者 袁野 王国仁 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第2期271-279,共9页
在传统图上关键字检索问题研究的基础上,基于图形处理器(GPU)设计新的关键字检索算法.基于Steiner tree语义定义关键字检索问题,针对该问题结合传统多源最短路径算法在CPU上设计基本算法,由于CPU架构特性,该算法无法直接移植到GPU上.提... 在传统图上关键字检索问题研究的基础上,基于图形处理器(GPU)设计新的关键字检索算法.基于Steiner tree语义定义关键字检索问题,针对该问题结合传统多源最短路径算法在CPU上设计基本算法,由于CPU架构特性,该算法无法直接移植到GPU上.提出GPU上的基本检索算法,分析它相对于CPU版本的优势和仍然存在的不足.为了提升算法查询速度,反思GPU上基本检索算法的不足之处,提出基于索引的优化技术,利用单源最短路径算法的松弛更新思想、关键字独立性和内部整体性,设计GPU上的高效关键字检索算法.扩展该算法思想,对r-cliques关键字检索问题提出GPU上的优化思路.通过分析算法复杂度并在真实数据集上进行实验,证明该GPU算法的正确性和有效性,并证明算法在较大规模图数据上仍有较强的计算性能. 展开更多
关键词 检索 属性图 索引 gpu通用计算 并行计算
在线阅读 下载PDF
地震叠前时间偏移的一种图形处理器提速实现方法 被引量:74
17
作者 李博 刘国峰 刘洪 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2009年第1期245-252,共8页
新近发展的图形处理器(GPU,Graphic Processing Unit)通用计算技术,现已日趋实用成型,并获得诸多应用领域的广泛关注.对油气勘探专项资料处理技术的运用而言,概因GPU与中央处理器(CPU)的计算性能的甚大差异,致使GPU这一通用计算技... 新近发展的图形处理器(GPU,Graphic Processing Unit)通用计算技术,现已日趋实用成型,并获得诸多应用领域的广泛关注.对油气勘探专项资料处理技术的运用而言,概因GPU与中央处理器(CPU)的计算性能的甚大差异,致使GPU这一通用计算技术在石油工业中的应用研究正在有效开展.本文仅借助于油气勘探中广泛使用的叠前时间偏移,旨在于扼要阐明其基于GPU应用的有效性;文中还提出一种利用GPU实现地震叠前时间偏移的软件构件方法,并针对非对称走时叠前时间偏移所拓展的应用软件提供一种具体实现架构.与以往用个人计算机(PC,Personal Computer)或者PC集群所用的叠前时间偏移相比,本文方法可甚大地提高计算效率,从而在石油物探资料处理中可显著地节约计算成本和维护费用.文中实际例证也表明,基于GPU进行高性能并行计算,当是适应目前石油工业中大规模计算需求的一个重要发展途径. 展开更多
关键词 非对称走时叠前时间偏移 图形处理器 gpu通用计算 统一计算设备架构
在线阅读 下载PDF
基于CUDA的矩阵乘法和FFT性能测试 被引量:33
18
作者 肖江 胡柯良 邓元勇 《计算机工程》 CAS CSCD 北大核心 2009年第10期7-10,共4页
针对NVIDIA公司的CUDA技术用Geforce8800GT在Visual Studio2008环境下进行测试,从程序运行时间比较判断CUBLAS库、CUDA内核程序、CUDA驱动API、C循环程序与Intel MKL库以及FFTW库与CUFFT库运行响应的差异。测试结果表明,在大规模矩阵乘... 针对NVIDIA公司的CUDA技术用Geforce8800GT在Visual Studio2008环境下进行测试,从程序运行时间比较判断CUBLAS库、CUDA内核程序、CUDA驱动API、C循环程序与Intel MKL库以及FFTW库与CUFFT库运行响应的差异。测试结果表明,在大规模矩阵乘法和快速傅里叶变换的应用方面,相对于CPU,利用GPU运算性能可提高25倍以上。 展开更多
关键词 矩阵乘法 快速傅里叶变换 并行计算 gpu通用计算
在线阅读 下载PDF
基于图形处理器加速的叶轮机流场数值模拟研究 被引量:3
19
作者 张翔 黄秀全 《科学技术与工程》 北大核心 2013年第11期3195-3199,共5页
近年来,图形处理器(GPU)已经逐渐发展成一种能够满足通用计算的多核心细粒度并行化的处理器,它往往能够提供10倍于CPU的浮点计算能力和更高的存储带宽,在其上开发计算流体力学(CFD)求解器正成为一种趋势。通过采用Jameson有限体积中心... 近年来,图形处理器(GPU)已经逐渐发展成一种能够满足通用计算的多核心细粒度并行化的处理器,它往往能够提供10倍于CPU的浮点计算能力和更高的存储带宽,在其上开发计算流体力学(CFD)求解器正成为一种趋势。通过采用Jameson有限体积中心差分格式和四步Runge-Kutta时间推进法求解圆柱坐标系下的三维定常欧拉方程来模拟叶轮机械内部流场,并将原有运行在CPU上的代码移植到GPU上。通过比较,获得相同的流场计算结果;在运行速度上,获得了一个数量级的提升。 展开更多
关键词 gpu通用计算 CFD CUDA 叶轮机
在线阅读 下载PDF
图形处理器协同运算的视频处理架构 被引量:2
20
作者 张磊 王广生 《现代电子技术》 2008年第20期134-138,共5页
多媒体视频处理的任务繁重,计算量大,很多算法无法在仅使用一颗CPU的条件下达到实时处理的速度。设计一套图形处理器协同运算的视频处理架构,它采用图形处理器与中央处理器配合,共同完成视频计算的任务。这种架构可以大大加速处理速度,... 多媒体视频处理的任务繁重,计算量大,很多算法无法在仅使用一颗CPU的条件下达到实时处理的速度。设计一套图形处理器协同运算的视频处理架构,它采用图形处理器与中央处理器配合,共同完成视频计算的任务。这种架构可以大大加速处理速度,并减轻中央处理器的负担。 展开更多
关键词 图形处理器 gpu通用计算 视频处理 gpu架构
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部