期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
“基于GPU的图形处理及其通用计算”专辑征文通知
1
《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2009年第3期375-375,共1页
关键词 通用计算 图形处理 gpu 专辑
在线阅读 下载PDF
图形处理器(GPU)加速时域有限元的二维辐射计算 被引量:5
2
作者 刘昆 王晓斌 廖成 《电波科学学报》 EI CSCD 北大核心 2008年第1期111-114,共4页
时域有限元方法是在电磁场与微波工程领域广泛应用的方法之一。然而,时域有限元在大型机上运行时都是相当缓慢的。对时域有限元计算的硬件加速的研究已经开始进行。与同一代技术的CPU比较,目前一般用户的图形加速卡(GPU)对时域有限元的... 时域有限元方法是在电磁场与微波工程领域广泛应用的方法之一。然而,时域有限元在大型机上运行时都是相当缓慢的。对时域有限元计算的硬件加速的研究已经开始进行。与同一代技术的CPU比较,目前一般用户的图形加速卡(GPU)对时域有限元的加速可以达到CPU的近4倍左右。以OpenGL作为应用编程接口(API),使用一个标准的商业图形卡编程解决二维时域有限元的辐射问题。 展开更多
关键词 图形加速卡(gpu) 时域有限元(TD-FEM) 通用计算图形处理单元 (GPgpu)
在线阅读 下载PDF
基于GPU的图形电磁计算加速算法 被引量:14
3
作者 杨正龙 金林 李蔚清 《电子学报》 EI CAS CSCD 北大核心 2007年第6期1056-1060,共5页
本文利用现代图形加速卡中GPU(Graphics Process Unit)的可编程管线,实现了图形电磁计算(GRECO)方法.与原有的方法相比,在利用物理光学和物理绕射理论的基础上,计算速度提高了20倍左右.并且利用GPU实现了射线追踪算法,用于目标上多次散... 本文利用现代图形加速卡中GPU(Graphics Process Unit)的可编程管线,实现了图形电磁计算(GRECO)方法.与原有的方法相比,在利用物理光学和物理绕射理论的基础上,计算速度提高了20倍左右.并且利用GPU实现了射线追踪算法,用于目标上多次散射的计算,使得GRECO方法可以快速计算具有凹腔结构目标的电磁散射.本方法对于目标识别和逆合成孔径成像等方面的研究具有重要的应用价值. 展开更多
关键词 电磁散射 图形电磁计算 图形处理单元(gpu)
在线阅读 下载PDF
GPU通用计算在LBM方法中的应用 被引量:1
4
作者 王凯 封卫兵 晁媛 《计算机工程与设计》 CSCD 北大核心 2009年第19期4513-4515,4535,共4页
提出了一种结合GPU通用计算与计算流体力学中的LBM算法来模拟二维流场的方法。根据GPU通用计算和LBM方法的基本原理,利用OpenGL的离屏渲染技术FBO和Cg语言,基于LBM方法中的D2Q9模型对二维方腔流进行数值模拟,并设计出基于OpenGL的GPU通... 提出了一种结合GPU通用计算与计算流体力学中的LBM算法来模拟二维流场的方法。根据GPU通用计算和LBM方法的基本原理,利用OpenGL的离屏渲染技术FBO和Cg语言,基于LBM方法中的D2Q9模型对二维方腔流进行数值模拟,并设计出基于OpenGL的GPU通用计算的二维流场数值计算框架。实验结果表明,利用GPU模拟与CPU模拟流场的数值结果相当吻合,特别地,利用GPU进行数值模拟实验的速度是利用CPU的4倍左右。 展开更多
关键词 图形处理单元 图形处理单元通用计算 格子波尔兹曼方法 OPENGL 帧缓冲对象
在线阅读 下载PDF
GPU任务调度研究综述 被引量:1
5
作者 李来文 胡韬 邓庆绪 《小型微型计算机系统》 CSCD 北大核心 2024年第11期2800-2807,共8页
本文针对运行在GPU上的任务的管理和调度研究进行了综述,并且把讨论重点放在针对单GPU上的相关研究工作.随着人工智能技术的发展以及相关应用的普及,使得GPU成为加速计算的关键工具.本文首先介绍了GPU的架构和编程模型,然后按照调度粒度... 本文针对运行在GPU上的任务的管理和调度研究进行了综述,并且把讨论重点放在针对单GPU上的相关研究工作.随着人工智能技术的发展以及相关应用的普及,使得GPU成为加速计算的关键工具.本文首先介绍了GPU的架构和编程模型,然后按照调度粒度,从stream级到warp级介绍了多种调度方法的相关研究工作.每个级别的调度方法都旨在提高GPU的性能、资源利用率、可靠性或降低能耗.此外,本文还指出了GPU任务调度面临的挑战以及未来的研究方向,如保障GPU执行时间确定性的软硬件机制研究、结合机器学习的GPU任务调度研究、GPU新架构探索研究以及追求GPU性能和能耗平衡的调度技术研究.本文旨在为研究者们提供一个全面的视角,帮助他们了解GPU任务调度的研究动态和未来的发展方向. 展开更多
关键词 图形处理单元 CUDA gpu多任务 gpu调度
在线阅读 下载PDF
图形硬件加速的实时阴影生成方法 被引量:8
6
作者 杨兵 战守义 +1 位作者 李凤霞 郑福仁 《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第7期594-598,共5页
针对虚拟环境中阴影计算时间耗费较大的问题,提出了利用图形硬件特性加速阴影绘制的方法.算法基于图像空间,采用三遍绘制方法.第3遍绘制用于计算物体的真实感光照,并对阴影边界的走样现象进行了处理.利用硬件的图形处理单元GPU的处理能... 针对虚拟环境中阴影计算时间耗费较大的问题,提出了利用图形硬件特性加速阴影绘制的方法.算法基于图像空间,采用三遍绘制方法.第3遍绘制用于计算物体的真实感光照,并对阴影边界的走样现象进行了处理.利用硬件的图形处理单元GPU的处理能力和OpenGL特性扩展,在GPU编程和通用OpenGL实现两个层次上进行了实验,实验结果表明,三遍绘制方法产生的光照和阴影效果更真实,得到的阴影边界更平滑. 展开更多
关键词 视景仿真 阴影算法 实时绘制 图形处理单元(gpu)
在线阅读 下载PDF
基于GPU加速的binLBT压缩解压算法 被引量:3
7
作者 于卓 梁晓辉 +1 位作者 马上 沈旭昆 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2010年第3期368-372,共5页
地形数据的压缩/解压是大规模地形实时绘制方法的关键步骤,与绘制效率密切相关.通过对压缩/解压方法核心重叠双正交变换的分析,采用重叠双正交变换的整数提升方法将变换中的浮点数操作转换为整数操作及移位操作.使用支持图形处理单元(GP... 地形数据的压缩/解压是大规模地形实时绘制方法的关键步骤,与绘制效率密切相关.通过对压缩/解压方法核心重叠双正交变换的分析,采用重叠双正交变换的整数提升方法将变换中的浮点数操作转换为整数操作及移位操作.使用支持图形处理单元(GPU,Graphic Processing Unit)通用计算的CUDA(Compute Unified Device Architecture)对变换过程及编码过程进行加速.针对数据超出显存容量的情况,采取数据分块的方法将数据分别载入显存进行变换与编码以完成对整体数据的处理.实验结果表明,基于GPU加速的重叠双正交变换整数提升方法的压缩算法有效提高了地形数据处理的效率,并加快了大规模地形绘制速度. 展开更多
关键词 重叠双正交变换整数提升 压缩/解压 大规模地形实时绘制 图形处理单元通用计算
在线阅读 下载PDF
基于GPU的球面深度图实时绘制 被引量:2
8
作者 朱鉴 吴恩华 《计算机学报》 EI CSCD 北大核心 2009年第2期231-240,共10页
提出了一种GPU加速的实时基于图像的绘制算法.该算法利用极坐标系生成对物体全方位均匀采样的球面深度图像;然后根据推导的两个预变换公式将单幅球面深度图像预变换到物体包围球的一个与视点相关的切平面上,以生成中间图像;再利用纹理... 提出了一种GPU加速的实时基于图像的绘制算法.该算法利用极坐标系生成对物体全方位均匀采样的球面深度图像;然后根据推导的两个预变换公式将单幅球面深度图像预变换到物体包围球的一个与视点相关的切平面上,以生成中间图像;再利用纹理映射生成最终目标图像.利用现代图形硬件的可编程性和并行性,将预变换移植到Vertex Shader来加快绘制速度;利用硬件的光栅化功能来完成图像的插值,以得到连续无洞的结果图像.此外,还在Pixel Shader上进行逐像素的光照以及环境映射的计算,生成高质量的光照效果.最终,文章解决了算法的视点受限问题,并设计了一种动态LOD(Level of Details)算法,实现了一个实时漫游系统,保持了物体间正确的遮挡关系. 展开更多
关键词 gpu(图形处理单元) 球面深度图像 基于图像的绘制 预变换
在线阅读 下载PDF
基于GPU的加锁并行化非结构网格生成方法研究 被引量:1
9
作者 蔡云龙 肖素梅 齐龙 《计算机工程与应用》 CSCD 2014年第6期56-60,共5页
非结构网格的生成在时间和内存上有一定的缺陷,这里提出了一种新的方法,命名为GPU-PDMG,是基于CUDA架构的GPU并行非结构网格生成技术。该技术结合了GPU的高速并行计算能力与Delaunay三角化的优点,在英伟达GPU模块下采用CUDA程序模型,开... 非结构网格的生成在时间和内存上有一定的缺陷,这里提出了一种新的方法,命名为GPU-PDMG,是基于CUDA架构的GPU并行非结构网格生成技术。该技术结合了GPU的高速并行计算能力与Delaunay三角化的优点,在英伟达GPU模块下采用CUDA程序模型,开发出了加锁并行区划分技术,通过对NACA0012翼型、多段翼型等算例进行测试,分析此方法的加速比和效率,对其计算性能展开评估。实验结果表明,GPU-PDMG优于现存在的CPU算法的速度,在保证网格质量的同时,提高了效率。 展开更多
关键词 非结构网格 并行域 加锁 图形处理单元(gpu) 加速比
在线阅读 下载PDF
星载ScanSAR成像处理技术研究 被引量:1
10
作者 陈仁元 雍延梅 +1 位作者 孙晓晖 钟雪莲 《雷达科学与技术》 2013年第2期136-140,共5页
由于天线在不同的子带进行扫描,星载扫描模式不能像条带模式那样,获得连续的方位向相位历史,利用条带模式高精度处理算法(如距离-多普勒算法)处理ScanSAR数据,通过在脉冲扫描间隔中填零,把扫描数据看成中间填零的相干脉冲串序列,等效成... 由于天线在不同的子带进行扫描,星载扫描模式不能像条带模式那样,获得连续的方位向相位历史,利用条带模式高精度处理算法(如距离-多普勒算法)处理ScanSAR数据,通过在脉冲扫描间隔中填零,把扫描数据看成中间填零的相干脉冲串序列,等效成条带SAR数据,利用条带模式的处理算法进行成像。针对填零后的数据,数据量大,可以采用基于通用图形处理单元的并行处理技术,加快处理速度。对填零处理形成的栅瓣调制,通过滤波进行消除。这样处理的图像和条带模式的图像具有相同的辐射和几何分布特性,有效抑制扇贝效应带来的影响。对实测星载ScanSAR数据进行成像处理,试验结果表明该方法的有效性。 展开更多
关键词 扫描模式 处理算法 通用图形处理单元 栅瓣调制
在线阅读 下载PDF
面向GPU的循环合并 被引量:1
11
作者 杨扬 崔慧敏 冯晓兵 《高技术通讯》 CAS CSCD 北大核心 2013年第3期257-262,共6页
针对现有的将C或Fortran程序映射到通用图形处理单元(GPU)的自动转换工具主要关注将单个循环生成一个独立的GPU内核,从而阻碍了对循环间数据重用的利用的问题,提出一种新的面向GPU的循环合并的代码变换方法,该方法通过循环分块(strip mi... 针对现有的将C或Fortran程序映射到通用图形处理单元(GPU)的自动转换工具主要关注将单个循环生成一个独立的GPU内核,从而阻碍了对循环间数据重用的利用的问题,提出一种新的面向GPU的循环合并的代码变换方法,该方法通过循环分块(strip mining)和冗余计算等手段达到消除迭代间数据依赖的目的,并可充分利用GPU片上的共享内存进行线程间数据交换,从而将此类程序高效地映射到GPU上。通过典型程序在GPU上的实验表明,该新方法由于能够减少对全局内存的访问,带来了最多高达1.96倍的加速比。 展开更多
关键词 通用图形处理单元(gpu) 循环合并 并行 CUDA 循环间数据重用
在线阅读 下载PDF
基于DEM和GPU加速的颗粒运动仿真方法研究 被引量:4
12
作者 付帅旗 黄鹏 丁逸飞 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2019年第12期1602-1607,共6页
采用离散元素法(discrete element method, DEM)进行颗粒系统运动仿真时,其模拟计算量大、计算效率低下,所采用的传统中央处理器(central processing unit, CPU)并行计算模型难以实现较大规模模拟。文章提出了一种基于图形处理单元(grap... 采用离散元素法(discrete element method, DEM)进行颗粒系统运动仿真时,其模拟计算量大、计算效率低下,所采用的传统中央处理器(central processing unit, CPU)并行计算模型难以实现较大规模模拟。文章提出了一种基于图形处理单元(graphics processing unit, GPU)和统一计算设备架构(compute unified device architecture, CUDA)的并行计算方法;以球磨机的介质运动仿真为例,利用DEM方法结合CUDA并行计算模型,充分利用GPU众核多线程的计算优势,同时将颗粒属性信息存入GPU的常量存储器,减少信息读取的时滞,将筒体和衬板视为圆柱面和平面,简化了筒体与颗粒的接触判断,实现每个线程处理1个颗粒的相关计算,大幅提高计算速度;对颗粒堆积、筒体内2种尺寸颗粒运动进行仿真,并与基于CPU并行计算的结果进行对比。研究结果表明:在同等价格的硬件条件下,该文的方法可以实现10倍以上的加速比;对于含有复杂几何模型的仿真,如多尺寸颗粒和带衬板筒体的仿真,加速比会减少,但仍然可以实现数倍的加速。 展开更多
关键词 离散元素法(DEM) 颗粒 图形处理单元(gpu) 球磨机 并行计算
在线阅读 下载PDF
基于GPU加速的锥束CT重建算法研究 被引量:3
13
作者 张宾 张正强 王洪凯 《计算机工程与应用》 CSCD 北大核心 2019年第4期208-213,共6页
锥束计算机断层扫描(Cone-Beam Computed Tomography,CBCT)具有采集速度快和空间分辨率高等特点,被生物医学等领域广泛关注。然而通过CPU串行处理CBCT重建中海量投影数据非常耗时,难以满足实时性的需求。GPU的发展为CBCT重建的并行加速... 锥束计算机断层扫描(Cone-Beam Computed Tomography,CBCT)具有采集速度快和空间分辨率高等特点,被生物医学等领域广泛关注。然而通过CPU串行处理CBCT重建中海量投影数据非常耗时,难以满足实时性的需求。GPU的发展为CBCT重建的并行加速提供了条件。根据三角函数周期性的特点对FDK算法进行了改进,并利用GPU实现了12幅投影数据同时并行计算。实验结果表明,相比于传统基于CPU的重建算法,基于GPU的CBCT重建算法在保证图像质量的前提下,将重建速度提高了超过310倍。 展开更多
关键词 锥束CT FDK算法 图形处理单元(gpu)
在线阅读 下载PDF
基于GPU的子图匹配优化技术 被引量:1
14
作者 孟轲 林志恒 谭光明 《高技术通讯》 CAS 2022年第1期1-12,共12页
为了解决图挖掘应用中子图匹配任务的性能问题,本文提出了一种基于图形处理单元(GPU)的顶点预剪枝子图匹配系统(GVSM)。GVSM采用黑名单剪枝算法和调度排序来减少冗余搜索。利用前缀树数据结构,GVSM可以对中间结果进行压缩,以便快速索引... 为了解决图挖掘应用中子图匹配任务的性能问题,本文提出了一种基于图形处理单元(GPU)的顶点预剪枝子图匹配系统(GVSM)。GVSM采用黑名单剪枝算法和调度排序来减少冗余搜索。利用前缀树数据结构,GVSM可以对中间结果进行压缩,以便快速索引并降低内存消耗。GVSM将子图匹配的搜索部分卸载到GPU上执行,通过设计软件流水线进行重叠计算和数据移动,在PCI-E接口传输数据图拓扑数据的同时激活中央处理器(CPU)与GPU上的计算,并用动态负载均衡的方法减少计算资源的浪费。实验结果表明,本文方法能够有效提升子图匹配算法的性能,GVSM在性能上相比国际同类算法有显著提升,并且能处理更大规模的数据。 展开更多
关键词 子图匹配 图挖掘 图形处理单元(gpu) 高性能 处理
在线阅读 下载PDF
基于GPU的支持多重散射的体光照技术
15
作者 刘宁 朱登明 +1 位作者 陆一峰 王兆其 《高技术通讯》 CAS CSCD 北大核心 2015年第10期905-911,共7页
为了提高体光照——体数据可视分析的重要手段的性能,针对现有的体光照技术存在的光照模型过于简化、只考虑光照的局部特征、收敛速度过慢的问题进行了创新研究,提出了一种基于图形处理单元(GPU)的能够支持多重散射的体光照方法。该方... 为了提高体光照——体数据可视分析的重要手段的性能,针对现有的体光照技术存在的光照模型过于简化、只考虑光照的局部特征、收敛速度过慢的问题进行了创新研究,提出了一种基于图形处理单元(GPU)的能够支持多重散射的体光照方法。该方法在进行重要性采样时不仅根据相函数采样重要的方向,同时也考虑各方向上所携带的能量大小,因此能够更快地收敛;为了快速估算出一个方向上所携带的能量,采用了一个新颖的基于哈希桶的体数据代理,利用这个代理能够有效地跳过相似的体素,从而提高光照计算的效率。该方法相比于传统的方法能够取得更显著的加速比,同时能够有效地支持全面光照,产生复杂的光照和阴影效果。 展开更多
关键词 体光照 多重散射 加速结构 重要性采样 图形处理单元(gpu)
在线阅读 下载PDF
GSim:支持GPU加速软件过程仿真框架
16
作者 张备 翟健 杨秋松 《计算机工程与设计》 CSCD 北大核心 2012年第2期754-759,820,共7页
为了提高软件过程仿真的效率,提出了一种基于图形处理单元(graphic processing unit,GPU)加速的仿真框架。该框架利用图形化语言和随机参数来描述一个过程模型,将模型转换为RansomSpec字节码从而可以在GPU平台上运行,以期借助GPU平台的... 为了提高软件过程仿真的效率,提出了一种基于图形处理单元(graphic processing unit,GPU)加速的仿真框架。该框架利用图形化语言和随机参数来描述一个过程模型,将模型转换为RansomSpec字节码从而可以在GPU平台上运行,以期借助GPU平台的高并行特性提高原有仿真算法的效率。实验结果表明,通过这种框架,基于GPU的随机软件过程仿真与传统基于CPU串行的仿真算法相比在效率上提高一个数量级。 展开更多
关键词 软件过程仿真 基于图形处理单元通用目的计算 计算统一的设备架构 中间语言
在线阅读 下载PDF
GPU加速的自适应积分法研究
17
作者 陈金鑫 杨武 《微波学报》 CSCD 北大核心 2016年第S1期5-8,共4页
自适应积分法(AIM)是针对矩量法的一种有效改进。但是当未知量数目比较大时,其计算仍较耗时。为了加快AIM的求解,本文引入了CUDA技术来实现在GPU上并行加速自适应积分法。实验结果表明,与传统的CPU实现AIM方法相比,利用GPU加速的AIM方... 自适应积分法(AIM)是针对矩量法的一种有效改进。但是当未知量数目比较大时,其计算仍较耗时。为了加快AIM的求解,本文引入了CUDA技术来实现在GPU上并行加速自适应积分法。实验结果表明,与传统的CPU实现AIM方法相比,利用GPU加速的AIM方法在保证正确性的同时大大减少了求解计算时间。 展开更多
关键词 自适应积分法(AIM) 图形处理单元(gpu) 计算设备统一架构(CUDA)
在线阅读 下载PDF
大规模稀疏矩阵的主特征向量计算优化方法 被引量:3
18
作者 王伟 陈建平 +2 位作者 曾国荪 俞莉花 谭一鸣 《计算机科学与探索》 CSCD 2012年第2期118-124,共7页
矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图... 矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图形处理单元求解得到了广泛关注。分别从应用特征和GPU体系结构特征两方面分析了PEC运算的性能瓶颈,提出了一种面向GPU的稀疏矩阵存储格式——GPU-ELL和一个针对GPU的线程优化映射策略,并设计了相应的PEC优化执行算法。在ATI HD Radeon5850上的实验结果表明,相对于传统CPU,该方案获得了最多200倍左右的加速,相对于已有GPU上的实现,也获得了2倍的加速。 展开更多
关键词 图形处理单元通用计算(GPgpu) 主特征向量计算 稀疏矩阵向量乘 线程优化
在线阅读 下载PDF
基于图像空间的焦散实时逼真绘制算法研究 被引量:2
19
作者 李帅 郝爱民 朱磊 《系统仿真学报》 CAS CSCD 北大核心 2009年第11期3310-3315,3386,共7页
提出了一种基于图像空间的焦散实时逼真绘制算法,算法将焦散的计算过程进行了分解并采用动态组织浮点纹理的方式将计算所需的几何数据从几何空间转换到了图像空间,可完全通过GPU编程实现实时逼真绘制。算法的主要优点是适用于可变形物体... 提出了一种基于图像空间的焦散实时逼真绘制算法,算法将焦散的计算过程进行了分解并采用动态组织浮点纹理的方式将计算所需的几何数据从几何空间转换到了图像空间,可完全通过GPU编程实现实时逼真绘制。算法的主要优点是适用于可变形物体,可模拟由物体双面折射形成的焦散现象,算法效率受场景规模影响小并可方便地与阴影等绘制效果相结合。实验表明,GPU的数据处理能力和可编程特性得到了充分挖掘,与经典焦散绘制算法相比具有明显的效率优势。 展开更多
关键词 焦散 图像空间 实时绘制 可变形物 二次折射体 图形处理单元(gpu)
在线阅读 下载PDF
基于CUDA的邻近粒子搜索算法研究 被引量:3
20
作者 刘丹 陈捷捷 《计算机工程与应用》 CSCD 2012年第18期53-56,共4页
在粒子方法中,运用邻近粒子搜索算法可以快速获取每个粒子的邻近粒子信息。由于粒子方法模拟一个体系的行为所采用的粒子数据是十分庞大的,对计算机的运算速度提出了挑战。研究了GPU的计算能力和CUDA开发环境,利用GPU的并行多线程处理技... 在粒子方法中,运用邻近粒子搜索算法可以快速获取每个粒子的邻近粒子信息。由于粒子方法模拟一个体系的行为所采用的粒子数据是十分庞大的,对计算机的运算速度提出了挑战。研究了GPU的计算能力和CUDA开发环境,利用GPU的并行多线程处理技术,提出了一种并行邻近粒子搜索算法。实验结果表明,基于CUDA的并行邻近粒子搜索算法,加快了邻近粒子搜索过程,显著地减少了计算时间,成功实现了硬件加速,可获取290以上的加速比,对大规模粒子系统呈现出高效的处理能力。 展开更多
关键词 统一计算设备框架(CUDA) 图形处理单元(gpu) 粒子方法 邻近粒子搜索
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部