期刊文献+
共找到607篇文章
< 1 2 31 >
每页显示 20 50 100
基于Matrix Core的高性能多维FFT设计与优化 被引量:1
1
作者 陆璐 祝松祥 +2 位作者 田卿燕 林海山 郭逸劼 《华南理工大学学报(自然科学版)》 北大核心 2025年第3期20-30,共11页
快速傅里叶变换(FFT)算法广泛应用于科学计算等领域。为了充分挖掘图形处理器(GPU)的计算能力并进一步提高FFT的计算效率,该文针对矩阵形式的Stockham FFT,提出了一种基于Matrix Core的高性能多维FFT计算方案。在计算优化方面,该方案利... 快速傅里叶变换(FFT)算法广泛应用于科学计算等领域。为了充分挖掘图形处理器(GPU)的计算能力并进一步提高FFT的计算效率,该文针对矩阵形式的Stockham FFT,提出了一种基于Matrix Core的高性能多维FFT计算方案。在计算优化方面,该方案利用Matrix Core加速FFT计算中的矩阵乘运算,同时通过编译器内部指令完成小粒度的矩阵乘加,使得Matrix Core支持更多尺寸的FFT计算。在内存优化方面,该方案使用2层迭代策略,以充分利用共享内存,减少与全局内存的数据交换;根据Matrix Core的矩阵数据在各个线程寄存器中的分布规律,直接在寄存器上完成FFT计算中大量存在的矩阵逐元素乘操作;通过对共享内存中的数据进行重排来缓解存储体冲突,并采用双缓冲策略缓解访存瓶颈。该文还提出了高效的矩阵转置策略,以加速多维FFT计算。在AMD MI250 GPU平台上将该方案与GPU上主流的高性能FFT计算库rocFFT和VkFFT进行了比较实验,结果表明:该方案在AMD MI250上的1维、2维和3维FFT平均计算效率均优于rocFFT和VkFFT,3维FFT的平均计算效率为rocFFT的1.5倍,为VkFFT的2.0倍,具有较好的性能提升;mcFFT的计算精度与rocFFT和VkFFT保持在相同水平。 展开更多
关键词 图形处理器 Matrix Core 快速傅里叶变换 矩阵乘法
在线阅读 下载PDF
基于CPU-GPU的超音速流场N-S方程数值模拟
2
作者 卢志伟 张皓茹 +3 位作者 刘锡尧 王亚东 张卓凯 张君安 《中国机械工程》 北大核心 2025年第9期1942-1950,共9页
为深入分析超音速流场的特性并提高数值计算效率,设计了一种高效的加速算法。该算法充分利用中央处理器-图形处理器(CPU-GPU)异构并行模式,通过异步流方式实现数据传输及处理,显著加速了超音速流场数值模拟的计算过程。结果表明:GPU并... 为深入分析超音速流场的特性并提高数值计算效率,设计了一种高效的加速算法。该算法充分利用中央处理器-图形处理器(CPU-GPU)异构并行模式,通过异步流方式实现数据传输及处理,显著加速了超音速流场数值模拟的计算过程。结果表明:GPU并行计算速度明显高于CPU串行计算速度,其加速比随流场网格规模的增大而明显提高。GPU并行计算可以有效提高超音速流场的计算速度,为超音速飞行器的设计、优化、性能评估及其研发提供一种强有力的并行计算方法。 展开更多
关键词 超音速流场 中央处理器-图形处理器 异构计算 有限差分
在线阅读 下载PDF
基于Matrix Core的小尺寸批量矩阵乘法设计与优化
3
作者 陆璐 赵容 +1 位作者 梁志宏 索思亮 《华南理工大学学报(自然科学版)》 北大核心 2025年第9期48-58,共11页
通用矩阵乘法(GEMM)是线性代数中最重要的运算,来自不同科学领域的许多应用程序都将其关键部分转换为使用GEMM的形式。GEMM广泛应用于大模型、机器学习、科学计算和信号处理等领域。特别是半精度的批处理GEMM(即FP16)一直是许多深度学... 通用矩阵乘法(GEMM)是线性代数中最重要的运算,来自不同科学领域的许多应用程序都将其关键部分转换为使用GEMM的形式。GEMM广泛应用于大模型、机器学习、科学计算和信号处理等领域。特别是半精度的批处理GEMM(即FP16)一直是许多深度学习框架的核心操作。目前AMD GPU上半精度批处理GEMM的访存和计算利用率不足,急需优化。为此,该文提出了一种半精度批处理GEMM(HGEMM)的图形处理器(GPU)优化方案。分块策略方面,根据输入矩阵块大小为线程分配相同的访存量和计算量,同时线程计算多个矩阵乘法,以提高计算单元的利用率。访存优化方面,以多读数据为代价,为每个线程分配相同访存量以便于编译器优化,保证访存和计算时间相互掩盖。对于矩阵尺寸小于16的极小尺寸批处理HGEMM,该文利用4×4×4的Matrix Core及其对应的分块方案,在提升访存性能的同时减少Matrix Core计算资源的浪费,并提供是否使用共享内存的选项来达到最高性能。在AMD GPU MI210平台上,将该方案与rocBLAS的2个算子进行性能对比,结果表明:该方案在AMD GPU MI210上的平均性能为rocBLASHGEMMBatched的4.14倍,rocBLASGEMMExBatched的4.96倍;对于极小尺寸批处理HGEMM,平均性能为rocBLASHGEMMBatched的18.60倍,rocBLASGEMMExBatched的14.02倍。 展开更多
关键词 图形处理器 Matrix Core 矩阵乘法 访存优化
在线阅读 下载PDF
基于CUDA的多波束测深数据海底地形模型并行构建算法 被引量:1
4
作者 李展鹏 崔晓东 +3 位作者 云天宇 李晓勇 亓超 阳凡林 《山东科技大学学报(自然科学版)》 北大核心 2025年第2期55-64,共10页
多波束测深系统(MBES)具有探测范围广、测量效率高的特点,面向海量多波束测深数据的高效快速地形建模与表达成为亟待解决的技术难点。为此,本研究提出一种基于通用并行计算架构(CUDA)的自适应分辨率规则格网并行构建算法,首先对区域进... 多波束测深系统(MBES)具有探测范围广、测量效率高的特点,面向海量多波束测深数据的高效快速地形建模与表达成为亟待解决的技术难点。为此,本研究提出一种基于通用并行计算架构(CUDA)的自适应分辨率规则格网并行构建算法,首先对区域进行四叉树的构建,然后针对分割后的点云计算自适应最优分辨率,利用图形处理器(GPU)并行加速构建格网,最后通过光照阴影计算和高程渲染,构建海底地形模型。本研究以水下大规模多波束测深点云数据为研究对象,进行了GPU加速与中央处理单元(CPU)环境下构网任务的测试和对比分析。结果显示,基于CPU构网耗时22.753 s,本算法构网耗时缩短至9.023 s,加速2.52倍,实现了海底地形模型的快速构建。 展开更多
关键词 多波束测深系统 四叉树 图形处理器 规则格网 自适应分辨率
在线阅读 下载PDF
CPWS:一种基于检查点的GPGPU多级warp调度器
5
作者 姜泽坤 原博 +3 位作者 崔剑峰 黄立波 常俊胜 刘胜 《计算机工程与科学》 北大核心 2025年第9期1563-1570,共8页
通用图形处理器(GPGPU)使用单指令多线程(SIMT)模型,该模型允许大量线程同时执行同一指令,从而显著提高计算效率。在SIMT模型中,GPGPU将一组线程组织成名为线程束(warp)的逻辑执行单元。由于硬件必须在多个warp之间进行时分复用,所以war... 通用图形处理器(GPGPU)使用单指令多线程(SIMT)模型,该模型允许大量线程同时执行同一指令,从而显著提高计算效率。在SIMT模型中,GPGPU将一组线程组织成名为线程束(warp)的逻辑执行单元。由于硬件必须在多个warp之间进行时分复用,所以warp调度是实现高效并行计算的关键。通过添加新的检查点指令,设计并实现了一种基于检查点的多级warp调度器CPWS。CPWS能够跟踪每个warp的执行进度,并根据该进度动态调整其调度策略,整体硬件开销较低。实验表明,CPWS的性能与贪婪调度器(GTO)的相比提高了11%,与松散轮询调度(LRR)的相比提高了16.7%,与两级轮询的相比提高了10.6%。此外,通过在FPGA上的综合结果表明,CPWS相比GTO增加的逻辑单元开销仅为0.8%。 展开更多
关键词 通用图形处理器 检查点 线程束调度器
在线阅读 下载PDF
基于真实场景数据的天基雷达非均匀杂波快速仿真方法
6
作者 沈皓 谢锴欣 舒汀 《现代雷达》 北大核心 2025年第6期8-13,共6页
现有的基于地理信息的非均匀杂波仿真方法通常是先使用网格映像法划分地理信息,再遍历每个网格内的散射单元来计算网格的散射系数。此类方法不利于多源地理信息的统一使用,并且其中网格的划分和散射单元的遍历降低了仿真的实时性。针对... 现有的基于地理信息的非均匀杂波仿真方法通常是先使用网格映像法划分地理信息,再遍历每个网格内的散射单元来计算网格的散射系数。此类方法不利于多源地理信息的统一使用,并且其中网格的划分和散射单元的遍历降低了仿真的实时性。针对上述问题,文中提出了一种面向仿真应用的对多源地理信息根据距离―方位进行重采样预处理的非均匀杂波快速仿真方法,来避免实时计算阶段划分网格单元以及遍历网格单元的内部散射体,并为此设计了一种基于图形处理单元的天基雷达非均匀杂波快速仿真框架。实验结果表明,文中的方法在较高的仿真模型精度条件下,可有效提高非均匀杂波仿真的速度,具有较好的工程应用价值。 展开更多
关键词 天基雷达 非均匀杂波 多源先验信息 图形处理单元 快速仿真
在线阅读 下载PDF
基于GPU的OMCSS水声通信M元解扩算法并行实现
7
作者 彭海源 王巍 +4 位作者 李德瑞 刘彦君 李宇 迟骋 田亚男 《系统工程与电子技术》 北大核心 2025年第3期978-986,共9页
针对正交多载波扩频(orthogonal multi-carrier spread spectrum,OMCSS)水声通信系统接收信号快速处理需求,提出一种基于图形处理模块(graphic processing unit,GPU)的M元解扩算法的并行实现方法。首先,分析M元解扩算法在GPU平台上实现... 针对正交多载波扩频(orthogonal multi-carrier spread spectrum,OMCSS)水声通信系统接收信号快速处理需求,提出一种基于图形处理模块(graphic processing unit,GPU)的M元解扩算法的并行实现方法。首先,分析M元解扩算法在GPU平台上实现的可行性,针对算法内部基础运算单元进行并行优化处理。然后,为了进一步提升GPU并行运行速度,对算法进行基于并发内核执行的M元并行解扩计算架构设计。在中央处理器(central processing unit,CPU)+GPU异构平台上对算法性能进行测试。测试结果表明,设计的M元并行解扩算法相比M元串行解扩算法在运行速度上有最大90.47%的提升,最大加速比为10.5。 展开更多
关键词 正交多载波扩频 水声通信 M元解扩 图形处理模块 并行实现
在线阅读 下载PDF
基于算网状态感知的多集群GPU算力资源调度平台设计与实现
8
作者 胡亚辉 张宸康 +4 位作者 王越嶙 洪雨琛 范鹏飞 宋俊平 周旭 《通信学报》 北大核心 2025年第10期175-190,共16页
针对大规模深度学习任务的多集群GPU调度中资源粒度粗放、缺乏统一vGPU视图及跨集群网络感知不足等问题,设计算网状态感知的多集群GPU算力调度平台。平台采用集中式架构,通过实时感知跨集群算力资源与网络状态并协同调度,实现细粒度全... 针对大规模深度学习任务的多集群GPU调度中资源粒度粗放、缺乏统一vGPU视图及跨集群网络感知不足等问题,设计算网状态感知的多集群GPU算力调度平台。平台采用集中式架构,通过实时感知跨集群算力资源与网络状态并协同调度,实现细粒度全局资源编排调度。平台先构建设备、集群、vGPU及网络层多维度指标体系,实时采集核心利用率、显存、带宽等关键数据;设计节点级vGPU编排部署模块,突破“作业到集群”局限,达成“作业到节点”精准调度,提升GPU共享效率与资源利用率。实验表明,平台可实现多集群vGPU与网络信息的实时采集可视化,经DDPG强化学习及BestFit算法验证,具备高效资源管理能力。 展开更多
关键词 多集群 图形处理器 算力资源 算网状态感知 编排调度
在线阅读 下载PDF
光线追踪硬件加速方案综述
9
作者 张大权 董家瑞 +5 位作者 雷洋 李世康 石响宇 李宗辉 邓仰东 吴为民 《计算机应用》 北大核心 2025年第5期1632-1644,共13页
当前,实时三维图形渲染领域发生着技术变革,实时光线追踪技术的应用激增;但就计算而言,光线追踪成本依旧“昂贵”,传统硬件无法支持这样的算力。新的图形处理单元(GPU)必须在性能、功耗和高复杂度场景之间获取平衡,硬件加速技术因此成... 当前,实时三维图形渲染领域发生着技术变革,实时光线追踪技术的应用激增;但就计算而言,光线追踪成本依旧“昂贵”,传统硬件无法支持这样的算力。新的图形处理单元(GPU)必须在性能、功耗和高复杂度场景之间获取平衡,硬件加速技术因此成为实时光线追踪的核心。首先,介绍了光线追踪的理论基础,基于目前最主流的2种硬件加速数据结构(KD-Tree(K-Dimensional Tree)和层次包围盒树(BVH-Tree)),分别从基元分割、构造方法、优化方法和遍历加速的角度进行调研,发掘这2种结构用于硬件加速的潜力;其次,从固定函数设计、硬件架构设计、以减少内存带宽为目标的调度和数据管理这3个角度,对各个阶段所开发的专用加速硬件进行总结;再次,面向产业界调研主流的光线追踪GPU的产业界解决方案以及未来发展趋势;最后,总结并讨论光线追踪硬件加速方案的现状与不足,并展望了这些方案的性能优化方向。 展开更多
关键词 光线追踪 硬件加速 KD-TREE 层次包围盒树 图形处理单元
在线阅读 下载PDF
基于GPU并行计算的目标声散射Kirchhoff近似积分方法
10
作者 杨晨轩 安俊英 +1 位作者 孙阳 张毅 《声学技术》 北大核心 2025年第4期499-505,共7页
为提高水下目标中高频声散射的计算效率,文章建立了基于图形处理器(graphics processing unit,GPU)并行计算方式的目标声散射基尔霍夫(Kirchhoff)近似积分计算模型。首先,针对目标声散射的Kirchhoff近似积分方法的常量元模型和面元精确... 为提高水下目标中高频声散射的计算效率,文章建立了基于图形处理器(graphics processing unit,GPU)并行计算方式的目标声散射基尔霍夫(Kirchhoff)近似积分计算模型。首先,针对目标声散射的Kirchhoff近似积分方法的常量元模型和面元精确积分模型,建立基于GPU线程分配的并行化模式,形成可并行计算的算法模型;然后,以半径为1 m的刚性球为目标,采用GPU并行模型计算其声散射目标强度,并通过与解析解的对比验证算法的准确性;最后,以Benchmark模型为目标,通过仿真计算不同条件下的声散射目标强度,对比分析GPU并行计算模型的加速比。结果表明,常量元模型的GPU并行计算效率相比传统串行计算效率提高4~5倍;面元精确积分模型的GPU并行计算效率相比于传统串行计算效率提高8~11倍。基于GPU的并行化模式对目标声散射的Kirchhoff近似积分方法的计算具有明显的加速效果,且随着面元数增加,GPU计算优势更加明显。 展开更多
关键词 基尔霍夫(Kirchhoff)近似积分 图形处理器(GPU) 并行计算 目标散射
在线阅读 下载PDF
面向模型和室内外点云的高效配准算法
11
作者 李俊杰 雷臣 +3 位作者 李伟诚 余肖慧 杨宇焓 朱文利 《液晶与显示》 北大核心 2025年第3期493-504,共12页
针对现有点云配准算法对不同场景的点云进行配准时存在适用性弱、鲁棒性差及配准效率低下等问题,本文提出面向模型和室内外点云的高效配准算法。首先,采用体素网格滤波对点云进行下采样,并使用内部形态描述子(ISS)提取点云特征。然后,... 针对现有点云配准算法对不同场景的点云进行配准时存在适用性弱、鲁棒性差及配准效率低下等问题,本文提出面向模型和室内外点云的高效配准算法。首先,采用体素网格滤波对点云进行下采样,并使用内部形态描述子(ISS)提取点云特征。然后,由快速点特征直方图(FPFH)对特征点进行特征描述,采用随机采样一致性(RANSAC)算法对点云进行粗配准。最后,通过图形处理器(GPU)并行加速的体素化广义迭代最近点(VGICP)算法实现精配准。实验结果表明,在含有噪声点的三维模型、室内及低重叠率室外点云中,本文算法在达到较高配准精度的同时仅耗时0.118 s、0.306 s和0.648 s。相比于现有的配准算法,配准效率提高了79.12%、82.41%和88.28%。本文算法在不同的应用场景下均具有较高的配准精度和配准效率,且适用性更强、鲁棒性更高。 展开更多
关键词 点云配准 随机采样一致性 图形处理器 体素化广义迭代最近点
在线阅读 下载PDF
基于Tensor Cores的新型GPU架构的高性能Cholesky分解
12
作者 石璐 邹高远 +1 位作者 伍思琦 张少帅 《计算机工程与科学》 北大核心 2025年第7期1170-1180,共11页
稠密矩阵乘法(GEMMs)在Tensor Cores上可以实现高度优化。然而,现有的Cholesky分解的实现由于其有限的并行性无法达到Tensor Cores大部分的峰值性能。研究使用一种递归Cholesky分解的算法,通过将对角线块的递归细分,将原本的对称矩阵秩... 稠密矩阵乘法(GEMMs)在Tensor Cores上可以实现高度优化。然而,现有的Cholesky分解的实现由于其有限的并行性无法达到Tensor Cores大部分的峰值性能。研究使用一种递归Cholesky分解的算法,通过将对角线块的递归细分,将原本的对称矩阵秩K更新(SYRK)和三角方程组求解(TRSM)操作转化为大量的通用矩阵乘法(GEMMs),从而更充分地发挥Tensor Cores的峰值性能。实验结果表明,提出的递归Cholesky分解算法在FP32和FP16上分别比MAGMA/cuSOLVER算法提高了1.72倍和1.62倍。 展开更多
关键词 CHOLESKY分解 高性能计算 数值线性代数 通用图形处理器(GPGPU)
在线阅读 下载PDF
基于通用图形处理器的神经网络并行推理加速
13
作者 王重熙 章隆兵 《高技术通讯》 北大核心 2025年第3期250-261,共12页
通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小... 通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小批量的推理难以同时充分利用通用图形处理器中不同的计算、存储和访存资源,造成部分资源闲置。对此,本文提出了基于通用图形处理器的神经网络并行推理加速方法,在通用图形处理器上同时推理多个神经网络,通过同时执行互补的神经网络层充分利用通用图形处理器中的各类资源。首先,使用PyTorch中的统一计算设备架构(compute unified device architecture,CUDA)流以及直接在CUDA流中调用CUDA基础线性代数子程序库(CUDA basic linear algebra subprograms,cuBLAS)和CUDA深度神经网络库(CUDA deep neural network library,cuDNN)2种方式,在它们并行加速效果不及预期的情况下,根据性能分析结果确定了NVIDIA通用图形处理器负载调度机制中对多负载并行的限制因素。随后,基于特定的调度机制,提出了更适合多负载并行核函数的设计方法,并实现了主要的神经网络算子,基于此方法在真实的通用图形处理器平台上实现了神经网络并行推理加速。在RTX3080通用图形处理器上的测试结果表明,该神经网络并行推理加速方法对主流神经网络的并行推理达到了平均1.94倍的加速效果,相较于直接调用cuBLAS和cuDNN库平均1.34倍的加速效果提高了45%,不仅验证了在通用图形处理器上实现神经网络并行推理加速的可行性,同时也为其他各类负载在通用图形处理器上的多负载并行加速提供了道路。 展开更多
关键词 多负载并行加速 神经网络推理 通用图形处理器
在线阅读 下载PDF
山地地震资料叠前时间偏移方法及其GPU实现 被引量:55
14
作者 刘国峰 刘洪 +2 位作者 李博 刘钦 佟小龙 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2009年第12期3101-3108,共8页
山地地区地下地质结构复杂,地表高差大,变化剧烈.目前该类地区地震勘探中主要的成像手段依然是Kirchhoff叠前时间偏移.但地表高程的剧烈变化使叠前时间偏移的基准面很难选择.本文在传统方法的基础上,提出了一种在浮动基准面上修正常规... 山地地区地下地质结构复杂,地表高差大,变化剧烈.目前该类地区地震勘探中主要的成像手段依然是Kirchhoff叠前时间偏移.但地表高程的剧烈变化使叠前时间偏移的基准面很难选择.本文在传统方法的基础上,提出了一种在浮动基准面上修正常规叠前时间偏移走时计算的叠前时间偏移方法,该方法能够很大程度上提高山地地区、特别是地表高差变化大地区的成像效果.本文还介绍了GPU在叠前时间偏移上的应用,通过GPU对叠前时间偏移的优化和实现,得出如下结论:应用单颗NVIDIA Tesla C1060 GPU进行叠前时间偏移,相比应用主频2.5 GHz的单核CPU计算效率可提高70倍以上. 展开更多
关键词 山地地震资料 叠前时间偏移 GPU
在线阅读 下载PDF
三维逆时偏移GPU/CPU机群实现方案研究 被引量:36
15
作者 刘守伟 王华忠 +1 位作者 陈生昌 孔祥宁 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2013年第10期3487-3496,共10页
叠前逆时偏移是当前最为准确的地震成像方法,由于计算量大、存储量大等原因需要合适的实现策略和高效的计算平台.本文以高阶有限差分逆时偏移为基础,重点讨论了在GPU上实现需要解决的显存不足问题和人工边界问题.利用区域分解技术可以... 叠前逆时偏移是当前最为准确的地震成像方法,由于计算量大、存储量大等原因需要合适的实现策略和高效的计算平台.本文以高阶有限差分逆时偏移为基础,重点讨论了在GPU上实现需要解决的显存不足问题和人工边界问题.利用区域分解技术可以在当前GPU上高效地实现任意生产规模的三维逆时偏移成像,不会受到GPU显存规模的制约.常规最佳匹配层边界条件边界区域控制方程与内部区域差异较大,不适于GPU高速运算.本文在GPU上实现近似最佳匹配层(NPML)边界条件,使得高阶有限差分计算不需要分支判断,边界区域辅助波场的存储量也较低,保证了在GPU上进行波场传播的高效性.三维理论数据和实际资料成像结果表明了本文方法的正确性. 展开更多
关键词 逆时偏移 图形处理器 区域分解 近似最佳匹配层
在线阅读 下载PDF
基于GPU和Kinect的快速物体重建 被引量:50
16
作者 刘鑫 许华荣 胡占义 《自动化学报》 EI CSCD 北大核心 2012年第8期1288-1297,共10页
便宜的物体快速三维建模技术是当前计算机视觉领域重要的研究课题.给出了一种基于Kinect传感器的快速物体重建方法,以及基于该方法的一种图形处理器(Graphic processing unit,GPU)原型系统实现.本文方法主要分为两步:1)系统的初始标定;2... 便宜的物体快速三维建模技术是当前计算机视觉领域重要的研究课题.给出了一种基于Kinect传感器的快速物体重建方法,以及基于该方法的一种图形处理器(Graphic processing unit,GPU)原型系统实现.本文方法主要分为两步:1)系统的初始标定;2)全自动的物体重建.对于系统初始标定,提出了一种简单易用的粗标定方法;对于物体重建,提出一种全自动的快速物体重建方法.本文方法鲁棒性高,在出现点云配准错误时仍然能够稳定地得到较理想的重建模型.针对环闭合(Loop-closure)问题,提出了一种全局的点云配准方法.对几类物体的重建实验结果表明,本文方法方便实用,且能得到较好的重建效果.此外,本文还探索了有遮挡物体的重建问题.将本文方法应用于有遮挡物体的重建,也取得了较好的重建效果. 展开更多
关键词 三维物体建模 图形处理器 KINECT 遮挡问题 环闭合
在线阅读 下载PDF
基于GPU带有复杂边界的三维实时流体模拟 被引量:54
17
作者 柳有权 刘学慧 吴恩华 《软件学报》 EI CSCD 北大核心 2006年第3期568-576,共9页
在GPU(graphicsprocessingunit)上求解了复杂场景中的三维流动问题,充分利用了GPU并行能力以加速计算.与前人的方法不同,该方法对于边界条件的处理更为通用.首先,通过在图像空间生成实心的剖切截面构成整个障碍物信息图,算法使得流体计... 在GPU(graphicsprocessingunit)上求解了复杂场景中的三维流动问题,充分利用了GPU并行能力以加速计算.与前人的方法不同,该方法对于边界条件的处理更为通用.首先,通过在图像空间生成实心的剖切截面构成整个障碍物信息图,算法使得流体计算与整个几何场景的复杂度无关,通过对各体素进行分类并结合边界条件,根据障碍物形成修正因子来修改对应的值;另外,采用更为紧凑的数据格式,以充分利用硬件的并行性.通过将所有标量的运算压缩到纹元的4个颜色通道并结合平铺三维纹理,减少了三维流场计算所需要的绘制次数.实验结果显示出算法的有效性和高效率.该算法可以实时计算并显示一个采用中等规模离散的复杂场景. 展开更多
关键词 图形硬件 GPU 可编程性 纳维-斯托克斯方程组 三维流动模拟 实时
在线阅读 下载PDF
软件雷达信号处理的多GPU并行技术 被引量:19
18
作者 秦华 周沫 +1 位作者 察豪 左炜 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2013年第3期145-151,共7页
针对中央处理器(CPU)平台难以满足雷达信号处理实时性不足的问题,利用图形处理器(GPU)并行运算能力强的特点,在CPU-GPU异构系统中采用任务级、数据级和线程级并行策略,设计了基于多图形处理器的雷达信号处理并行算法.新算法根据图形处... 针对中央处理器(CPU)平台难以满足雷达信号处理实时性不足的问题,利用图形处理器(GPU)并行运算能力强的特点,在CPU-GPU异构系统中采用任务级、数据级和线程级并行策略,设计了基于多图形处理器的雷达信号处理并行算法.新算法根据图形处理器的访存机制进行优化设计,充分利用了图形处理器的并行计算资源.实验结果表明:基于4块图形处理器的多任务并行化计算平台与中央处理器平台相比较,加速比最大可达42.78,并且能够满足雷达信号处理的实时性要求. 展开更多
关键词 软件雷达 信号处理 并行计算 图形处理器
在线阅读 下载PDF
高性能计算的发展现状及趋势 被引量:50
19
作者 张军华 臧胜涛 +1 位作者 单联瑜 石林光 《石油地球物理勘探》 EI CSCD 北大核心 2010年第6期918-925,共8页
地震勘探是高性能计算最重要的应用领域之一。本文通过跟踪国内外高性能计算机的发展动态,分析地球物理勘探领域对高性能计算的需求和应用现状,展望高性能计算的发展趋势,得出了以下结论和认识:高性能计算机今后发展趋势是向多核方向发... 地震勘探是高性能计算最重要的应用领域之一。本文通过跟踪国内外高性能计算机的发展动态,分析地球物理勘探领域对高性能计算的需求和应用现状,展望高性能计算的发展趋势,得出了以下结论和认识:高性能计算机今后发展趋势是向多核方向发展;②目前地震勘探对高性能计算的直接需求是叠前深度偏移、叠前反演和全波形反演,以及单点高密度勘探技术;③GPU技术具有广阔的应用前景,尤其是新建的CUDA架构完善了软件开发环境;④基于FPGAs(Field Programmable Gate Arrays,现场可编程门阵列)的可重构技术,既有硬件的计算性能,又有软件的灵活性,采用此项技术可以大大提高计算速度;⑤受功耗、传统集成电路技术等制约,单CPU性能提高有很大的局限性,开发新材料、完善计算机封装结构成为提高计算性能的新途径,光电二极管(APD)硅光子器件、内存+CPU的MCP封装结构,发展前景看好;⑥云计算(Cloud Computing)是在分布计算、并行计算、网格计算等基础上发展起来的一种全新的数据密集型超级计算模式,该技术将在海量数据的高性能计算方面有很好的应用前景;⑦计算性能的提高依赖于软硬件一体化整体发展,目前硬件技术发展日新月异,但软件开发及应用相对滞后,大力发展软件产业是解决以上问题的必由之路。 展开更多
关键词 高性能计算 GPU FPGAS 云计算 高密度勘探 叠前深度偏移 全波形反演
在线阅读 下载PDF
基于图形处理器(GPU)的通用计算 被引量:228
20
作者 吴恩华 柳有权 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2004年第5期601-612,共12页
伴随着PC级微机的崛起和普及 ,多年来计算机图形的大部分应用发生了从工作站向微机的大转移 ,这种转移甚至发生在像虚拟现实、计算机仿真这样的实时 (中、小规模 )应用中 这一切的发生从很大程度上源自于图形处理硬件的发展和革新 近年... 伴随着PC级微机的崛起和普及 ,多年来计算机图形的大部分应用发生了从工作站向微机的大转移 ,这种转移甚至发生在像虚拟现实、计算机仿真这样的实时 (中、小规模 )应用中 这一切的发生从很大程度上源自于图形处理硬件的发展和革新 近年来 ,随着图形处理器 (GPU)性能的大幅度提高以及可编程特性的发展 ,人们首先开始将图形流水线的某些处理阶段以及某些图形算法从CPU向GPU转移 除了计算机图形学本身的应用 ,涉及到其他领域的计算 ,以至于通用计算近 2~ 3年来成为GPU的应用之一 ,并成为研究热点 文中从若干图形硬件发展的历史开始 ,介绍和分析最新GPU在通用计算方面的应用及其技术原理和发展状况 。 展开更多
关键词 图形处理器 通用计算 GPU 图形硬件 可编程性 代数运算 性能分析
在线阅读 下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部