期刊文献+
共找到266篇文章
< 1 2 14 >
每页显示 20 50 100
Compute Unified Device Architecture Implementation of Euler/Navier-Stokes Solver on Graphics Processing Unit Desktop Platform for 2-D Compressible Flows
1
作者 Zhang Jiale Chen Hongquan 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2016年第5期536-545,共10页
Personal desktop platform with teraflops peak performance of thousands of cores is realized at the price of conventional workstations using the programmable graphics processing units(GPUs).A GPU-based parallel Euler/N... Personal desktop platform with teraflops peak performance of thousands of cores is realized at the price of conventional workstations using the programmable graphics processing units(GPUs).A GPU-based parallel Euler/Navier-Stokes solver is developed for 2-D compressible flows by using NVIDIA′s Compute Unified Device Architecture(CUDA)programming model in CUDA Fortran programming language.The techniques of implementation of CUDA kernels,double-layered thread hierarchy and variety memory hierarchy are presented to form the GPU-based algorithm of Euler/Navier-Stokes equations.The resulting parallel solver is validated by a set of typical test flow cases.The numerical results show that dozens of times speedup relative to a serial CPU implementation can be achieved using a single GPU desktop platform,which demonstrates that a GPU desktop can serve as a costeffective parallel computing platform to accelerate computational fluid dynamics(CFD)simulations substantially. 展开更多
关键词 graphics processing unit(gpu) gpu parallel computing compute unified device architecture(CUDA)Fortran finite volume method(FVM) acceleration
在线阅读 下载PDF
Simulation of fluid-structure interaction in a microchannel using the lattice Boltzmann method and size-dependent beam element on a graphics processing unit
2
作者 Vahid Esfahanian Esmaeil Dehdashti Amir Mehdi Dehrouye-Semnani 《Chinese Physics B》 SCIE EI CAS CSCD 2014年第8期389-395,共7页
Fluid-structure interaction (FSI) problems in microchannels play a prominent role in many engineering applications. The present study is an effort toward the simulation of flow in microchannel considering FSI. The b... Fluid-structure interaction (FSI) problems in microchannels play a prominent role in many engineering applications. The present study is an effort toward the simulation of flow in microchannel considering FSI. The bottom boundary of the microchannel is simulated by size-dependent beam elements for the finite element method (FEM) based on a modified cou- ple stress theory. The lattice Boltzmann method (LBM) using the D2Q13 LB model is coupled to the FEM in order to solve the fluid part of the FSI problem. Because of the fact that the LBM generally needs only nearest neighbor information, the algorithm is an ideal candidate for parallel computing. The simulations are carried out on graphics processing units (GPUs) using computed unified device architecture (CUDA). In the present study, the governing equations are non-dimensionalized and the set of dimensionless groups is exhibited to show their effects on micro-beam displacement. The numerical results show that the displacements of the micro-beam predicted by the size-dependent beam element are smaller than those by the classical beam element. 展开更多
关键词 fluid-structure interaction graphics processing unit lattice Boltzmann method size-dependentbeam element
在线阅读 下载PDF
隐私计算环境下深度学习的GPU加速技术综述
3
作者 秦智翔 杨洪伟 +2 位作者 郝萌 何慧 张伟哲 《信息安全研究》 CSCD 北大核心 2024年第7期586-593,共8页
随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密... 随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密2种隐私计算技术,而后探讨了明文环境与隐私计算环境下深度学习的GPU加速技术.在明文环境下,介绍了数据并行和模型并行2种基本的深度学习并行训练模式,分析了重计算和显存交换2种不同的内存优化技术,并介绍了分布式神经网络训练过程中的梯度压缩技术.介绍了在隐私计算环境下安全多方计算和同态加密2种不同隐私计算场景下的深度学习GPU加速技术.简要分析了2种环境下GPU加速深度学习方法的异同. 展开更多
关键词 深度学习 gpu计算 隐私计算 安全多方计算 同态加密
在线阅读 下载PDF
基于GPU的椭圆曲线运算库及相关算法优化
4
作者 高钰洋 张健宁 +2 位作者 王刚 苏明 刘晓光 《信息安全学报》 CSCD 2024年第6期1-16,共16页
在区块链场景下,往往需要引入数字签名、零知识证明等密码学算法以保护数据安全性与用户隐私。但由于这些算法依赖于大量的大数与椭圆曲线运算,包括范围证明在内的许多密码学算法已经成为了区块链系统的性能瓶颈。而密码学算法的GPU优... 在区块链场景下,往往需要引入数字签名、零知识证明等密码学算法以保护数据安全性与用户隐私。但由于这些算法依赖于大量的大数与椭圆曲线运算,包括范围证明在内的许多密码学算法已经成为了区块链系统的性能瓶颈。而密码学算法的GPU优化也在近几年获得了广泛的关注与研究。本文充分利用GPU作为众核处理器的优势,设计了基于GPU的椭圆曲线运算库。在运算库中,本文在GPU上实现并优化了常用的椭圆曲线运算与大数运算,同时针对不同的需求设计了不同的实现与接口。本文对寄存器与常量内存等存储空间进行了合理分配,并通过利用预计算等优化手段减少了计算量,从而最大化了运算库的吞吐与性能。为了验证运算库的实用性与有效性,本文利用该运算库实现了代理重加密与Bulletproofs范围证明的验证算法,同时充分利用了算法的内部并行性进行优化。实验表明,本文实现的运算库在各个运算中都取得了远超于OpenSSL等常用CPU端运算库的性能。基于该运算库实现的代理重加密算法相比CPU实现能达到最高145倍左右的加速比,Bulletproofs范围证明验证算法相比于CPU端实现也能达到5.57倍左右的加速效果,平均证明验证时间在1 ms内,可以满足数字货币隐私保护场景下超过每秒2000笔交易的性能需求。可见该运算库能为区块链系统隐私保护等对密码学计算具有高吞吐需求的场景提供坚实支持。 展开更多
关键词 椭圆曲线 图形处理单元 统一计算架构 范围证明 代理重加密
在线阅读 下载PDF
MicroMagnetic.jl:A Julia package for micromagnetic and atomistic simulations with GPU support
5
作者 Weiwei Wang Boyao Lyu +2 位作者 Lingyao Kong Hans Fangohr Haifeng Du 《Chinese Physics B》 SCIE EI CAS CSCD 2024年第10期70-79,共10页
MicroMagnetic.jl is an open-source Julia package for micromagnetic and atomistic simulations.Using the features of the Julia programming language,MicroMagnetic.jl supports CPU and various GPU platforms,including NVIDI... MicroMagnetic.jl is an open-source Julia package for micromagnetic and atomistic simulations.Using the features of the Julia programming language,MicroMagnetic.jl supports CPU and various GPU platforms,including NVIDIA,AMD,Intel,and Apple GPUs.Moreover,MicroMagnetic.jl supports Monte Carlo simulations for atomistic models and implements the nudged-elastic-band method for energy barrier computations.With built-in support for double and single precision modes and a design allowing easy extensibility to add new features,MicroMagnetic.jl provides a versatile toolset for researchers in micromagnetics and atomistic simulations. 展开更多
关键词 micromagnetic simulations atomistic simulations graphics processing units
在线阅读 下载PDF
Electromagnetic scattering and imaging simulation of extremely large-scale sea-ship scene based on GPU parallel technology
6
作者 Cheng-Wei Zhang Zhi-Qin Zhao +2 位作者 Wei Yang Li-Lai Zhou Hai-Yu Zhu 《Journal of Electronic Science and Technology》 EI CAS CSCD 2024年第2期16-23,共8页
Aiming to solve the bottleneck problem of electromagnetic scattering simulation in the scenes of extremely large-scale seas and ships,a high-frequency method by using graphics processing unit(GPU)parallel acceleration... Aiming to solve the bottleneck problem of electromagnetic scattering simulation in the scenes of extremely large-scale seas and ships,a high-frequency method by using graphics processing unit(GPU)parallel acceleration technique is proposed.For the implementation of different electromagnetic methods of physical optics(PO),shooting and bouncing ray(SBR),and physical theory of diffraction(PTD),a parallel computing scheme based on the CPU-GPU parallel computing scheme is realized to balance computing tasks.Finally,a multi-GPU framework is further proposed to solve the computational difficulty caused by the massive number of ray tubes in the ray tracing process.By using the established simulation platform,signals of ships at different seas are simulated and their images are achieved as well.It is shown that the higher sea states degrade the averaged peak signal-to-noise ratio(PSNR)of radar image. 展开更多
关键词 Multi graphics processing unit Radar imaging Sea-ship Shooting and bouncing rays
在线阅读 下载PDF
基于GPU加速的三维堆芯物理程序STORK的开发与验证
7
作者 俞陆林 杨高升 +4 位作者 陈国华 卑华 蒋校丰 高明敏 王涛 《原子能科学技术》 EI CAS CSCD 北大核心 2024年第3期662-671,共10页
基于小型多GPU计算平台,采用二维全堆逐层特征线方法(MOC)和三维逐棒(pin-by-pin)三阶简化球谐函数方法(SP3方法)相耦合的方式开发了堆芯三维输运中子学计算程序STORK。在方法论方面,首先通过对堆芯各轴向层的二维MOC输运计算在线产生... 基于小型多GPU计算平台,采用二维全堆逐层特征线方法(MOC)和三维逐棒(pin-by-pin)三阶简化球谐函数方法(SP3方法)相耦合的方式开发了堆芯三维输运中子学计算程序STORK。在方法论方面,首先通过对堆芯各轴向层的二维MOC输运计算在线产生栅元均匀化截面以及超级均匀化修正因子(SPH因子),然后采用SP3方法进行pin-by-pin三维堆芯计算。在程序开发方面,采用了CUDA、C++和Python的混合编程,且所有计算模块都基于CUDA/C++开发,并进行了大量的性能优化。通过对C5G7三维插棒基准题和VERA基准题的验证表明,与国际上同类中子学计算软件相比,基于CPU/GPU异构系统开发的STORK程序在计算效率和计算成本方面都具有明显优势。 展开更多
关键词 中子输运 图形处理器 特征线方法 在线均匀化 逐棒 SP3 超级均匀化方法
在线阅读 下载PDF
基于Matrix Core的高性能多维FFT设计与优化
8
作者 陆璐 祝松祥 +2 位作者 田卿燕 林海山 郭逸劼 《华南理工大学学报(自然科学版)》 北大核心 2025年第3期20-30,共11页
快速傅里叶变换(FFT)算法广泛应用于科学计算等领域。为了充分挖掘图形处理器(GPU)的计算能力并进一步提高FFT的计算效率,该文针对矩阵形式的Stockham FFT,提出了一种基于Matrix Core的高性能多维FFT计算方案。在计算优化方面,该方案利... 快速傅里叶变换(FFT)算法广泛应用于科学计算等领域。为了充分挖掘图形处理器(GPU)的计算能力并进一步提高FFT的计算效率,该文针对矩阵形式的Stockham FFT,提出了一种基于Matrix Core的高性能多维FFT计算方案。在计算优化方面,该方案利用Matrix Core加速FFT计算中的矩阵乘运算,同时通过编译器内部指令完成小粒度的矩阵乘加,使得Matrix Core支持更多尺寸的FFT计算。在内存优化方面,该方案使用2层迭代策略,以充分利用共享内存,减少与全局内存的数据交换;根据Matrix Core的矩阵数据在各个线程寄存器中的分布规律,直接在寄存器上完成FFT计算中大量存在的矩阵逐元素乘操作;通过对共享内存中的数据进行重排来缓解存储体冲突,并采用双缓冲策略缓解访存瓶颈。该文还提出了高效的矩阵转置策略,以加速多维FFT计算。在AMD MI250 GPU平台上将该方案与GPU上主流的高性能FFT计算库rocFFT和VkFFT进行了比较实验,结果表明:该方案在AMD MI250上的1维、2维和3维FFT平均计算效率均优于rocFFT和VkFFT,3维FFT的平均计算效率为rocFFT的1.5倍,为VkFFT的2.0倍,具有较好的性能提升;mcFFT的计算精度与rocFFT和VkFFT保持在相同水平。 展开更多
关键词 图形处理器 Matrix Core 快速傅里叶变换 矩阵乘法
在线阅读 下载PDF
基于GPU并行算法的水动力数学模型建立及其效率分析 被引量:11
9
作者 赵旭东 梁书秀 +3 位作者 孙昭晨 刘忠波 韩松林 任喜峰 《大连理工大学学报》 EI CAS CSCD 北大核心 2014年第2期204-209,共6页
应用非结构化网格建立水动力模型目前已经得到了广泛的应用.针对在网格数过多,且无集群机情况下难以快速获得计算结果这一问题,基于GPU的高性能计算技术,在CUDA开发平台下设计并行算法,建立非结构化网格的二维水动力模型.与利用GTX460... 应用非结构化网格建立水动力模型目前已经得到了广泛的应用.针对在网格数过多,且无集群机情况下难以快速获得计算结果这一问题,基于GPU的高性能计算技术,在CUDA开发平台下设计并行算法,建立非结构化网格的二维水动力模型.与利用GTX460显卡和集群机的计算效率对比表明,在保持计算精度的前提下,速度提升了一个量级,且随着网格数的持续递增,可以保持较高的加速比增幅,比较适合应用于大范围海域的水动力模型的数值计算. 展开更多
关键词 gpu 非结构化网格 水动力模型
在线阅读 下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:17
10
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(gpu) 通用并行计算架构(CUDA)
在线阅读 下载PDF
基于GPU的图形电磁计算加速算法 被引量:14
11
作者 杨正龙 金林 李蔚清 《电子学报》 EI CAS CSCD 北大核心 2007年第6期1056-1060,共5页
本文利用现代图形加速卡中GPU(Graphics Process Unit)的可编程管线,实现了图形电磁计算(GRECO)方法.与原有的方法相比,在利用物理光学和物理绕射理论的基础上,计算速度提高了20倍左右.并且利用GPU实现了射线追踪算法,用于目标上多次散... 本文利用现代图形加速卡中GPU(Graphics Process Unit)的可编程管线,实现了图形电磁计算(GRECO)方法.与原有的方法相比,在利用物理光学和物理绕射理论的基础上,计算速度提高了20倍左右.并且利用GPU实现了射线追踪算法,用于目标上多次散射的计算,使得GRECO方法可以快速计算具有凹腔结构目标的电磁散射.本方法对于目标识别和逆合成孔径成像等方面的研究具有重要的应用价值. 展开更多
关键词 电磁散射 图形电磁计算 图形处理单元(gpu)
在线阅读 下载PDF
软件雷达信号处理的多GPU并行技术 被引量:18
12
作者 秦华 周沫 +1 位作者 察豪 左炜 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2013年第3期145-151,共7页
针对中央处理器(CPU)平台难以满足雷达信号处理实时性不足的问题,利用图形处理器(GPU)并行运算能力强的特点,在CPU-GPU异构系统中采用任务级、数据级和线程级并行策略,设计了基于多图形处理器的雷达信号处理并行算法.新算法根据图形处... 针对中央处理器(CPU)平台难以满足雷达信号处理实时性不足的问题,利用图形处理器(GPU)并行运算能力强的特点,在CPU-GPU异构系统中采用任务级、数据级和线程级并行策略,设计了基于多图形处理器的雷达信号处理并行算法.新算法根据图形处理器的访存机制进行优化设计,充分利用了图形处理器的并行计算资源.实验结果表明:基于4块图形处理器的多任务并行化计算平台与中央处理器平台相比较,加速比最大可达42.78,并且能够满足雷达信号处理的实时性要求. 展开更多
关键词 软件雷达 信号处理 并行计算 图形处理器
在线阅读 下载PDF
基于GPU的层次包围盒快速构造方法 被引量:10
13
作者 杨鑫 王天明 许端清 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第1期84-89,共6页
为了能够在基于光线跟踪技术的真实感图形绘制过程中迅速而高效地排除无效的光线相交计算,快速地构造高质量的加速结构,提出基于图形处理器(GPU)体系架构研究基于图形处理器的层次包围盒快速构造方法.在构造初期、构造中期、构造末期3... 为了能够在基于光线跟踪技术的真实感图形绘制过程中迅速而高效地排除无效的光线相交计算,快速地构造高质量的加速结构,提出基于图形处理器(GPU)体系架构研究基于图形处理器的层次包围盒快速构造方法.在构造初期、构造中期、构造末期3个阶段分别针对二叉树结构特点和多核架构特点来设计不同的策略,从而实现层次包围盒结构(BVH)的并行快速构造.实验表明,采用该方法可以最大限度地发挥图形处理器强大的并行计算能力,有效使用硬件计算资源和存储资源,在保证加速结构构造质量的前提下大大缩短加速结构的构造时间. 展开更多
关键词 光线跟踪 加速结构 层次包围盒(BVH) 图形处理器(gpu)
在线阅读 下载PDF
一种新的基于GPU实现的锥束CT正投影算法 被引量:11
14
作者 赵星 胡晶晶 +1 位作者 潘晓川 张朋 《电子学报》 EI CAS CSCD 北大核心 2009年第6期1165-1169,共5页
锥束CT成像算法的正投影计算量大,消耗时间长.为此,本文提出了一种基于GPU实现的正投影加速算法.该算法在GPU的可编程管线中,通过纹理映射方法实现了圆轨迹锥束扫描模式下正投影计算.由于投影逐片并行计算,因此该算法具有较高的计算速率... 锥束CT成像算法的正投影计算量大,消耗时间长.为此,本文提出了一种基于GPU实现的正投影加速算法.该算法在GPU的可编程管线中,通过纹理映射方法实现了圆轨迹锥束扫描模式下正投影计算.由于投影逐片并行计算,因此该算法具有较高的计算速率,且支持全浮点运算精度.在该正投影算法的基础上,本文还给出了三种算法优化方法.这些优化方法进一步提高了算法的执行效率.通过对Shepp-logan模型的正投影计算以及应用于迭代法进行三维图像重建等实验验证了本文算法的优点. 展开更多
关键词 计算机断层成像 图形处理器 图像重建 正投影
在线阅读 下载PDF
一种基于GPU的SAR高效成像处理算法 被引量:10
15
作者 孟大地 胡玉新 丁赤飚 《雷达学报(中英文)》 CSCD 2013年第2期210-217,共8页
合成孔径雷达(SAR)成像处理是一项需要进行大量计算的处理任务。图形处理器(GPU)具有数十倍于CPU的浮点计算能力以及传输带宽,而CUDA技术的发展使得GPU能够方便地进行通用计算。该文提出了一种在GPU上进行SAR成像的高效方法。与一般GPU... 合成孔径雷达(SAR)成像处理是一项需要进行大量计算的处理任务。图形处理器(GPU)具有数十倍于CPU的浮点计算能力以及传输带宽,而CUDA技术的发展使得GPU能够方便地进行通用计算。该文提出了一种在GPU上进行SAR成像的高效方法。与一般GPU处理方法相比,该方法使得处理过程中的CPU-GPU往返数据传输由4次减少到1次,而且同时利用了工作站上的CPU与GPU计算资源。实验结果表明,该方法能够带来相对一般GPU处理方法2.3倍的处理效率提升,从而验证了该方法的有效性。 展开更多
关键词 SAR CUDA gpu SAR成像处理
在线阅读 下载PDF
GPU在SPH方法模拟溃坝问题的应用研究 被引量:4
16
作者 杨志国 黄兴 +1 位作者 郑兴 段文洋 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2014年第6期661-666,共6页
SPH方法是一种无网格的粒子方法,对于求解强非线性水动力学问题具有重要意义。随着粒子数增加,该方法的计算效率成为限制其大规模工程应用的重大瓶颈。可将大规模并行计算引入SPH方法中,以得到良好的计算加速效果。采用将GPU运用于SPH... SPH方法是一种无网格的粒子方法,对于求解强非线性水动力学问题具有重要意义。随着粒子数增加,该方法的计算效率成为限制其大规模工程应用的重大瓶颈。可将大规模并行计算引入SPH方法中,以得到良好的计算加速效果。采用将GPU运用于SPH方法并行计算的技术,借助CUDA硬件计算架构,研究SPH方法的并行计算通用性问题。以二维溃坝问题作为数值算例,对GPU计算结果的稳定性和收敛性进行验证,比较CPU与GPU的计算效率。通过计算,验证了GPU在SPH方法并行计算应用中的可靠性、可行性以及高效性,为提高SPH方法的计算效率提供一种重要的参考途径。 展开更多
关键词 gpu 并行计算 CUDA SPH方法 溃坝 水动力学 数值计算
在线阅读 下载PDF
基于GPU的曲面自适应细分 被引量:3
17
作者 唐敏 童若锋 董金祥 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第7期1145-1149,1217,共6页
为了充分利用图形处理器(GPU)的强大计算力和并行处理能力,并有效克服CPU/GPU间数据传输的瓶颈,提出了一种新的基于GPU的曲面自适应细分算法.通过采用细分模板(SP),在GPU的顶点处理器上将从CPU上传送来的控制网格进行求值细分.给出了自... 为了充分利用图形处理器(GPU)的强大计算力和并行处理能力,并有效克服CPU/GPU间数据传输的瓶颈,提出了一种新的基于GPU的曲面自适应细分算法.通过采用细分模板(SP),在GPU的顶点处理器上将从CPU上传送来的控制网格进行求值细分.给出了自适应细分层次的判定,以及通过带裙边的SP来解决可能出现的裂缝问题.将该方法用于Catmull-Clark细分曲面和Loop细分曲面的求值显示,并推广应用到其他类型细分,和GPU上的其他着色器组合使用,对硬件要求很低,只需要能够支持顶点着色器的显卡.与CPU求值渲染、基于片段处理器求值渲染方法运行效率的对比分析,证明了该方法的高效性. 展开更多
关键词 图形处理器 细分曲面 自适应细分 顶点着色器
在线阅读 下载PDF
基于GPU的后向投影SAR成像算法 被引量:11
18
作者 姜晓龙 王建 +1 位作者 宋千 周智敏 《雷达科学与技术》 2014年第4期350-357,共8页
后向投影(BP)是一种精确的时域合成孔径雷达(SAR)成像算法,但是其巨大的运算量很难满足实时成像的要求,图形处理器(GPU)具有强大的浮点运算和高度的并行处理能力,为BP算法的实时成像提供了一个很好的平台。提出基于GPU的并行化BP算法,... 后向投影(BP)是一种精确的时域合成孔径雷达(SAR)成像算法,但是其巨大的运算量很难满足实时成像的要求,图形处理器(GPU)具有强大的浮点运算和高度的并行处理能力,为BP算法的实时成像提供了一个很好的平台。提出基于GPU的并行化BP算法,利用了四种优化方法对并行化BP算法进行加速,并且针对共享存储器的bank冲突问题提出了相应的解决方法,减少了共享存储器访问时间。最后给出仿真数据的成像结果,结果表明,与传统的基于CPU单线程的BP算法相比,成像速度可达到70倍以上的提升。 展开更多
关键词 后向投影 图形处理器 并行化 优化方法
在线阅读 下载PDF
GPU架构下的并行计算 被引量:8
19
作者 杨柳 刘铁英 《吉林大学学报(信息科学版)》 CAS 2012年第6期629-632,共4页
为降低粒子群优化算法(PSO:Particle Swarm Optimization)时间和空间的复杂度随问题规模的增大而越来越高的问题,对图形处理器(GPU:Graphic Processing Unit)用于并行计算的方法进行了分析,利用GPU的并行特性,实现了粒子群优化算法路径... 为降低粒子群优化算法(PSO:Particle Swarm Optimization)时间和空间的复杂度随问题规模的增大而越来越高的问题,对图形处理器(GPU:Graphic Processing Unit)用于并行计算的方法进行了分析,利用GPU的并行特性,实现了粒子群优化算法路径搜索过程的并行化。测试函数实验结果证明,GPU平台较CPU模式下的计算,其搜索速率有明显提高。 展开更多
关键词 图形处理器 并行计算 粒子群优化算法
在线阅读 下载PDF
基于GPU的植物生长模拟 被引量:2
20
作者 刘骥 朱庆生 +2 位作者 黄晓凤 曾令秋 李松阳 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第10期1803-1809,共7页
为了提高复杂植物生长模拟的性能,结合虚拟器官网络和图形处理器(GPU)技术提出植物生长模拟方法.该方法采用虚拟器官网络作为植物生长模型,用于描述植物器官的生理属性和形态属性、植物器官间的关系、环境对植物器官的影响以及植物器官... 为了提高复杂植物生长模拟的性能,结合虚拟器官网络和图形处理器(GPU)技术提出植物生长模拟方法.该方法采用虚拟器官网络作为植物生长模型,用于描述植物器官的生理属性和形态属性、植物器官间的关系、环境对植物器官的影响以及植物器官的生长规则.利用GPU架构的优势,以并行计算的方式实现植物生长演化和植物形态展现,从而提高植物生长模拟的计算速度.实验结果证明,采用该方法不仅能够模拟植物的生长,而且相对基于CPU的串行植物生长演化和形态展现有性能上的优势. 展开更多
关键词 植物生长模拟 图形处理器(gpu) 统一计算架构(CUDA)
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部