期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于GPU通用计算CUDA架构的人体检测技术
1
作者 周晓阳 《信息化研究》 2012年第2期41-43,共3页
随着计算机硬件技术的高速发展,图形处理器(Graphic processing unit,GPU)通用计算已经发展到颇为成熟阶段,其并行运算速度已远远超过多核CPU。文章简介CUDA架构并验证其在图形处理中的加速能力,对比线性代数运算在CPU与GPU架构下的效率... 随着计算机硬件技术的高速发展,图形处理器(Graphic processing unit,GPU)通用计算已经发展到颇为成熟阶段,其并行运算速度已远远超过多核CPU。文章简介CUDA架构并验证其在图形处理中的加速能力,对比线性代数运算在CPU与GPU架构下的效率,将CUDA技术应用于智能视频监控人体检测系统中,实验验证其高效性及可行性。最后对CUDA的发展方向进行了展望。 展开更多
关键词 图形处理器 并行计算架构 人体检测 视频监控
在线阅读 下载PDF
基于GPU的RFT算法并行化 被引量:5
2
作者 商哲然 谭贤四 +2 位作者 曲智国 王红 丰骁 《雷达科学与技术》 北大核心 2016年第5期505-509,516,共6页
RFT(Radon-Fourier Transform)是一种广义的MTD算法,可沿着目标径向运动轨迹进行相参积累。然而对距离-速度二维搜索产生的巨大计算量使得其难以快速实现和工程化。针对这个问题,根据雷达信号的回波数据结构和RFT算法思路,提出一种基于... RFT(Radon-Fourier Transform)是一种广义的MTD算法,可沿着目标径向运动轨迹进行相参积累。然而对距离-速度二维搜索产生的巨大计算量使得其难以快速实现和工程化。针对这个问题,根据雷达信号的回波数据结构和RFT算法思路,提出一种基于GPU的RFT并行化算法。通过实验,GPU平台实现的RFT算法与标准RFT和快速RFT相比,获得了巨大的加速比。另外,通过对比在CPU平台执行的MTD算法,得到在GPU平台上的RFT计算结果在不需要传回主机内存的条件下,计算速度快于在CPU平台上MTD算法。 展开更多
关键词 拉东傅里叶变换 并行 图形处理器 通用并行计算架构
在线阅读 下载PDF
BPF重建算法的CUDA并行实现 被引量:3
3
作者 伍绍佳 陈皓 +1 位作者 廖丽 桂建保 《集成技术》 2014年第5期61-68,共8页
反投影滤波(Backprojection-Filter,BPF)算法凭借其可实现感兴趣区域重建的优点,近年来逐渐被应用到锥束CT中。但是,由于算法的复杂性,实践中存在耗时问题,同时其GPU加速的实现亦存在显存不足等问题。因此,文章提出了一种基于CUDA的BPF... 反投影滤波(Backprojection-Filter,BPF)算法凭借其可实现感兴趣区域重建的优点,近年来逐渐被应用到锥束CT中。但是,由于算法的复杂性,实践中存在耗时问题,同时其GPU加速的实现亦存在显存不足等问题。因此,文章提出了一种基于CUDA的BPF并行加速算法。通过设计高效的算法框架,在保留其重建精度的前提下,有效地减少所需显存。此外,总结了正投影算法及BPF算法中采用的加速策略,如利用算法特征加速等,并引入显存池的概念优化算法架构。仿真实验结果表明,在精确重建的前提下,采用新框架重建512×512×512数据只需8.055 s,感兴趣区域重建只需4.566 s,只需1.523 s便可输出第一部分数据,且能把显存占用从2.5 GB减少到100 MB以下,适用于大数据重建。 展开更多
关键词 反投影滤波算法 锥束CT 感兴趣区域成像 图形处理器 图像重建 并行计算架构
在线阅读 下载PDF
基于GPU的势能场骨架提取并行算法
4
作者 赵丝喆 王宽全 袁永峰 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2016年第5期18-22,共5页
为解决势能场骨架提取方法计算效率低、提取过程耗时大的问题,同时为降低该方法的时间复杂度,提出了基于GPU的势能场骨架提取并行算法,并充分利用CUDA架构特有的常量存储器和共享存储器对普通并行算法进行改进.讨论了如何根据程序和显... 为解决势能场骨架提取方法计算效率低、提取过程耗时大的问题,同时为降低该方法的时间复杂度,提出了基于GPU的势能场骨架提取并行算法,并充分利用CUDA架构特有的常量存储器和共享存储器对普通并行算法进行改进.讨论了如何根据程序和显卡设备的固有属性来分配线程以达到最高的GPU占用率,从而得到最优的加速效果.对多组3D模型进行测试的结果表明,随着数据规模的增大,加速效果逐渐提升,处理256×256×487的体数据时,可获得18倍的加速比. 展开更多
关键词 图形处理器 并行计算 势能场 骨架提取 通用并行计算架构
在线阅读 下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:17
5
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(GPU) 通用并行计算架构(CUDA)
在线阅读 下载PDF
超高分辨率机载SAR成像算法及其GPU实现 被引量:5
6
作者 田宵骏 梁媚蓉 毛新华 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2015年第3期384-391,共8页
雷达成像分辨率的不断提高,给SAR高精度实时成像处理带来了新的挑战。采用高效精确的成像算法以及对算法进行硬件加速是解决该问题的有效途径。本文提出了一种适用于超高分辨率机载SAR成像的精确高效成像处理方案,并利用并行化硬件平台... 雷达成像分辨率的不断提高,给SAR高精度实时成像处理带来了新的挑战。采用高效精确的成像算法以及对算法进行硬件加速是解决该问题的有效途径。本文提出了一种适用于超高分辨率机载SAR成像的精确高效成像处理方案,并利用并行化硬件平台GPU对该成像方案进行了硬件加速。实测数据处理结果充分验证了该处理方案的聚焦精度和处理效率。 展开更多
关键词 合成孔径雷达 超高分辨率 成像算法 图形处理器 通用并行计算架构
在线阅读 下载PDF
基于GPGPU光电材料的核多项式算法实现
7
作者 楚广勇 霍艳芳 +1 位作者 苏永刚 罗荣辉 《激光杂志》 CAS CSCD 北大核心 2012年第4期13-14,共2页
在物理学中,对光电材料的量子系统晶格模型进行模拟是了解光电材料的量子特性最重要的方法之一。而模拟中的主要任务是计算电子态密度。这需要大规模的计算,因此它通常是在计算机集群、甚至是超级计算机下进行的。而随着GPGPU的发展,利... 在物理学中,对光电材料的量子系统晶格模型进行模拟是了解光电材料的量子特性最重要的方法之一。而模拟中的主要任务是计算电子态密度。这需要大规模的计算,因此它通常是在计算机集群、甚至是超级计算机下进行的。而随着GPGPU的发展,利用GPGPU强大的数据处理能力,采用合适的算法能极大地减少计算量。结果显示,与相同算法的CPU实现相比,GPGPU实现计算效率极大地提高了。 展开更多
关键词 GPGPU 并行计算架构 核多项式
在线阅读 下载PDF
基于GPU的振动光纤入侵探测数据预处理算法 被引量:1
8
作者 姜大闯 潘鸣 +5 位作者 俞旭辉 王静 桂小刚 汪瑞 江兆凤 於景暽 《太赫兹科学与电子信息学报》 北大核心 2019年第5期898-903,共6页
定位型振动光纤探测主机输出的是一个巨大的传感器阵列信号,数据量大且实时性处理要求高,对数据处理提出了很高的要求。本文立足于定位型光纤周界安防系统,基于英伟达公司(NVIDIA)的统一计算设备架构(CUDA)平台对预处理算法进行图像处理... 定位型振动光纤探测主机输出的是一个巨大的传感器阵列信号,数据量大且实时性处理要求高,对数据处理提出了很高的要求。本文立足于定位型光纤周界安防系统,基于英伟达公司(NVIDIA)的统一计算设备架构(CUDA)平台对预处理算法进行图像处理器(GPU)加速。结果表明预处理算法运行在GPU上可以达到很好的加速效果,对系统的实时性能有明显提升。 展开更多
关键词 光纤周界 信号处理 图像处理器加速 统一计算设备架构并行计算
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部