期刊文献+
共找到196篇文章
< 1 2 10 >
每页显示 20 50 100
基于CUDA加速动态规划优化全景拼接的刮板输送机直线状态监测 被引量:2
1
作者 李博 侍守伊 +4 位作者 张建军 夏蕊 王学文 崔卫秀 倪强 《工矿自动化》 北大核心 2025年第1期45-51,60,共8页
为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视... 为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视频流进行暗通道清晰化处理,以消除井下煤尘、水雾等的干扰。其次,使用ORB算法检测和计算2路视频帧的特征点和描述子,通过K最近邻(KNN)匹配计算特征点间的匹配对,利用设置阈值比例的方法过滤错误的匹配点,使用随机抽样一致(RANSAC)算法计算出用于图像透视变换的单应性矩阵。然后,基于CUDA将读取Sobel算子、计算梯度、计算总能量差异、循环初始化权重与路径、寻找最佳接缝线分配到不同的线程中,并定义计算能量图和寻找最佳接缝线的核函数,完成2路图像沿接缝线融合的全景拼接。最后,使用霍夫变换方法对全景拼接的刮板输送机图像中部槽挡煤板进行直线拟合,并将拟合的直线绘制在全景拼接图像上,以反映刮板输送机的直线状态。实验及测试结果表明,CUDA加速动态规划优化全景拼接痕迹不明显,且处理速度快;通过霍夫变换对中部槽挡煤板拟合的直线与刮板输送机直线具有较好的一致性,可用于刮板输送机直线状态监测。 展开更多
关键词 刮板输送机直线状态监测 cuda加速 动态规划 全景拼接 霍夫变换 统一计算设备架构
在线阅读 下载PDF
基于CUDA的多尺度Retinex图像增强算法实现 被引量:8
2
作者 王正宁 刘昌忠 +2 位作者 陈雷霆 吴宏刚 吴敏 《计算机应用》 CSCD 北大核心 2010年第9期2441-2443,共3页
多尺度Retinex图像增强是一种基于色彩恒定理论的图像增强算法,算法增强效果好,但随着图像分辨率的提高计算时间显著增加。分析并利用计算统一设备架构(CUDA)图形处理器(GPU)的并行处理特性,提出了一种基于CUDA的多尺度Retinex图像增强... 多尺度Retinex图像增强是一种基于色彩恒定理论的图像增强算法,算法增强效果好,但随着图像分辨率的提高计算时间显著增加。分析并利用计算统一设备架构(CUDA)图形处理器(GPU)的并行处理特性,提出了一种基于CUDA的多尺度Retinex图像增强并行算法,将多尺度高斯滤波、对数空间差分和动态范围压缩等计算非常耗时的模块采用并行方式放在GPU中进行计算。实验结果表明所提算法能显著提高计算速度,随着图像分辨率的增加,最大加速比超过100倍。 展开更多
关键词 图像增强 多尺度ReTINeX 计算统一设备架构
在线阅读 下载PDF
基于CUDA的AES并行算法优化 被引量:3
3
作者 费雄伟 李肯立 阳王东 《计算机工程》 CAS CSCD 2014年第9期6-12,共7页
为提升高级加密标准(AES)的加密性能,利用显卡的通用计算能力,在统一计算设备架构(CUDA)平台上实现AES的128位、192位和256位3个版本的GPU并行算法,并提出优化的AES并行算法。在考虑块内线程数量、共享存储器容量和总块数的基础上,根据... 为提升高级加密标准(AES)的加密性能,利用显卡的通用计算能力,在统一计算设备架构(CUDA)平台上实现AES的128位、192位和256位3个版本的GPU并行算法,并提出优化的AES并行算法。在考虑块内线程数量、共享存储器容量和总块数的基础上,根据分块最优值的经验数据指导AES算法在GPU上的最优分块。实验结果表明,与未优化的AES并行算法相比,该算法的3个版本在Nvidia Geforce G210显卡上的加密速度分别提高5.28%,14.55%和12.53%,而在Nvidia Geforce GTX460显卡上的加密速度分别提高12.48%,15.40%和15.84%,且能更好地对SSL数据进行加密。 展开更多
关键词 分块 经验数据 并行算法 优化 高级加密标准 统一计算设备架构
在线阅读 下载PDF
基于CUDA的并行多尺度Retinex视频增强算法 被引量:3
4
作者 杨军 曹静 +1 位作者 张正孝 王正宁 《计算机工程与科学》 CSCD 北大核心 2012年第4期37-42,共6页
多尺度Retinex图像增强算法增强效果明显,被广泛应用于图像和视频的增强处理中,但复杂的计算量限制了其在实时性应用中的推广,对于高清及多路视频的处理更是如此,因此研究其高速并行算法具有重要意义。本文以通用型GPU为基础,提出了一... 多尺度Retinex图像增强算法增强效果明显,被广泛应用于图像和视频的增强处理中,但复杂的计算量限制了其在实时性应用中的推广,对于高清及多路视频的处理更是如此,因此研究其高速并行算法具有重要意义。本文以通用型GPU为基础,提出了一种基于CUDA的多尺度Retinex实时视频增强并行算法。根据算法各模块的耦合性将计算复杂的高斯滤波、对数空间差分及动态范围压缩等模块采用CUDA并行处理的方式实现,并利用视频序列之间的相似性降低多尺度Retinex算法的参数更新频率,以节省大量的计算耗时。实验结果表明所提算法能显著提高计算速度。 展开更多
关键词 视频增强 多尺度ReTINeX cuda
在线阅读 下载PDF
基于GPGPU和CUDA的高速AES算法的实现和优化 被引量:3
5
作者 顾青 高能 +1 位作者 包珍珍 向继 《中国科学院研究生院学报》 CAS CSCD 北大核心 2011年第6期776-785,共10页
随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(comput... 随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(compute unified devicearchitecture,统一计算架构)的出现更加速了GPGPU应用面的扩张.基于GPGPU和CUDA技术对AES算法的实现进行加速,得到整体吞吐量6~7Gbit/s的速度.如果不考虑数据加载时间,对于1MB以上的输入规模,吞吐量可以达到20Gbit/s. 展开更多
关键词 通用图像处理器 统一计算架构 AeS算法 并行计算
在线阅读 下载PDF
基于CUDA的超声二维声场EFIT仿真 被引量:2
6
作者 宋波 李威 廉国选 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2019年第7期1322-1328,共7页
随着图形处理器(GPU)的快速发展,基于计算设备统一构架(CUDA)可以方便地将并行计算技术应用于超声声场数值仿真计算,极大地提升计算效率。阐述了弹性动力学有限积分算法(EFIT)的原理,在采用CPU实现带吸收边界的钢材料二维点源激励声场... 随着图形处理器(GPU)的快速发展,基于计算设备统一构架(CUDA)可以方便地将并行计算技术应用于超声声场数值仿真计算,极大地提升计算效率。阐述了弹性动力学有限积分算法(EFIT)的原理,在采用CPU实现带吸收边界的钢材料二维点源激励声场仿真的基础上,基于GPU实现了仿真模型的并行计算,介绍了GPU程序的设计流程和参数优化方法,包括纹理内存使用、吸收边界优化和数据传输优化。对比了相同条件下CPU和GPU仿真计算的耗时和平均计算效率,定量分析了GPU对于EFIT模型效率的提升。比对结果表明,EFIT具有良好的并行计算条件,采用并行计算方法能够有效提升模型计算速度,对于复杂声场仿真应用具有广阔的应用前景。 展开更多
关键词 并行计算 弹性动力学有限积分算法(eFIT) 二维声场 图形处理器(GPU) 计算设备统一构架(cuda)
在线阅读 下载PDF
基于CUDA与CUBLAS的Tucker分解模块设计与实现 被引量:10
7
作者 周琦 柴小丽 +1 位作者 马克杰 俞则人 《计算机工程》 CAS CSCD 北大核心 2019年第3期41-46,共6页
由于张量Tucker分解在图像处理、人脸识别与信号处理等领域中的大量应用,使得Tucker分解算法成为目前重点研究对象。但是当前流行的Tucker分解算法需要对张量进行多次展开,导致算法加速效率降低。针对上述问题,提出一种应用于统一计算... 由于张量Tucker分解在图像处理、人脸识别与信号处理等领域中的大量应用,使得Tucker分解算法成为目前重点研究对象。但是当前流行的Tucker分解算法需要对张量进行多次展开,导致算法加速效率降低。针对上述问题,提出一种应用于统一计算设备架构(CUDA)平台上的改进Tucker分解模块,通过对Tucker分解算法与CUDA平台进行优化,在省略张量展开过程的同时,提高加速效率,从而降低对加速系统的要求。实验结果表明,改进Tucker分解算法在CUDA平台上的加速性能具有明显提高。 展开更多
关键词 Tucker分解算法 张量分解 统一计算设备架构 图形处理单元 张量范数
在线阅读 下载PDF
Lattice-Boltzmann方腔模型的CUDA加速实现 被引量:3
8
作者 郑彦奎 刘沙 +1 位作者 熊生伟 周季夫 《科学技术与工程》 2010年第7期1684-1688,共5页
对Lattice Boltzmann方法(LBM)在CUDA下的建模和算法进行了研究,使得该方法在GPU下的计算速度得到提升,大大缩短了计算过程的时间消耗。利用非平衡外推边界条件处理,以LBM方法模拟了D2Q9模型的方腔顶盖驱动流动,采用全局内存和纹理内存... 对Lattice Boltzmann方法(LBM)在CUDA下的建模和算法进行了研究,使得该方法在GPU下的计算速度得到提升,大大缩短了计算过程的时间消耗。利用非平衡外推边界条件处理,以LBM方法模拟了D2Q9模型的方腔顶盖驱动流动,采用全局内存和纹理内存存储数据,将模型中9个分布函数存储为二维网格,每个网格分配一个线程,每个线程块包括256个线程,多条线程并行计算。在普通个人计算机上,采用NVIDIA GeForce 9600 GT显卡和CUDA,实现了LBM模拟方腔流动,将计算速度提高到CPU的50倍。 展开更多
关键词 计算统一设备架构(compute unified device Architoctune cuda) GPU Lattice BOLTZMANN方法 非平衡外推 边界处理 纹理内存 多线程 并行计算
在线阅读 下载PDF
基于CUDA的蛋白质翻译后修饰鉴定MS-Alignment算法加速研究 被引量:1
9
作者 翟艳堂 涂强 +2 位作者 郎显宇 陆忠华 迟学斌 《计算机应用研究》 CSCD 北大核心 2010年第9期3409-3414,共6页
对MS-Alignment算法进行分析得出该算法很难满足大规模数据对鉴定速度的要求,而且具有的一个特点是相同的任务在不同的数据上重复计算,为数据划分提供了基础。基于CUDA编程模型使用图形处理器(GPU)对步骤数据库检索及候选肽段生成进... 对MS-Alignment算法进行分析得出该算法很难满足大规模数据对鉴定速度的要求,而且具有的一个特点是相同的任务在不同的数据上重复计算,为数据划分提供了基础。基于CUDA编程模型使用图形处理器(GPU)对步骤数据库检索及候选肽段生成进行加速优化,设计了该步骤在单GPU上的实现方法。测试结果表明,此方法平均加速比为30倍以上,效果良好,可以满足蛋白质翻译后修饰鉴定中大规模数据快速计算的需求。 展开更多
关键词 蛋白质翻译后修饰鉴定 MS-Alignment 图形处理器 统一计算设备架构
在线阅读 下载PDF
Legendre序列快速生成的CUDA实现 被引量:1
10
作者 赵家威 房九龄 苏明 《计算机工程与应用》 CSCD 2014年第8期66-71,153,共7页
序列设计在信息安全,无线通信等诸多领域中有着重要应用。在流密码系统中,要求产生的随机序列具有理想的随机复杂度度量如线性复杂度,k阶相关复杂度等。其中Legendre序列具有这些理想的随机性质。实用中序列的生成速度也是很重要的考虑... 序列设计在信息安全,无线通信等诸多领域中有着重要应用。在流密码系统中,要求产生的随机序列具有理想的随机复杂度度量如线性复杂度,k阶相关复杂度等。其中Legendre序列具有这些理想的随机性质。实用中序列的生成速度也是很重要的考虑因素。探讨了大素数周期的Legendre序列生成的相关算法,并运用统一计算设备架构平台(CUDA)对其进行优化以加快序列的生成速度。实验结果表明,运用CUDA进行序列的并行生成,序列的生成速度有数量级的提高。 展开更多
关键词 流密码 Legendre序列 统一计算设备架构(cuda) 并行计算 复杂度度量
在线阅读 下载PDF
Hybrid domain multipactor prediction algorithm and its CUDA parallel implementation 被引量:1
11
作者 WU Peiyu XIE Yongjun +1 位作者 NIU Liqiang JIANG Haolin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2020年第6期1097-1104,共8页
Based on the finite element method(FEM)in the frequency domain and particle-in-cell approach in the time domain,a hybrid domain multipactor threshold prediction algorithm is proposed in this paper.The proposed algorit... Based on the finite element method(FEM)in the frequency domain and particle-in-cell approach in the time domain,a hybrid domain multipactor threshold prediction algorithm is proposed in this paper.The proposed algorithm has the advantages of the frequency domain and the time domain algorithms at the same time in terms of high computational accuracy and considerable computational efficiency.In addition,the compute unified device architecture(CUDA)acceleration technique also can be employed to further enhance its simulation efficiency.Numerical examples are carried out to demonstrate the effectiveness of the proposed algorithm.The results indicate that the multipactor threshold can be accurately predicted and the computational efficiency can be improved. 展开更多
关键词 compute unified device architecture(cuda) finite element method(FeM) hybrid domain multipactor threshold prediction particle-in-cell(PIC)
在线阅读 下载PDF
基于CUDA的高分辨率数字视频图像配准快速实现 被引量:27
12
作者 闫钧华 杭谊青 +1 位作者 许俊峰 储林臻 《仪器仪表学报》 EI CAS CSCD 北大核心 2014年第2期380-386,共7页
高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然... 高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然后基于CUDA并行快速实现高分辨率数字视频图像配准。实验结果表明:基于SIFT图像配准算法在CPU与CUDA上实现,在配准效果相近时,在CUDA上实现的处理速度比在CPU上实现的处理速度提高了100多倍,并且随着图像像素数的增加加速比有显著提高。 展开更多
关键词 图像配准 高分辨率 数字视频 cuda
在线阅读 下载PDF
基于CUDA的高速FFT计算 被引量:22
13
作者 赵丽丽 张盛兵 +1 位作者 张萌 姚涛 《计算机应用研究》 CSCD 北大核心 2011年第4期1556-1559,共4页
针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明... 针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明了该算法的高效性,且优化后的FFT加速比能达到CUFFT库加速比的2~6倍。 展开更多
关键词 图形处理器 统一计算架构 映射策略 存储层次
在线阅读 下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:18
14
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(GPU) 通用并行计算架构(cuda)
在线阅读 下载PDF
CUDA架构下的液晶自适应波面数值解析 被引量:11
15
作者 李大禹 胡立发 +5 位作者 穆全全 曹召良 夏明亮 李抄 刘肇楠 宣丽 《光学精密工程》 EI CAS CSCD 北大核心 2010年第4期848-854,共7页
在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型... 在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型中引入了并行线程的有效利用,全局存储器的高效访问和数据直接回写3种优化方案;最后,给出了GPU与CPU的实验对比结果。结果表明:CUDA计算分辨率为512×512,对35项Zernike多项式的波面数值解析需时不到1ms,计算速度是传统CPU波面数值解析的几十倍。提出的方法减小了系统延时,提高了校正速度,建立波面数值解析CUDA编程模型采用的优化手段可为其它数学计算模型提供参考。 展开更多
关键词 图形处理器(GPU) cuda 液晶 自适应光学 波面解析
在线阅读 下载PDF
基于CUDA的Kirchhoff叠前时间偏移算法设计与实现 被引量:14
16
作者 李肯立 彭俊杰 周仕勇 《计算机应用研究》 CSCD 北大核心 2009年第12期4474-4477,共4页
Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CU-DA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于C... Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CU-DA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于CUDA的纵波波动方程算法和GPU与CPU间的通信算法三个子算法。所有算法在NVIDIAGeForce8800 GT系统上编译实现,通过对比相同数据在Intel Core2Due CPU2.0 GHz的地震偏移,综合分析和实验结果表明,基于CUDA的Kirchhoff叠前时间偏移算法的计算速度最高可得到较传统CPU算法6倍的加速比,从而为快速处理地震偏移提供良好的支持。 展开更多
关键词 统一计算设备架构 图形处理器 地震偏移 地震数据处理
在线阅读 下载PDF
基于CUDA的加速MATLAB计算研究 被引量:9
17
作者 刘绍波 刘明贵 张国华 《计算机应用研究》 CSCD 北大核心 2010年第6期2140-2143,共4页
介绍了NVIDIA公司新的编程框架CUDA的特点以及CUDA加速MATLAB的方法,测试了CUDA加速岩土工程中常用的算法如矩阵计算、快速傅里叶变换、支持向量机。随后分析了数据规模、算法复杂性与加速效果的关系,指出了基于CUDA的MATLAB加速计算的... 介绍了NVIDIA公司新的编程框架CUDA的特点以及CUDA加速MATLAB的方法,测试了CUDA加速岩土工程中常用的算法如矩阵计算、快速傅里叶变换、支持向量机。随后分析了数据规模、算法复杂性与加速效果的关系,指出了基于CUDA的MATLAB加速计算的应用前景。测试结果表明,CUDA方式相对传统计算方式的最好加速效果分别达到了22.39倍、46.88倍、51.32倍,证明了CUDA加速计算的有效性。 展开更多
关键词 统一计算设备架构 MATLAB 加速计算
在线阅读 下载PDF
基于MPI+CUDA的异构并行可压缩流求解器 被引量:7
18
作者 刘枫 李桦 +1 位作者 田正雨 潘沙 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第1期6-10,共5页
在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数... 在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数个算例,对比了异构并行计算和传统CPU并行计算计算结果和计算效率。将该算法运用于高超声速流动的数值模拟中,数值结果显示,基于MPI+CUDA的异构并行可压缩流求解器鲁棒性好,计算效率较CPU同构并行计算提高10倍以上。 展开更多
关键词 消息传递接口 统一计算设备架构 异构计算 可压缩流
在线阅读 下载PDF
基于CUDA的尺度不变特征变换快速算法 被引量:14
19
作者 田文 徐帆 +1 位作者 王宏远 周波 《计算机工程》 CAS CSCD 北大核心 2010年第8期219-221,共3页
针对尺度不变特征变换(SIFT)算法耗时多限制其应用范围的缺点,提出一种基于统一计算设备架构(CUDA)的尺度不变特征变换快速算法,分析其并行特性,在图像处理单元(GPU)的线程和内存模型方面对算法进行优化。实验证明,相对于CPU,算法速度... 针对尺度不变特征变换(SIFT)算法耗时多限制其应用范围的缺点,提出一种基于统一计算设备架构(CUDA)的尺度不变特征变换快速算法,分析其并行特性,在图像处理单元(GPU)的线程和内存模型方面对算法进行优化。实验证明,相对于CPU,算法速度提升了30~50倍,对640×480图像的处理速度达到每秒24帧,满足实时应用的需求。 展开更多
关键词 尺度不变特征变换 特征提取与匹配 图像处理单元 统一计算设备架构
在线阅读 下载PDF
基于CUDA的点云去噪算法 被引量:9
20
作者 徐波 唐杰 武港山 《计算机工程》 CAS CSCD 北大核心 2011年第2期224-226,共3页
提出一种基于统一计算设备架构(CUDA)的双边滤波点云去噪算法,将点云去噪划分为多个并行度较高的步骤,利用GPU的并行计算能力,设计每个步骤的CUDA核函数。采用高斯加权的法矢计算方法,在双边去噪算法中加入面积权重缓解过光顺。实验结... 提出一种基于统一计算设备架构(CUDA)的双边滤波点云去噪算法,将点云去噪划分为多个并行度较高的步骤,利用GPU的并行计算能力,设计每个步骤的CUDA核函数。采用高斯加权的法矢计算方法,在双边去噪算法中加入面积权重缓解过光顺。实验结果表明,该算法能有效提高法矢计算的准确度,与CPU算法相比,计算速度提高了多个数量级。 展开更多
关键词 统一计算设备架构 GPU并行计算 点云去噪 双边滤波
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部