期刊文献+
共找到255篇文章
< 1 2 13 >
每页显示 20 50 100
基于CUDA加速动态规划优化全景拼接的刮板输送机直线状态监测 被引量:2
1
作者 李博 侍守伊 +4 位作者 张建军 夏蕊 王学文 崔卫秀 倪强 《工矿自动化》 北大核心 2025年第1期45-51,60,共8页
为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视... 为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视频流进行暗通道清晰化处理,以消除井下煤尘、水雾等的干扰。其次,使用ORB算法检测和计算2路视频帧的特征点和描述子,通过K最近邻(KNN)匹配计算特征点间的匹配对,利用设置阈值比例的方法过滤错误的匹配点,使用随机抽样一致(RANSAC)算法计算出用于图像透视变换的单应性矩阵。然后,基于CUDA将读取Sobel算子、计算梯度、计算总能量差异、循环初始化权重与路径、寻找最佳接缝线分配到不同的线程中,并定义计算能量图和寻找最佳接缝线的核函数,完成2路图像沿接缝线融合的全景拼接。最后,使用霍夫变换方法对全景拼接的刮板输送机图像中部槽挡煤板进行直线拟合,并将拟合的直线绘制在全景拼接图像上,以反映刮板输送机的直线状态。实验及测试结果表明,CUDA加速动态规划优化全景拼接痕迹不明显,且处理速度快;通过霍夫变换对中部槽挡煤板拟合的直线与刮板输送机直线具有较好的一致性,可用于刮板输送机直线状态监测。 展开更多
关键词 刮板输送机直线状态监测 cuda加速 动态规划 全景拼接 霍夫变换 统一计算设备架构
在线阅读 下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:18
2
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(gpu) 通用并行计算架构(cuda)
在线阅读 下载PDF
基于CUDA的多GPU加速SART迭代重建算法 被引量:7
3
作者 雷德川 陈浩 +3 位作者 王远 张成鑫 陈云斌 胡栋材 《强激光与粒子束》 EI CAS CSCD 北大核心 2013年第9期2418-2422,共5页
为解决SART迭代重建算法计算耗时的问题,在单GPU基础上,利用多块GPU的并行计算能力,提出了一种多GPU加速迭代重建算法。实验结果表明,与CPU重建相比,在不影响重建图像质量的情况下,采用GPU重建速度有明显提高,且增加GPU数量可以进一步... 为解决SART迭代重建算法计算耗时的问题,在单GPU基础上,利用多块GPU的并行计算能力,提出了一种多GPU加速迭代重建算法。实验结果表明,与CPU重建相比,在不影响重建图像质量的情况下,采用GPU重建速度有明显提高,且增加GPU数量可以进一步提高重建速度。 展开更多
关键词 计算机断层成像 统一计算机架构 SART gpu
在线阅读 下载PDF
基于GPGPU和CUDA的高速AES算法的实现和优化 被引量:3
4
作者 顾青 高能 +1 位作者 包珍珍 向继 《中国科学院研究生院学报》 CAS CSCD 北大核心 2011年第6期776-785,共10页
随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(comput... 随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(compute unified devicearchitecture,统一计算架构)的出现更加速了GPGPU应用面的扩张.基于GPGPU和CUDA技术对AES算法的实现进行加速,得到整体吞吐量6~7Gbit/s的速度.如果不考虑数据加载时间,对于1MB以上的输入规模,吞吐量可以达到20Gbit/s. 展开更多
关键词 通用图像处理器 统一计算架构 AES算法 并行计算
在线阅读 下载PDF
基于CUDA的热传导GPU并行算法研究 被引量:3
5
作者 孟小华 黄丛珊 朱丽莎 《计算机工程》 CAS CSCD 2014年第5期41-44,48,共5页
在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式... 在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。 展开更多
关键词 热传导算法 图形处理单元 统一计算设备架构 并行计算 时间效率 加速比
在线阅读 下载PDF
CUDA-TP:基于GPU的自顶向下完整蛋白质鉴定并行算法 被引量:1
6
作者 段琼 田博 +2 位作者 陈征 王洁 何增有 《计算机研究与发展》 EI CSCD 北大核心 2018年第7期1525-1538,共14页
蛋白质及蛋白质翻译后修饰(post-translational modifications,PTMs)的鉴定是蛋白质组学研究的基础,对整个领域的进一步发展有着十分重要的意义.近年来,质谱设备的快速发展使得获取"自顶向下"(top-down,TD)的高精度完整蛋白... 蛋白质及蛋白质翻译后修饰(post-translational modifications,PTMs)的鉴定是蛋白质组学研究的基础,对整个领域的进一步发展有着十分重要的意义.近年来,质谱设备的快速发展使得获取"自顶向下"(top-down,TD)的高精度完整蛋白质质谱数据成为可能.目前基于TD质谱数据的完整蛋白质鉴定算法虽然在匹配精度、PTM位点的推断上取得了一些成效,但它们运行时间还有很大的不足和提升空间.利用图形处理器(graphics processing unit,GPU)可以将大规模的重复计算并行化,提高串行程序的执行速度.CUDA-TP算法基于通用并行计算架构(compute unified device architecture,CUDA)来计算蛋白质与TD质谱数据的匹配分数.首先,对每一个质谱数据,CUDA-TP利用优化的MS-Filter算法在蛋白质数据库中过滤出其对应的少数候选蛋白质集合,然后通过AVL(adelson-velskii and landis)树加速质谱匹配过程.GPU中的多线程技术被用来并行化谱图网格及最终数组中所有元素的前驱结点的求解.同时,该算法还使用target-decoy策略来控制蛋白质与质谱图匹配结果的错误发现率(false discovery rate,FDR).实验结果表明:CUDA-TP算法能够有效地加速完整蛋白质的鉴定,速度分别比MS-TopDown和MS-Align+快10倍与2倍.到目前为止,这是唯一能够利用CUDA架构来加速完整蛋白质鉴定的研究工作.CUDA-TP源代码公布在https://github.com/dqiong/CUDA-TP. 展开更多
关键词 “自顶向下”蛋白质组学 蛋白质鉴定 图形处理器 通用并行计算架构 谱图比对
在线阅读 下载PDF
面向GPU的地形遮蔽探测并行算法
7
作者 孙卡 俞俗强 《计算机工程与应用》 CSCD 北大核心 2024年第15期66-76,共11页
地形遮蔽算法在军事、民航和气象分析等领域有广泛应用。随着仿真规模的扩大、仿真结果实时性要求越来越高,传统计算模型俨然不能满足当下的实时性要求。为解决这一不足,实现了在统一计算设备架构(CUDA)并行计算平台上的地形遮蔽探测算... 地形遮蔽算法在军事、民航和气象分析等领域有广泛应用。随着仿真规模的扩大、仿真结果实时性要求越来越高,传统计算模型俨然不能满足当下的实时性要求。为解决这一不足,实现了在统一计算设备架构(CUDA)并行计算平台上的地形遮蔽探测算法,解决了仿真计算速度慢的问题。在CPU端将雷达探测区域内离散采样点的高程数据矩阵化,进而提升高程值在并行化计算中的读取速度。针对雷达仿真计算参数对线程分配方式进行优化,采用循环对比方式对地形遮蔽角的计算进行并行加速。采用设备端线程同步和数据交替传输技术,确保计算结果一致性和最大化利用GPU端计算资源。采用多模式并行化计算模式,使用多线程并行化计算和单线程串行化计算来支撑GPU端计算资源不足时的退化计算,从而保证计算的高可用。实验结果表明,相较于i7-12700H CPU在仿真粒度为3 600条探测波束下的地形遮蔽串行计算和多线程并行计算,在3060 Laptop GPU下分别获取了48倍和17倍加速,为仿真实时性提供了有效的工程解决方案。 展开更多
关键词 并行计算 统一计算设备架构(cuda) 高程矩阵 地球曲率 地形遮蔽算法
在线阅读 下载PDF
基于GPU的北斗B1宽带复合信号实时发生器设计 被引量:2
8
作者 王子涵 巴晓辉 +3 位作者 姜维 蔡伯根 王剑 文韬 《系统工程与电子技术》 EI CSCD 北大核心 2024年第3期795-804,共10页
为了实现北斗B1C+B1I信号的联合生成,提出一种基于软件无线电和图形处理器(graphics processing unit,GPU)加速的北斗B1宽带复合信号的实时生成方法,该方法针对单边带复数二进制偏移载波(single-sideband complex binary offset carrier... 为了实现北斗B1C+B1I信号的联合生成,提出一种基于软件无线电和图形处理器(graphics processing unit,GPU)加速的北斗B1宽带复合信号的实时生成方法,该方法针对单边带复数二进制偏移载波(single-sideband complex binary offset carrier,SCBOC)调制方式的信号体制进行设计,系统根据用户配置的接收机运动轨迹和星历文件,生成中频信号并通过射频端发射。为了进一步提升GPU并行运算速度,从优化设备内存结构、设计并行线程架构和统一计算设备架构流(compute unified device architecture stream,CUDA)加速3个方面,设计了基于异步运算的加速采样点数据计算的CUDA优化实现方案。测试结果证明,优化后的算法可以基于SCBOC调制实时生成北斗B1I+B1C信号,基于GTX3060的GPU平台,信号90 M采样率下能实现8颗卫星复合信号的实时生成。 展开更多
关键词 B1宽带复合信号 软件无线电 单边带复数二进制偏移载波调制 统一计算设备架构流 实时生成
在线阅读 下载PDF
基于GPU的并行优化技术 被引量:23
9
作者 左颢睿 张启衡 +1 位作者 徐勇 赵汝进 《计算机应用研究》 CSCD 北大核心 2009年第11期4115-4118,共4页
针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法... 针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。 展开更多
关键词 图形处理器 并行优化 累加和 统一计算设备架构
在线阅读 下载PDF
CUDA架构下的液晶自适应波面数值解析 被引量:11
10
作者 李大禹 胡立发 +5 位作者 穆全全 曹召良 夏明亮 李抄 刘肇楠 宣丽 《光学精密工程》 EI CAS CSCD 北大核心 2010年第4期848-854,共7页
在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型... 在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型中引入了并行线程的有效利用,全局存储器的高效访问和数据直接回写3种优化方案;最后,给出了GPU与CPU的实验对比结果。结果表明:CUDA计算分辨率为512×512,对35项Zernike多项式的波面数值解析需时不到1ms,计算速度是传统CPU波面数值解析的几十倍。提出的方法减小了系统延时,提高了校正速度,建立波面数值解析CUDA编程模型采用的优化手段可为其它数学计算模型提供参考。 展开更多
关键词 图形处理器(gpu) cuda 液晶 自适应光学 波面解析
在线阅读 下载PDF
基于CUDA的高速FFT计算 被引量:22
11
作者 赵丽丽 张盛兵 +1 位作者 张萌 姚涛 《计算机应用研究》 CSCD 北大核心 2011年第4期1556-1559,共4页
针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明... 针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明了该算法的高效性,且优化后的FFT加速比能达到CUFFT库加速比的2~6倍。 展开更多
关键词 图形处理器 统一计算架构 映射策略 存储层次
在线阅读 下载PDF
基于CUDA的高分辨率数字视频图像配准快速实现 被引量:27
12
作者 闫钧华 杭谊青 +1 位作者 许俊峰 储林臻 《仪器仪表学报》 EI CAS CSCD 北大核心 2014年第2期380-386,共7页
高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然... 高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然后基于CUDA并行快速实现高分辨率数字视频图像配准。实验结果表明:基于SIFT图像配准算法在CPU与CUDA上实现,在配准效果相近时,在CUDA上实现的处理速度比在CPU上实现的处理速度提高了100多倍,并且随着图像像素数的增加加速比有显著提高。 展开更多
关键词 图像配准 高分辨率 数字视频 cuda
在线阅读 下载PDF
基于CUDA的Kirchhoff叠前时间偏移算法设计与实现 被引量:14
13
作者 李肯立 彭俊杰 周仕勇 《计算机应用研究》 CSCD 北大核心 2009年第12期4474-4477,共4页
Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CU-DA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于C... Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CU-DA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于CUDA的纵波波动方程算法和GPU与CPU间的通信算法三个子算法。所有算法在NVIDIAGeForce8800 GT系统上编译实现,通过对比相同数据在Intel Core2Due CPU2.0 GHz的地震偏移,综合分析和实验结果表明,基于CUDA的Kirchhoff叠前时间偏移算法的计算速度最高可得到较传统CPU算法6倍的加速比,从而为快速处理地震偏移提供良好的支持。 展开更多
关键词 统一计算设备架构 图形处理器 地震偏移 地震数据处理
在线阅读 下载PDF
基于CUDA的尺度不变特征变换快速算法 被引量:14
14
作者 田文 徐帆 +1 位作者 王宏远 周波 《计算机工程》 CAS CSCD 北大核心 2010年第8期219-221,共3页
针对尺度不变特征变换(SIFT)算法耗时多限制其应用范围的缺点,提出一种基于统一计算设备架构(CUDA)的尺度不变特征变换快速算法,分析其并行特性,在图像处理单元(GPU)的线程和内存模型方面对算法进行优化。实验证明,相对于CPU,算法速度... 针对尺度不变特征变换(SIFT)算法耗时多限制其应用范围的缺点,提出一种基于统一计算设备架构(CUDA)的尺度不变特征变换快速算法,分析其并行特性,在图像处理单元(GPU)的线程和内存模型方面对算法进行优化。实验证明,相对于CPU,算法速度提升了30~50倍,对640×480图像的处理速度达到每秒24帧,满足实时应用的需求。 展开更多
关键词 尺度不变特征变换 特征提取与匹配 图像处理单元 统一计算设备架构
在线阅读 下载PDF
基于GPU的视频流人群实时计数 被引量:10
15
作者 姬丽娜 陈庆奎 +3 位作者 陈圆金 赵德玉 方玉玲 赵永涛 《计算机应用》 CSCD 北大核心 2017年第1期145-152,共8页
为了解决人群遮挡严重、光照突变等恶劣环境下人群计数准确率低的问题,提出基于混合高斯模型(GMM)和尺度不变特征变换(SIFT)特征的人群数量统计分析新方法。首先,基于GMM提取运动人群,并采用灰度共生矩阵(GLCM)和形态学方法去除背景中... 为了解决人群遮挡严重、光照突变等恶劣环境下人群计数准确率低的问题,提出基于混合高斯模型(GMM)和尺度不变特征变换(SIFT)特征的人群数量统计分析新方法。首先,基于GMM提取运动人群,并采用灰度共生矩阵(GLCM)和形态学方法去除背景中移动的小物体和较密集的噪声等非人群前景,针对GMM算法提出了一种效率较高的并行模型;接着,检测运动人群的SIFT特征点作为人群统计的基础,基于二值图像的特征提取大大减少了执行时间;最后,提出基于人群特征数和人群数量进行统计分析的新方法,选择不同等级的人群数量的数据集分别进行训练,统计得出平均单个特征点数,并对不同密度的行人进行计数实验。算法采用基于GPU多流处理器进行加速,并针对所提算法在统一计算设备架构(CUDA)流上任务的有效调度的方法进行分析。实验结果显示,相比单流提速31.5%,相比CPU提速71.8%。 展开更多
关键词 视频监控 gpu并行计算 人群计数 尺度不变特征变换 混合高斯模型 统一计算设备架构
在线阅读 下载PDF
基于CUDA的汇流分析并行算法的研究与实现 被引量:6
16
作者 赵向辉 苗青 +2 位作者 付忠良 苏畅 李昕 《计算机应用研究》 CSCD 北大核心 2010年第7期2445-2447,2451,共4页
针对基于数字高程模型(DEM)生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构(CUDA)平台同时可发挥图形处理器(GPU)并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和... 针对基于数字高程模型(DEM)生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构(CUDA)平台同时可发挥图形处理器(GPU)并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法,对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并行算法能提高系统的计算效率,具有较好的效果。 展开更多
关键词 并行计算 图形处理器 统一设备计算架构 汇流分析 数字高程模型
在线阅读 下载PDF
基于CUDA的点云去噪算法 被引量:9
17
作者 徐波 唐杰 武港山 《计算机工程》 CAS CSCD 北大核心 2011年第2期224-226,共3页
提出一种基于统一计算设备架构(CUDA)的双边滤波点云去噪算法,将点云去噪划分为多个并行度较高的步骤,利用GPU的并行计算能力,设计每个步骤的CUDA核函数。采用高斯加权的法矢计算方法,在双边去噪算法中加入面积权重缓解过光顺。实验结... 提出一种基于统一计算设备架构(CUDA)的双边滤波点云去噪算法,将点云去噪划分为多个并行度较高的步骤,利用GPU的并行计算能力,设计每个步骤的CUDA核函数。采用高斯加权的法矢计算方法,在双边去噪算法中加入面积权重缓解过光顺。实验结果表明,该算法能有效提高法矢计算的准确度,与CPU算法相比,计算速度提高了多个数量级。 展开更多
关键词 统一计算设备架构 gpu并行计算 点云去噪 双边滤波
在线阅读 下载PDF
CUDA架构下的快速图像去噪 被引量:12
18
作者 李军 李艳辉 陈双平 《计算机工程与应用》 CSCD 北大核心 2009年第11期183-185,222,共4页
图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器... 图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器进行通用计算。提出了基于统一计算设备架构的快速图像去噪算法,可以利用GPU的计算能力,加快去噪过程,显著地减少计算时间。 展开更多
关键词 图形处理器 图像去噪 统一计算设备架构 并行数据处理
在线阅读 下载PDF
LU分解和Laplace算法在GPU上的实现 被引量:9
19
作者 陈颖 林锦贤 吕暾 《计算机应用》 CSCD 北大核心 2011年第3期851-855,共5页
随着图形处理器(GPU)性能的大幅度提升以及可编程性的发展,已经有许多算法成功地移植到GPU上。LU分解和Laplace算法是科学计算的核心,但计算量往往很大,由此提出了一种在GPU上加速计算的方法。使用Nvidia公司的统一计算设备架构(CUDA)... 随着图形处理器(GPU)性能的大幅度提升以及可编程性的发展,已经有许多算法成功地移植到GPU上。LU分解和Laplace算法是科学计算的核心,但计算量往往很大,由此提出了一种在GPU上加速计算的方法。使用Nvidia公司的统一计算设备架构(CUDA)编程模型实现这两个算法,通过对CPU与GPU进行任务划分,同时利用GPU上的共享存储器提高数据访问速度,对GPU程序进行分支消除,并且对矩阵分段计算以达到加速计算的目的。实验结果表明,随着矩阵规模的增大,基于GPU的算法相对于基于CPU的算法具有良好的加速效果。 展开更多
关键词 图形处理器 LU分解 Laplace算法 统一计算设备架构 共享存储器
在线阅读 下载PDF
基于CUDA的多尺度Retinex图像增强算法实现 被引量:8
20
作者 王正宁 刘昌忠 +2 位作者 陈雷霆 吴宏刚 吴敏 《计算机应用》 CSCD 北大核心 2010年第9期2441-2443,共3页
多尺度Retinex图像增强是一种基于色彩恒定理论的图像增强算法,算法增强效果好,但随着图像分辨率的提高计算时间显著增加。分析并利用计算统一设备架构(CUDA)图形处理器(GPU)的并行处理特性,提出了一种基于CUDA的多尺度Retinex图像增强... 多尺度Retinex图像增强是一种基于色彩恒定理论的图像增强算法,算法增强效果好,但随着图像分辨率的提高计算时间显著增加。分析并利用计算统一设备架构(CUDA)图形处理器(GPU)的并行处理特性,提出了一种基于CUDA的多尺度Retinex图像增强并行算法,将多尺度高斯滤波、对数空间差分和动态范围压缩等计算非常耗时的模块采用并行方式放在GPU中进行计算。实验结果表明所提算法能显著提高计算速度,随着图像分辨率的增加,最大加速比超过100倍。 展开更多
关键词 图像增强 多尺度RETINEX 计算统一设备架构
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部