期刊文献+
共找到598篇文章
< 1 2 30 >
每页显示 20 50 100
基于CUDA加速动态规划优化全景拼接的刮板输送机直线状态监测 被引量:2
1
作者 李博 侍守伊 +4 位作者 张建军 夏蕊 王学文 崔卫秀 倪强 《工矿自动化》 北大核心 2025年第1期45-51,60,共8页
为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视... 为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视频流进行暗通道清晰化处理,以消除井下煤尘、水雾等的干扰。其次,使用ORB算法检测和计算2路视频帧的特征点和描述子,通过K最近邻(KNN)匹配计算特征点间的匹配对,利用设置阈值比例的方法过滤错误的匹配点,使用随机抽样一致(RANSAC)算法计算出用于图像透视变换的单应性矩阵。然后,基于CUDA将读取Sobel算子、计算梯度、计算总能量差异、循环初始化权重与路径、寻找最佳接缝线分配到不同的线程中,并定义计算能量图和寻找最佳接缝线的核函数,完成2路图像沿接缝线融合的全景拼接。最后,使用霍夫变换方法对全景拼接的刮板输送机图像中部槽挡煤板进行直线拟合,并将拟合的直线绘制在全景拼接图像上,以反映刮板输送机的直线状态。实验及测试结果表明,CUDA加速动态规划优化全景拼接痕迹不明显,且处理速度快;通过霍夫变换对中部槽挡煤板拟合的直线与刮板输送机直线具有较好的一致性,可用于刮板输送机直线状态监测。 展开更多
关键词 刮板输送机直线状态监测 cuda加速 动态规划 全景拼接 霍夫变换 统一计算设备架构
在线阅读 下载PDF
基于CUDA并行的线性复杂度快速检测方法
2
作者 付一方 范丽敏 +1 位作者 陈华 陈东昱 《密码学报(中英文)》 北大核心 2025年第4期752-765,共14页
线性复杂度检测是一种重要的二元序列随机性检测方法,亦为判断随机数发生器输出质量的有效指标之一.该检测方法使用的Berlekamp-Massey算法计算复杂度较高,导致该检测相较于其他检测方法效率较低,特别是随着样本长度的增加,检测效率逐... 线性复杂度检测是一种重要的二元序列随机性检测方法,亦为判断随机数发生器输出质量的有效指标之一.该检测方法使用的Berlekamp-Massey算法计算复杂度较高,导致该检测相较于其他检测方法效率较低,特别是随着样本长度的增加,检测效率逐渐成为其适用性的瓶颈问题.本文着眼于解决二元序列线性复杂度测试的低效率问题,提出了一种基于GPU/NVIDIA CUDA技术的并行优化方法,实现了线性复杂度的快速检测.本文在改进的Berlekamp-Massey算法基础上,增加了快速移位方法,结合NVIDIA CUDA模型提出了针对二元序列线性复杂度的并行检测策略,通过对Berlekamp-Massey算法进行的并行化处理,在实现线程块间并行的同时也实现了多线程同步合作的深层并行Berlekamp-Massey算法.除此之外,通过调整线程配置参数以及引入CUDA协作组与warp shuffle机制对检测流程进行进一步优化.实验结果表明,本文提出的优化算法速度提升明显,相对于NIST-STS版本的线性复杂度检测,最高实现了约20000倍的加速;对比目前最快的线性复杂度并行检测方法,最高实现了约3–3.5倍的稳定加速. 展开更多
关键词 随机性检测 线性复杂度检测 BERLEKAMP-MASSEY算法 NVIDIA cuda GPU并行
在线阅读 下载PDF
基于CUDA和比特切片的SM4算法软件优化和实现
3
作者 吴江雨 何鹏 《计算机应用研究》 北大核心 2025年第9期2825-2833,共9页
SM4算法作为中国国家标准的对称加密算法,其加密效率是实现高质量、高效率数据保护的关键因素。目前SM4算法优化主要表现在比特切片和指令集优化等方面。比特切片和指令集优化分别存在着数据交互频繁以及高度依赖于底层硬件,不同架构的... SM4算法作为中国国家标准的对称加密算法,其加密效率是实现高质量、高效率数据保护的关键因素。目前SM4算法优化主要表现在比特切片和指令集优化等方面。比特切片和指令集优化分别存在着数据交互频繁以及高度依赖于底层硬件,不同架构的支持程度存在不同的问题。针对上述问题,提出了在数据处理上采用改进的比特切片优化数据编排的方法,从而提高数据传输效率,并且在CUDA编程模型的框架上,通过本地GPU实现SM4算法的高效通用并行加密。实验结果表明,在使用比特切片后,对小型数据也能够提高速度,处理明文大小为32 KB时加速比(Ep)能达到3.03。另外,与通用SM4算法相比,优化后的SM4算法加密速度可以达到14648 Mbit/s,加密每字节需要的时钟周期可以达到2.0 cycles/Byte,性能提升40%~215%。该方案在GPU的并行加速下能够大大提升当前SM4算法的加解密效率,在基于改进的比特切片优化下,也能提高小型数据的速度,并且安全性得到了良好的提升。 展开更多
关键词 SM4 cuda GPU加速 比特切片 性能优化
在线阅读 下载PDF
基于CUDA实现直接模拟蒙特卡罗方法的并行研究
4
作者 徐兴勤 梁立振 +5 位作者 徐伟 吴浩 邹尚轩 刘婷 刘洋 李浩 《核电子学与探测技术》 北大核心 2025年第9期1374-1380,共7页
基于负离子源的中性束注入是未来核聚变点火的重要加热技术,负氢离子束流大小是其重要指标之一,金属铯注入可以有效提高离子源中负氢离子的产额,因此铯在离子源内部的分布对提升束功率具有重要作用。本文借助直接模拟蒙特卡罗(DSMC)方... 基于负离子源的中性束注入是未来核聚变点火的重要加热技术,负氢离子束流大小是其重要指标之一,金属铯注入可以有效提高离子源中负氢离子的产额,因此铯在离子源内部的分布对提升束功率具有重要作用。本文借助直接模拟蒙特卡罗(DSMC)方法对注铯喷嘴进行模拟计算,研究铯注入量和喷发曲线对离子源内铯分布的影响。针对DSMC方法在中央处理器(CPU)串行计算中效率低的问题,本文基于CUDA架构实现分子运动、网格索引、碰撞计算与统计采样的全GPU并行化。本文通过对比串行和并行计算结果,验证并行程序的正确性,在不同算例均保持良好计算精度的前提下,并行加速比可达到11.6倍,具体并行效率取决于计算规模,最后成功利用这个并行程序实现注铯喷嘴处铯通量分布的数值模拟。 展开更多
关键词 直接模拟蒙特卡罗(DSMC) cuda GPU 并行计算
在线阅读 下载PDF
基于CUDA的高分辨率气象格点数据可视化系统
5
作者 宋海军 康贤彪 赵国庆 《计算机应用与软件》 北大核心 2025年第10期383-387,共5页
针对全球高分辨率气象格点数据网络传输规模大、前端实时渲染可视化卡顿严重等问题,设计一种基于CUDA的气象格点数据可视化系统。系统基于uni-app框架,通过集成数据切片、CUDA数据并行处理、数据压缩、前后端多线程数据传输、前端颜色... 针对全球高分辨率气象格点数据网络传输规模大、前端实时渲染可视化卡顿严重等问题,设计一种基于CUDA的气象格点数据可视化系统。系统基于uni-app框架,通过集成数据切片、CUDA数据并行处理、数据压缩、前后端多线程数据传输、前端颜色映射可视化等技术,能较好地实现高分辨率气象数据在前端的超快速可视化显示以及系统的跨平台一键移植和部署。 展开更多
关键词 格点数据 数据可视化 cuda HTML5
在线阅读 下载PDF
CUDA架构下的灰度图像匹配并行算法 被引量:15
6
作者 李建江 张磊 +2 位作者 李兴钢 陈翔 黄义双 《电子科技大学学报》 EI CAS CSCD 北大核心 2012年第1期110-113,共4页
提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图... 提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图像匹配并行算法快了40多倍,性能得到了显著提高,从而使灰度图像匹配应用于如交互式系统等实时应用成为可能。 展开更多
关键词 cuda GPU 灰度 图像匹配 并行
在线阅读 下载PDF
基于CUDA的并行K-means聚类图像分割算法优化 被引量:31
7
作者 霍迎秋 秦仁波 +2 位作者 邢彩燕 陈曦 方勇 《农业机械学报》 EI CAS CSCD 北大核心 2014年第11期47-53,74,共8页
为提高K-means聚类算法的运算速度,基于CUDA架构提出一种分块、并行的K-means算法,并采用'合并访问'、'多级规约求和'、'负载均衡'和'指令优化'等策略优化并行算法。实验结果表明,并行K-means算法的分... 为提高K-means聚类算法的运算速度,基于CUDA架构提出一种分块、并行的K-means算法,并采用'合并访问'、'多级规约求和'、'负载均衡'和'指令优化'等策略优化并行算法。实验结果表明,并行K-means算法的分割效果与串行K-means算法相同,但运行速度得到了极大的提高,加速比最高达到560,很好地解决了农业工程实际中由于分割算法带来的瓶颈问题,能够极大地提高农业劳动生产率。 展开更多
关键词 图像分割 聚类分割算法 统一计算架构 图形处理器并行优化
在线阅读 下载PDF
基于CUDA的高速并行小波算法及其在电力系统谐波分析中的应用 被引量:19
8
作者 韩志伟 刘志刚 +1 位作者 鲁晓帆 周登登 《电力自动化设备》 EI CSCD 北大核心 2010年第1期98-101,105,共5页
针对小波分解计算速度慢、实际工程应用少的问题,采用图形处理器(GPU)作为计算平台,提出一种基于计算统一设备架构(CUDA)的细粒度高速并行小波分解算法。通过分析小波Mallat算法的并行性,并考虑GPU单个处理单元计算能力相对较弱的特点及... 针对小波分解计算速度慢、实际工程应用少的问题,采用图形处理器(GPU)作为计算平台,提出一种基于计算统一设备架构(CUDA)的细粒度高速并行小波分解算法。通过分析小波Mallat算法的并行性,并考虑GPU单个处理单元计算能力相对较弱的特点及CUDA的多层式存储器结构、多层式线程组织结构和单指令流多线程流(SIMT)体系结构,采用数据分组及轻量级线程任务分解的方式,提出了适合CUDA程序设计模型的高速并行小波分解算法,并将其用于电力系统谐波分析。实验证明,该算法相对于CPU串行小波分解和Matlab engine小波分解的计算耗时,最高可分别达到26倍和65倍的速度提升,且算法具有线性加速能力。 展开更多
关键词 电力系统 并行小波算法 计算统一设备架构 图形处理器 谐波分析
在线阅读 下载PDF
基于CUDA的高分辨率数字视频图像配准快速实现 被引量:27
9
作者 闫钧华 杭谊青 +1 位作者 许俊峰 储林臻 《仪器仪表学报》 EI CAS CSCD 北大核心 2014年第2期380-386,共7页
高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然... 高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然后基于CUDA并行快速实现高分辨率数字视频图像配准。实验结果表明:基于SIFT图像配准算法在CPU与CUDA上实现,在配准效果相近时,在CUDA上实现的处理速度比在CPU上实现的处理速度提高了100多倍,并且随着图像像素数的增加加速比有显著提高。 展开更多
关键词 图像配准 高分辨率 数字视频 cuda
在线阅读 下载PDF
基于CUDA的并行全搜索运动估计算法 被引量:15
10
作者 甘新标 沈立 王志英 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第3期457-460,共4页
为了提高H.264视频编码效率,基于计算统一设备架构(CUDA)的并行全搜索运动估计算法,并利用GPU强大的计算能力和CUDA优化的存储层次结构,以加速H.264编码中的运动估计.与传统的以牺牲视频质量来提升运动估计性能的方法不同,该算法在保证... 为了提高H.264视频编码效率,基于计算统一设备架构(CUDA)的并行全搜索运动估计算法,并利用GPU强大的计算能力和CUDA优化的存储层次结构,以加速H.264编码中的运动估计.与传统的以牺牲视频质量来提升运动估计性能的方法不同,该算法在保证视频质量的同时,结合运动估计计算密集、计算量大等特点,充分利用CUDA架构的并行性加快运动估计的速度,从而达到提高实时编码速度的目的.在GTX280实验平台上的实验结果显示,采用文中算法比优化的CPU实现可获得高达70倍的加速比. 展开更多
关键词 图形处理器 运动估计 并行 cuda
在线阅读 下载PDF
基于CUDA的高速FFT计算 被引量:23
11
作者 赵丽丽 张盛兵 +1 位作者 张萌 姚涛 《计算机应用研究》 CSCD 北大核心 2011年第4期1556-1559,共4页
针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明... 针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明了该算法的高效性,且优化后的FFT加速比能达到CUFFT库加速比的2~6倍。 展开更多
关键词 图形处理器 统一计算架构 映射策略 存储层次
在线阅读 下载PDF
基于CUDA的并行粒子群优化算法的设计与实现 被引量:17
12
作者 蔡勇 李光耀 王琥 《计算机应用研究》 CSCD 北大核心 2013年第8期2415-2418,共4页
针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题,进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析,结合目前被广泛使用的基于GPU的并行计算技术,设计实现了一种并行PSO方... 针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题,进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析,结合目前被广泛使用的基于GPU的并行计算技术,设计实现了一种并行PSO方法。本方法的执行基于统一计算架构(CUDA),使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库,从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明,相对于基于CPU的串行计算方法,在求解收敛性一致的前提下,基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。 展开更多
关键词 粒子群优化算法 并行计算 GPU 统一计算设备架构
在线阅读 下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:18
13
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(GPU) 通用并行计算架构(cuda)
在线阅读 下载PDF
CUDA架构下的液晶自适应波面数值解析 被引量:11
14
作者 李大禹 胡立发 +5 位作者 穆全全 曹召良 夏明亮 李抄 刘肇楠 宣丽 《光学精密工程》 EI CAS CSCD 北大核心 2010年第4期848-854,共7页
在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型... 在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型中引入了并行线程的有效利用,全局存储器的高效访问和数据直接回写3种优化方案;最后,给出了GPU与CPU的实验对比结果。结果表明:CUDA计算分辨率为512×512,对35项Zernike多项式的波面数值解析需时不到1ms,计算速度是传统CPU波面数值解析的几十倍。提出的方法减小了系统延时,提高了校正速度,建立波面数值解析CUDA编程模型采用的优化手段可为其它数学计算模型提供参考。 展开更多
关键词 图形处理器(GPU) cuda 液晶 自适应光学 波面解析
在线阅读 下载PDF
基于CUDA的SVM算法并行化研究 被引量:6
15
作者 张巍 张功萱 +2 位作者 王永利 张永平 朱昭萌 《计算机科学》 CSCD 北大核心 2013年第4期69-72,106,共5页
SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进... SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进一步研究海量数据的处理,提出海量数据处理的并行化方案;最后,通过实验分析对比了并行化算法的性能。 展开更多
关键词 cuda GPU 支持向量机 并行计算
在线阅读 下载PDF
快速鲁棒特征算法的CUDA加速优化 被引量:9
16
作者 刘金硕 曾秋梅 +2 位作者 邹斌 江庄毅 邓娟 《计算机科学》 CSCD 北大核心 2014年第4期24-27,43,共5页
提出一种基于统一计算设备架构(Compute Unified Device Architecture,CUDA)的快速鲁棒特征(Speed-up Robust Feature,SURF)图像匹配算法。分析了SURF算法的并行性,在图像处理单元(Graphics Processing Unit,GPU)的线程映射和内存模型... 提出一种基于统一计算设备架构(Compute Unified Device Architecture,CUDA)的快速鲁棒特征(Speed-up Robust Feature,SURF)图像匹配算法。分析了SURF算法的并行性,在图像处理单元(Graphics Processing Unit,GPU)的线程映射和内存模型方面对算法的构建尺度空间、特征点提取、特征点主方向的确定、特征描述子的生成及特征匹配5个步骤进行CUDA加速优化。实验表明,相比适用于CPU的SURF算法,文中提出的适用于GPU的SURF算法在处理30MB的图片时性能提高了33倍。适用于GPU的SURF算法拓展了SURF算法在遥感等领域的快速应用,尤其是大影像的快速配准。 展开更多
关键词 快速鲁棒特征 cuda 特征提取 影像匹配
在线阅读 下载PDF
一种基于CUDA的三维点云快速光顺算法 被引量:6
17
作者 唐杰 徐波 +1 位作者 宫中樑 武港山 《系统仿真学报》 CAS CSCD 北大核心 2012年第8期1633-1637,1642,共6页
提出了一种基于CUDA的点云光顺算法。算法细分成点云空间划分,K邻近搜索,法矢估算以及光顺等四个独立的且并行程度非常高的步骤。设计了基于CUDA的点云空间平均单元格划分算法及数据结构,有效提升了点云的划分效率;设计了基于CUDA的空间... 提出了一种基于CUDA的点云光顺算法。算法细分成点云空间划分,K邻近搜索,法矢估算以及光顺等四个独立的且并行程度非常高的步骤。设计了基于CUDA的点云空间平均单元格划分算法及数据结构,有效提升了点云的划分效率;设计了基于CUDA的空间K邻近搜索算法;改进了点云法矢估算方法,提出了高斯加权的法矢计算方法,有效改善了法矢估算效果;在光顺过程中加入了邻近点的面积影响因子,缓和了过光顺等不足。最后通过实验验证了算法的有效性。 展开更多
关键词 光顺 cuda GPU计算 点云
在线阅读 下载PDF
动态任务分配CUDA线程束步进体绘制 被引量:4
18
作者 孙万捷 高瞻 +2 位作者 潘海燕 王杰华 蒋峥峥 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2016年第10期1630-1638,共9页
针对标准CUDA光线投射体绘制过程中因线程束内线程计算量不均产生线程束分化,导致计算资源利用率低的问题,提出CUDA线程束步进的算法.首先分析标准CUDA实现导致线程束分化的原因,提出将光线积分映射至线程束上,线程束内所有线程同步分... 针对标准CUDA光线投射体绘制过程中因线程束内线程计算量不均产生线程束分化,导致计算资源利用率低的问题,提出CUDA线程束步进的算法.首先分析标准CUDA实现导致线程束分化的原因,提出将光线积分映射至线程束上,线程束内所有线程同步分段积分直至光线终止,以避免线程束分化;然后结合光线积分的数学原理和GPU的硬件特性提出线程束内光线积分的算法;最后针对静态线程束任务分配方式导致负载失衡的缺点,提出动态线程束任务分配的实现算法.实验结果表明,动态任务分配线程束步进算法的性能较标准CUDA实现可获得1.9~7.9倍的加速效果. 展开更多
关键词 cuda 线程束 体绘制 资源利用率
在线阅读 下载PDF
基于CUDA的Kirchhoff叠前时间偏移算法设计与实现 被引量:14
19
作者 李肯立 彭俊杰 周仕勇 《计算机应用研究》 CSCD 北大核心 2009年第12期4474-4477,共4页
Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CU-DA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于C... Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CU-DA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于CUDA的纵波波动方程算法和GPU与CPU间的通信算法三个子算法。所有算法在NVIDIAGeForce8800 GT系统上编译实现,通过对比相同数据在Intel Core2Due CPU2.0 GHz的地震偏移,综合分析和实验结果表明,基于CUDA的Kirchhoff叠前时间偏移算法的计算速度最高可得到较传统CPU算法6倍的加速比,从而为快速处理地震偏移提供良好的支持。 展开更多
关键词 统一计算设备架构 图形处理器 地震偏移 地震数据处理
在线阅读 下载PDF
基于卷积神经网络(CNN)和CUDA加速的实时视频人脸识别 被引量:21
20
作者 孔英会 王之涵 车辚辚 《科学技术与工程》 北大核心 2016年第35期96-100,107,共6页
为了兼顾视频人脸识别中识别准确率和实时性,提出了基于卷积神经网络(CNN)和CUDA加速的实时视频人脸识别方法。构建了一个6层结构的CNN人脸识别网络,在视频帧中通过Adaboost算法检测到的人脸输入所构建的CNN中进行视频人脸识别,结合CUD... 为了兼顾视频人脸识别中识别准确率和实时性,提出了基于卷积神经网络(CNN)和CUDA加速的实时视频人脸识别方法。构建了一个6层结构的CNN人脸识别网络,在视频帧中通过Adaboost算法检测到的人脸输入所构建的CNN中进行视频人脸识别,结合CUDA并行计算架构,对算法进行加速。此外为了更适用于实际视频监控情况,通过对CNN网络结构末尾Softmax分类器的分类结果进行多级判决引入了开集人脸识别功能。从多个角度对该方法进行了实验验证,结果证明,此方法可满足识别准确率和实时性要求,同时对于视频中人脸姿态变化、光照变化、距离远近等都具有良好的鲁棒性。 展开更多
关键词 卷积神经网络 识别准确率 统一计算设备 实时性 鲁棒性
在线阅读 下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部