期刊文献+
共找到614篇文章
< 1 2 31 >
每页显示 20 50 100
基于CUDA加速动态规划优化全景拼接的刮板输送机直线状态监测 被引量:2
1
作者 李博 侍守伊 +4 位作者 张建军 夏蕊 王学文 崔卫秀 倪强 《工矿自动化》 北大核心 2025年第1期45-51,60,共8页
为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视... 为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视频流进行暗通道清晰化处理,以消除井下煤尘、水雾等的干扰。其次,使用ORB算法检测和计算2路视频帧的特征点和描述子,通过K最近邻(KNN)匹配计算特征点间的匹配对,利用设置阈值比例的方法过滤错误的匹配点,使用随机抽样一致(RANSAC)算法计算出用于图像透视变换的单应性矩阵。然后,基于CUDA将读取Sobel算子、计算梯度、计算总能量差异、循环初始化权重与路径、寻找最佳接缝线分配到不同的线程中,并定义计算能量图和寻找最佳接缝线的核函数,完成2路图像沿接缝线融合的全景拼接。最后,使用霍夫变换方法对全景拼接的刮板输送机图像中部槽挡煤板进行直线拟合,并将拟合的直线绘制在全景拼接图像上,以反映刮板输送机的直线状态。实验及测试结果表明,CUDA加速动态规划优化全景拼接痕迹不明显,且处理速度快;通过霍夫变换对中部槽挡煤板拟合的直线与刮板输送机直线具有较好的一致性,可用于刮板输送机直线状态监测。 展开更多
关键词 刮板输送机直线状态监测 cuda加速 动态规划 全景拼接 霍夫变换 统一计算设备架构
在线阅读 下载PDF
基于CUDA并行的线性复杂度快速检测方法
2
作者 付一方 范丽敏 +1 位作者 陈华 陈东昱 《密码学报(中英文)》 北大核心 2025年第4期752-765,共14页
线性复杂度检测是一种重要的二元序列随机性检测方法,亦为判断随机数发生器输出质量的有效指标之一.该检测方法使用的Berlekamp-Massey算法计算复杂度较高,导致该检测相较于其他检测方法效率较低,特别是随着样本长度的增加,检测效率逐... 线性复杂度检测是一种重要的二元序列随机性检测方法,亦为判断随机数发生器输出质量的有效指标之一.该检测方法使用的Berlekamp-Massey算法计算复杂度较高,导致该检测相较于其他检测方法效率较低,特别是随着样本长度的增加,检测效率逐渐成为其适用性的瓶颈问题.本文着眼于解决二元序列线性复杂度测试的低效率问题,提出了一种基于GPU/NVIDIA CUDA技术的并行优化方法,实现了线性复杂度的快速检测.本文在改进的Berlekamp-Massey算法基础上,增加了快速移位方法,结合NVIDIA CUDA模型提出了针对二元序列线性复杂度的并行检测策略,通过对Berlekamp-Massey算法进行的并行化处理,在实现线程块间并行的同时也实现了多线程同步合作的深层并行Berlekamp-Massey算法.除此之外,通过调整线程配置参数以及引入CUDA协作组与warp shuffle机制对检测流程进行进一步优化.实验结果表明,本文提出的优化算法速度提升明显,相对于NIST-STS版本的线性复杂度检测,最高实现了约20000倍的加速;对比目前最快的线性复杂度并行检测方法,最高实现了约3–3.5倍的稳定加速. 展开更多
关键词 随机性检测 线性复杂度检测 BERLEKAMP-MASSEY算法 NVIDIA cuda GPU并行
在线阅读 下载PDF
基于CUDA和比特切片的SM4算法软件优化和实现
3
作者 吴江雨 何鹏 《计算机应用研究》 北大核心 2025年第9期2825-2833,共9页
SM4算法作为中国国家标准的对称加密算法,其加密效率是实现高质量、高效率数据保护的关键因素。目前SM4算法优化主要表现在比特切片和指令集优化等方面。比特切片和指令集优化分别存在着数据交互频繁以及高度依赖于底层硬件,不同架构的... SM4算法作为中国国家标准的对称加密算法,其加密效率是实现高质量、高效率数据保护的关键因素。目前SM4算法优化主要表现在比特切片和指令集优化等方面。比特切片和指令集优化分别存在着数据交互频繁以及高度依赖于底层硬件,不同架构的支持程度存在不同的问题。针对上述问题,提出了在数据处理上采用改进的比特切片优化数据编排的方法,从而提高数据传输效率,并且在CUDA编程模型的框架上,通过本地GPU实现SM4算法的高效通用并行加密。实验结果表明,在使用比特切片后,对小型数据也能够提高速度,处理明文大小为32 KB时加速比(Ep)能达到3.03。另外,与通用SM4算法相比,优化后的SM4算法加密速度可以达到14648 Mbit/s,加密每字节需要的时钟周期可以达到2.0 cycles/Byte,性能提升40%~215%。该方案在GPU的并行加速下能够大大提升当前SM4算法的加解密效率,在基于改进的比特切片优化下,也能提高小型数据的速度,并且安全性得到了良好的提升。 展开更多
关键词 SM4 cuda GPU加速 比特切片 性能优化
在线阅读 下载PDF
基于CUDA实现直接模拟蒙特卡罗方法的并行研究
4
作者 徐兴勤 梁立振 +5 位作者 徐伟 吴浩 邹尚轩 刘婷 刘洋 李浩 《核电子学与探测技术》 北大核心 2025年第9期1374-1380,共7页
基于负离子源的中性束注入是未来核聚变点火的重要加热技术,负氢离子束流大小是其重要指标之一,金属铯注入可以有效提高离子源中负氢离子的产额,因此铯在离子源内部的分布对提升束功率具有重要作用。本文借助直接模拟蒙特卡罗(DSMC)方... 基于负离子源的中性束注入是未来核聚变点火的重要加热技术,负氢离子束流大小是其重要指标之一,金属铯注入可以有效提高离子源中负氢离子的产额,因此铯在离子源内部的分布对提升束功率具有重要作用。本文借助直接模拟蒙特卡罗(DSMC)方法对注铯喷嘴进行模拟计算,研究铯注入量和喷发曲线对离子源内铯分布的影响。针对DSMC方法在中央处理器(CPU)串行计算中效率低的问题,本文基于CUDA架构实现分子运动、网格索引、碰撞计算与统计采样的全GPU并行化。本文通过对比串行和并行计算结果,验证并行程序的正确性,在不同算例均保持良好计算精度的前提下,并行加速比可达到11.6倍,具体并行效率取决于计算规模,最后成功利用这个并行程序实现注铯喷嘴处铯通量分布的数值模拟。 展开更多
关键词 直接模拟蒙特卡罗(DSMC) cuda GPU 并行计算
在线阅读 下载PDF
基于CUDA的高分辨率气象格点数据可视化系统
5
作者 宋海军 康贤彪 赵国庆 《计算机应用与软件》 北大核心 2025年第10期383-387,共5页
针对全球高分辨率气象格点数据网络传输规模大、前端实时渲染可视化卡顿严重等问题,设计一种基于CUDA的气象格点数据可视化系统。系统基于uni-app框架,通过集成数据切片、CUDA数据并行处理、数据压缩、前后端多线程数据传输、前端颜色... 针对全球高分辨率气象格点数据网络传输规模大、前端实时渲染可视化卡顿严重等问题,设计一种基于CUDA的气象格点数据可视化系统。系统基于uni-app框架,通过集成数据切片、CUDA数据并行处理、数据压缩、前后端多线程数据传输、前端颜色映射可视化等技术,能较好地实现高分辨率气象数据在前端的超快速可视化显示以及系统的跨平台一键移植和部署。 展开更多
关键词 格点数据 数据可视化 cuda HTML5
在线阅读 下载PDF
基于CUDA的并行布谷鸟搜索算法设计与实现 被引量:2
6
作者 韦向远 杨辉华 谢谱模 《计算机科学与探索》 CSCD 2014年第6期665-673,共9页
布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device arch... 布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device architecture,CUDA)的并行布谷鸟搜索算法。该算法的并行实现采用任务并行与数据并行相结合的方式,利用图形处理器(graphic processing unit,GPU)线程块与线程分别映射布谷鸟个体与个体的每一维数据,并行实现CS算法中的鸟巢位置更新、个体适应度评估、鸟巢重建、寻找最优个体操作。整个CS算法的寻优迭代过程完全通过GPU实现,降低了算法计算过程中CPU与GPU的通信开销。对4个经典基准测试函数进行了仿真实验,结果表明,相比标准CS算法,基于CUDA架构的并行CS算法在求解收敛性一致的前提下,在求解速度上获得了高达110倍的计算加速比。 展开更多
关键词 布谷鸟搜索算法 并行计算 图形处理器(GPU) 统一计算设备架构(cuda) GRAPHIC processing unit (GPU) compute UNIFIED device architecture (cuda)
在线阅读 下载PDF
CUDA架构下的灰度图像匹配并行算法 被引量:15
7
作者 李建江 张磊 +2 位作者 李兴钢 陈翔 黄义双 《电子科技大学学报》 EI CAS CSCD 北大核心 2012年第1期110-113,共4页
提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图... 提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图像匹配并行算法快了40多倍,性能得到了显著提高,从而使灰度图像匹配应用于如交互式系统等实时应用成为可能。 展开更多
关键词 cuda GPU 灰度 图像匹配 并行
在线阅读 下载PDF
基于CUDA的高分辨率数字视频图像配准快速实现 被引量:27
8
作者 闫钧华 杭谊青 +1 位作者 许俊峰 储林臻 《仪器仪表学报》 EI CAS CSCD 北大核心 2014年第2期380-386,共7页
高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然... 高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然后基于CUDA并行快速实现高分辨率数字视频图像配准。实验结果表明:基于SIFT图像配准算法在CPU与CUDA上实现,在配准效果相近时,在CUDA上实现的处理速度比在CPU上实现的处理速度提高了100多倍,并且随着图像像素数的增加加速比有显著提高。 展开更多
关键词 图像配准 高分辨率 数字视频 cuda
在线阅读 下载PDF
CUDA架构下的液晶自适应波面数值解析 被引量:11
9
作者 李大禹 胡立发 +5 位作者 穆全全 曹召良 夏明亮 李抄 刘肇楠 宣丽 《光学精密工程》 EI CAS CSCD 北大核心 2010年第4期848-854,共7页
在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型... 在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型中引入了并行线程的有效利用,全局存储器的高效访问和数据直接回写3种优化方案;最后,给出了GPU与CPU的实验对比结果。结果表明:CUDA计算分辨率为512×512,对35项Zernike多项式的波面数值解析需时不到1ms,计算速度是传统CPU波面数值解析的几十倍。提出的方法减小了系统延时,提高了校正速度,建立波面数值解析CUDA编程模型采用的优化手段可为其它数学计算模型提供参考。 展开更多
关键词 图形处理器(GPU) cuda 液晶 自适应光学 波面解析
在线阅读 下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:18
10
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(GPU) 通用并行计算架构(cuda)
在线阅读 下载PDF
基于CUDA的并行全搜索运动估计算法 被引量:15
11
作者 甘新标 沈立 王志英 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第3期457-460,共4页
为了提高H.264视频编码效率,基于计算统一设备架构(CUDA)的并行全搜索运动估计算法,并利用GPU强大的计算能力和CUDA优化的存储层次结构,以加速H.264编码中的运动估计.与传统的以牺牲视频质量来提升运动估计性能的方法不同,该算法在保证... 为了提高H.264视频编码效率,基于计算统一设备架构(CUDA)的并行全搜索运动估计算法,并利用GPU强大的计算能力和CUDA优化的存储层次结构,以加速H.264编码中的运动估计.与传统的以牺牲视频质量来提升运动估计性能的方法不同,该算法在保证视频质量的同时,结合运动估计计算密集、计算量大等特点,充分利用CUDA架构的并行性加快运动估计的速度,从而达到提高实时编码速度的目的.在GTX280实验平台上的实验结果显示,采用文中算法比优化的CPU实现可获得高达70倍的加速比. 展开更多
关键词 图形处理器 运动估计 并行 cuda
在线阅读 下载PDF
快速鲁棒特征算法的CUDA加速优化 被引量:9
12
作者 刘金硕 曾秋梅 +2 位作者 邹斌 江庄毅 邓娟 《计算机科学》 CSCD 北大核心 2014年第4期24-27,43,共5页
提出一种基于统一计算设备架构(Compute Unified Device Architecture,CUDA)的快速鲁棒特征(Speed-up Robust Feature,SURF)图像匹配算法。分析了SURF算法的并行性,在图像处理单元(Graphics Processing Unit,GPU)的线程映射和内存模型... 提出一种基于统一计算设备架构(Compute Unified Device Architecture,CUDA)的快速鲁棒特征(Speed-up Robust Feature,SURF)图像匹配算法。分析了SURF算法的并行性,在图像处理单元(Graphics Processing Unit,GPU)的线程映射和内存模型方面对算法的构建尺度空间、特征点提取、特征点主方向的确定、特征描述子的生成及特征匹配5个步骤进行CUDA加速优化。实验表明,相比适用于CPU的SURF算法,文中提出的适用于GPU的SURF算法在处理30MB的图片时性能提高了33倍。适用于GPU的SURF算法拓展了SURF算法在遥感等领域的快速应用,尤其是大影像的快速配准。 展开更多
关键词 快速鲁棒特征 cuda 特征提取 影像匹配
在线阅读 下载PDF
基于CUDA的SVM算法并行化研究 被引量:6
13
作者 张巍 张功萱 +2 位作者 王永利 张永平 朱昭萌 《计算机科学》 CSCD 北大核心 2013年第4期69-72,106,共5页
SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进... SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进一步研究海量数据的处理,提出海量数据处理的并行化方案;最后,通过实验分析对比了并行化算法的性能。 展开更多
关键词 cuda GPU 支持向量机 并行计算
在线阅读 下载PDF
一种基于CUDA的三维点云快速光顺算法 被引量:6
14
作者 唐杰 徐波 +1 位作者 宫中樑 武港山 《系统仿真学报》 CAS CSCD 北大核心 2012年第8期1633-1637,1642,共6页
提出了一种基于CUDA的点云光顺算法。算法细分成点云空间划分,K邻近搜索,法矢估算以及光顺等四个独立的且并行程度非常高的步骤。设计了基于CUDA的点云空间平均单元格划分算法及数据结构,有效提升了点云的划分效率;设计了基于CUDA的空间... 提出了一种基于CUDA的点云光顺算法。算法细分成点云空间划分,K邻近搜索,法矢估算以及光顺等四个独立的且并行程度非常高的步骤。设计了基于CUDA的点云空间平均单元格划分算法及数据结构,有效提升了点云的划分效率;设计了基于CUDA的空间K邻近搜索算法;改进了点云法矢估算方法,提出了高斯加权的法矢计算方法,有效改善了法矢估算效果;在光顺过程中加入了邻近点的面积影响因子,缓和了过光顺等不足。最后通过实验验证了算法的有效性。 展开更多
关键词 光顺 cuda GPU计算 点云
在线阅读 下载PDF
动态任务分配CUDA线程束步进体绘制 被引量:4
15
作者 孙万捷 高瞻 +2 位作者 潘海燕 王杰华 蒋峥峥 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2016年第10期1630-1638,共9页
针对标准CUDA光线投射体绘制过程中因线程束内线程计算量不均产生线程束分化,导致计算资源利用率低的问题,提出CUDA线程束步进的算法.首先分析标准CUDA实现导致线程束分化的原因,提出将光线积分映射至线程束上,线程束内所有线程同步分... 针对标准CUDA光线投射体绘制过程中因线程束内线程计算量不均产生线程束分化,导致计算资源利用率低的问题,提出CUDA线程束步进的算法.首先分析标准CUDA实现导致线程束分化的原因,提出将光线积分映射至线程束上,线程束内所有线程同步分段积分直至光线终止,以避免线程束分化;然后结合光线积分的数学原理和GPU的硬件特性提出线程束内光线积分的算法;最后针对静态线程束任务分配方式导致负载失衡的缺点,提出动态线程束任务分配的实现算法.实验结果表明,动态任务分配线程束步进算法的性能较标准CUDA实现可获得1.9~7.9倍的加速效果. 展开更多
关键词 cuda 线程束 体绘制 资源利用率
在线阅读 下载PDF
基于CUDA平台的遗传算法并行实现研究 被引量:10
16
作者 谭彩凤 马安国 邢座程 《计算机工程与科学》 CSCD 北大核心 2009年第A01期68-72,共5页
CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速... CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速度和准确度;分析了种群大小和遗传代数对此算法加速比及准确度的影响,并与MAT-LAB工具箱进行比较。实验表明,相比MATLAB遗传算法工具箱,基于CUDA平台实现的遗传算法性能更高,准确度更好。 展开更多
关键词 随机数 遗传算法 并行计算 GPGPU cuda GPU
在线阅读 下载PDF
CUDA架构下的靶丸辐射能流并行计算 被引量:6
17
作者 赵权 黄运保 孙宇航 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2013年第7期937-945,共9页
针对惯性约束聚变(ICF)间接驱动对称性分析中靶自身遮挡判断困难、表面辐射能流计算效率低等问题,提出了基于CUDA的靶丸辐射能流并行计算方法.该方法以两区近似均匀模型为基础,利用四叉树结构对靶离散单元进行层次化表示,再根据包围盒... 针对惯性约束聚变(ICF)间接驱动对称性分析中靶自身遮挡判断困难、表面辐射能流计算效率低等问题,提出了基于CUDA的靶丸辐射能流并行计算方法.该方法以两区近似均匀模型为基础,利用四叉树结构对靶离散单元进行层次化表示,再根据包围盒的相交判断快速剔除遮挡单元;通过单元视角因子计算过程到GPU各运算线程的映射,实现了靶丸辐射能流计算的并行化.实验结果表明,在保证同样计算精度的同时,文中算法平均加速比在考虑遮挡时为15,不考虑遮挡时为400,具有较高的计算效率. 展开更多
关键词 惯性约束聚变 视角因子 四叉树 遮挡剔除 cuda
在线阅读 下载PDF
监控摄像机视频去隔行和CUDA加速 被引量:5
18
作者 杜歆 颜瑞 刘加海 《传感技术学报》 CAS CSCD 北大核心 2010年第3期393-398,共6页
监控摄像机的隔行扫描是造成视频降质的重要因素,因此需要在进一步处理前对其进行去隔行。针对典型的视频监控场景,提出了一种快速有效的运动自适应去隔行算法。采用同极性4场运动检测法提取运动信息,将图像分为静止区域、运动区域和混... 监控摄像机的隔行扫描是造成视频降质的重要因素,因此需要在进一步处理前对其进行去隔行。针对典型的视频监控场景,提出了一种快速有效的运动自适应去隔行算法。采用同极性4场运动检测法提取运动信息,将图像分为静止区域、运动区域和混合区域;对静止区域采用直接的场合并,对于运动区域采用改进的基于边缘的插值,混合区域则采用基于运动向量的加权平均。为提高算法的实时性,基于Nvid ia的CUDA技术对算法进行了GPU加速。实验结果表明,本文提出的去隔行算法插值精度高,边缘处理效果好,经过GPU加速后,处理速度也得到了大幅提高。 展开更多
关键词 视频去隔行 GPU加速 cuda 运动检测
在线阅读 下载PDF
基于CUDA加速的三维医学图像配准 被引量:6
19
作者 王蓓蕾 朱志良 孟琭 《小型微型计算机系统》 CSCD 北大核心 2013年第11期2621-2625,共5页
三维医学图像配准技术是医学图像处理,特别是外科手术导航的关键技术,但现有的三维医学图像配准算法大多存在计算量大、耗时过长的问题,不能满足临床应用中实时处理的要求.针对这一问题,提出一种基于统一计算设备架构(Compute Unified D... 三维医学图像配准技术是医学图像处理,特别是外科手术导航的关键技术,但现有的三维医学图像配准算法大多存在计算量大、耗时过长的问题,不能满足临床应用中实时处理的要求.针对这一问题,提出一种基于统一计算设备架构(Compute Unified Device Architecture,CUDA)的高性能计算方法,充分利用CUDA架构下GPU(Graphic Processing Unit)并行计算的优势,并结合图像多尺度、最大互信息等方法,实现了三维医学图像的快速配准.实验结果表明,该方法在保证配准精度的前提下,大幅度地提高了三维医学图像配准算法的运算速度,可以满足临床上对配准算法的实时性要求. 展开更多
关键词 三维图像配准 cuda加速 互信息 多尺度
在线阅读 下载PDF
基于CUDA的格子Boltzmann数值模拟加速实现 被引量:3
20
作者 覃章荣 张超英 +2 位作者 丘滨 李圆圆 莫刘刘 《广西师范大学学报(自然科学版)》 CAS 北大核心 2012年第4期18-24,共7页
针对近年来利用CUDA技术在个人计算机显卡的GPU上实现LBM并行加速计算的研究越来越多,但对在GPU中使用不同GPU存储器进行计算的具体实现算法以及其对计算性能的影响分析研究甚少,文章实现了在GPU中使用不同存储器进行LBM并行计算,给出... 针对近年来利用CUDA技术在个人计算机显卡的GPU上实现LBM并行加速计算的研究越来越多,但对在GPU中使用不同GPU存储器进行计算的具体实现算法以及其对计算性能的影响分析研究甚少,文章实现了在GPU中使用不同存储器进行LBM并行计算,给出了具体的实现算法,并以平面Poiseuille流为算例,在普通个人计算机上,分别使用NVIDIA GeForce GTS450GPU和Intel Core i5-760 4核CPU进行计算。结果表明,两者计算结果吻合得很好,最高获得了约107倍的加速比,验证了在GPU上进行LBM并行计算的可行性以及加速性能,为在低成本的个人计算机上高效率地解决计算流体力学中的复杂计算问题提供了一种非常有效的途径。 展开更多
关键词 GPU cuda 格子BOLTZMANN方法 平面Poiseuille流
在线阅读 下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部