期刊文献+
共找到242篇文章
< 1 2 13 >
每页显示 20 50 100
基于计算统一设备架构的高铁故障诊断方法 被引量:3
1
作者 陈志 李天瑞 +1 位作者 李明 杨燕 《计算机应用》 CSCD 北大核心 2015年第10期2819-2823,共5页
为解决传统高铁振动信号故障诊断方法速度慢、难以满足实时处理的要求,提出一种基于计算统一设备架构(CUDA)加速的高铁振动信号故障诊断方法。首先利用CUDA架构对高铁数据进行经验模态分解(EMD),进而计算分解所得到的各个分量的模糊熵,... 为解决传统高铁振动信号故障诊断方法速度慢、难以满足实时处理的要求,提出一种基于计算统一设备架构(CUDA)加速的高铁振动信号故障诊断方法。首先利用CUDA架构对高铁数据进行经验模态分解(EMD),进而计算分解所得到的各个分量的模糊熵,最后利用最近邻分类(KNN)算法对多个模糊熵特征组成的特征空间进行故障分类。实验结果表明,该方法能高效地对高铁振动信号进行故障分类,运行速度较传统方法有明显提高。 展开更多
关键词 故障诊断 计算统一设备架构 经验模态分解 模糊熵 最近邻分类算法
在线阅读 下载PDF
计算机统一设备架构加速外部计算机断层图像重建 被引量:2
2
作者 曾理 倪风岳 +1 位作者 刘宝东 洪达平 《电子与信息学报》 EI CSCD 北大核心 2011年第11期2665-2671,共7页
外部计算机断层成像(CT)重建主要用于重建管状物(如管道)的管壁截面图像,具有重要的实际意义。外部CT重建算法中,带子区域平均图像总变差最小的凸集投影(SA-TVM-POCS)重建数值算法可以得到高质量的CT图像,可用于管道的无损检测。但由于... 外部计算机断层成像(CT)重建主要用于重建管状物(如管道)的管壁截面图像,具有重要的实际意义。外部CT重建算法中,带子区域平均图像总变差最小的凸集投影(SA-TVM-POCS)重建数值算法可以得到高质量的CT图像,可用于管道的无损检测。但由于在实现过程中计算量较大,阻碍了其在一些时间要求较高环境中的应用。计算机统一设备架构(Computer Unified Device Architecture,CUDA)是近几年发展起来的解决高强度计算的有效工具之一,该文利用CUDA的高强度并行计算性能,提高外部CT问题SA-TVM-POCS算法的速度,从而增加该算法的应用范围;为充分利用CUDA其高强度数据级并行计算能力,该文改进了SA-TVM-POCS算法的实现过程以适应CUDA的并行计算架构。实验结果表明,该文方法可以在重建图像质量没有下降的情况下,加速比达到20倍以上;所以,利用CUDA可以加快SA-TVM-POCS算法的计算速度。 展开更多
关键词 工业CT 外部图像重建 计算统一设备架构 SA-TVM-POCS算法 并行计算
在线阅读 下载PDF
基于统一计算设备架构和基因表达式编程的自动聚类算法 被引量:1
3
作者 杜欣 刘大刚 +3 位作者 张开活 申远 赵康 倪友聪 《计算机应用》 CSCD 北大核心 2013年第7期1890-1893,1907,共5页
针对基于基因表达式编程(GEP)的自动聚类算法GEP-Cluster中聚类中心的筛选和聚合、计算数据对象到各聚类中心距离两个关键步骤效率不高的问题,提出了一种基于统一计算设备架构(CUDA)和GEP的自动聚类改进算法(CGEP-Cluster)。CGEP-Cluste... 针对基于基因表达式编程(GEP)的自动聚类算法GEP-Cluster中聚类中心的筛选和聚合、计算数据对象到各聚类中心距离两个关键步骤效率不高的问题,提出了一种基于统一计算设备架构(CUDA)和GEP的自动聚类改进算法(CGEP-Cluster)。CGEP-Cluster算法采用基因阅读运算器方法对GEP-Cluster算法的聚类中心筛选和聚合步骤进行改进,并基于CUDA将GEP-Cluster算法中数据对象到各聚类中心距离的计算并行化。实验结果表明,在数据对象规模较大时,CGEP-Cluster算法可获得8倍左右的加速比。CGEP-Cluster算法可用于聚类数未知且数据对象规模较大情况下的自动聚类。 展开更多
关键词 统一计算设备架构 基因表达式编程 聚类算法 GEP CLUSTER 演化算法
在线阅读 下载PDF
统一计算设备架构下的F-X域预测滤波并行算法 被引量:2
4
作者 杨先凤 贵红军 傅春常 《计算机应用》 CSCD 北大核心 2021年第2期486-491,共6页
针对传统F-X域预测滤波去除地震资料随机噪声耗时巨大的问题,提出了基于统一计算设备架构(CUDA)的并行算法。首先,对算法进行模块化分析以找到算法的计算瓶颈;然后从每个窗口数据计算相关矩阵、求滤波因子、滤波等步骤入手,使用图形处理... 针对传统F-X域预测滤波去除地震资料随机噪声耗时巨大的问题,提出了基于统一计算设备架构(CUDA)的并行算法。首先,对算法进行模块化分析以找到算法的计算瓶颈;然后从每个窗口数据计算相关矩阵、求滤波因子、滤波等步骤入手,使用图形处理器(GPU)将滤波过程分解为多个任务并行处理;最后,对算法进行并行实现,并对相邻滤波窗口的数据冗余读取进行优化以提升算法效率。基于NVIDIA Tesla K20c显卡的实验结果表明,在250×250大小工区的地震数据中,所提并行算法较原串行算法在效率上实现了10.9倍的提升,同时能保证工程中要求的计算精度。 展开更多
关键词 统一计算设备架构 并行计算 F-X域预测滤波 图形处理器 冗余读取优化
在线阅读 下载PDF
统一设备计算架构下的栅格河网提取并行算法 被引量:1
5
作者 王玉着 刘修国 张唯 《计算机应用》 CSCD 北大核心 2015年第4期960-963,967,共5页
针对大规模高分辨率数字地形数据提取栅格河网效率低下的问题,提出了基于统一设备计算架构(CUDA)利用淹没模型提取栅格河网的并行算法。使用图形处理器(GPU)将汇流累积量计算分解为独立的多任务并行处理,通过数据异步传输减少数据交换时... 针对大规模高分辨率数字地形数据提取栅格河网效率低下的问题,提出了基于统一设备计算架构(CUDA)利用淹没模型提取栅格河网的并行算法。使用图形处理器(GPU)将汇流累积量计算分解为独立的多任务并行处理,通过数据异步传输减少数据交换时间,进而加速河网提取的运算。实验结果表明,该算法运行效率明显优于串行河网提取算法,在NVIDIA Geforce GTX660上对数据量为600 MB(网格大小为9784×8507)数字高程模型(DEM)数据提取河网加速比达到62。 展开更多
关键词 统一设备计算架构 数字高程模型 栅格河网 D8算法 并行计算
在线阅读 下载PDF
磁共振扩散张量成像数据分析中基于统一计算设备架构的高速行处理求解超定线性方程组方法
6
作者 王飞 高嵩 《中国医学影像技术》 CSCD 北大核心 2012年第6期1226-1229,共4页
目的提出一种运行于普通个人电脑平台上的并行方法,用于求解MR DTI中的超定线性方程组。方法利用统一计算设备架构(CUDA)使中央处理器(CPU)与图形处理器(GPU)协同求解超定线性方程组。CPU用于数据准备与生成扩散矩阵,GPU中的大量流处理... 目的提出一种运行于普通个人电脑平台上的并行方法,用于求解MR DTI中的超定线性方程组。方法利用统一计算设备架构(CUDA)使中央处理器(CPU)与图形处理器(GPU)协同求解超定线性方程组。CPU用于数据准备与生成扩散矩阵,GPU中的大量流处理器并行用于迭代计算。结果 CUDA模式下行处理运算速度远快于CPU串行计算,图像矩阵增大时这一优势更加明显。结论与CPU串行模式相比,CUDA模式可显著提高DTI数据处理速度。 展开更多
关键词 扩散磁共振成像 图像处理器 统一计算设备架构
在线阅读 下载PDF
基于统一计算设备架构的并行串匹配算法 被引量:3
7
作者 唐定车 刘任任 谭建龙 《计算机应用》 CSCD 北大核心 2009年第B06期399-401,共3页
BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于... BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于CUDA架构的并行串匹配算法比同等CPU算法获得约10倍的加速比。此外还对该算法性能的影响因子做了分析。 展开更多
关键词 统一计算设备架构 单指令多线程 并行 串匹配算法
在线阅读 下载PDF
统一计算设备架构并行图割算法用于肝脏肿瘤图像分割 被引量:4
8
作者 李拴强 冯前进 《中国生物医学工程学报》 CAS CSCD 北大核心 2010年第5期641-647,共7页
统一计算设备架构(CUDA)技术使GPU通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。在研究了CUDA的设计思想和编程方式的基础上,对图割算... 统一计算设备架构(CUDA)技术使GPU通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。在研究了CUDA的设计思想和编程方式的基础上,对图割算法进行了并行改造,并在CUDA上实现了其并行化。结合肝脏肿瘤的特点,引入感兴趣区域,改进了交互方法,实现了对肝脏肿瘤的分割。实验结果表明,该方法分割结果准确,鲁棒性强,执行效率高,易于交互和扩展。 展开更多
关键词 统一计算设备架构(CUDA) 图割 肝脏肿瘤 分割
在线阅读 下载PDF
基于计算统一设备架物Fortran的直接模拟蒙特卡洛方法并行优化 被引量:2
9
作者 严立 戴欣怡 +2 位作者 陈佳洛 王平阳 欧阳华 《上海交通大学学报》 EI CAS CSCD 北大核心 2013年第8期1198-1204,共7页
利用基于图形处理器(GPU)的计算统一设备架构(CUDA)Fortran编程平台,对直接模拟蒙特卡洛(DSMC)方法进行并行优化,并以高超声速气动热计算为例,考察了串行与并行计算速度以及不同仿真分子数对并行效率的影响.结果表明,在保证计算精度不... 利用基于图形处理器(GPU)的计算统一设备架构(CUDA)Fortran编程平台,对直接模拟蒙特卡洛(DSMC)方法进行并行优化,并以高超声速气动热计算为例,考察了串行与并行计算速度以及不同仿真分子数对并行效率的影响.结果表明,在保证计算精度不变的情况下,程序取得了4~10倍的加速比,并且加速性能高低与计算规模大小成正比. 展开更多
关键词 直接模拟蒙特卡洛 FORTRAN 图形处理器 计算统一设备架构 气动热
在线阅读 下载PDF
CUDA架构下外辐射源雷达杂波抑制并行算法 被引量:9
10
作者 武勇 王俊 +1 位作者 张培川 曹运合 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2015年第1期104-111,共8页
为了解决用于杂波抑制的直接矩阵求逆算法在外辐射源雷达工程应用中实时处理困难的问题,提出了分段并行的直接矩阵求逆算法.充分考虑了直接矩阵求逆算法的特点,将整个运算块分解为多个规模相同的子运算块,在计算统一设备架构下对这些子... 为了解决用于杂波抑制的直接矩阵求逆算法在外辐射源雷达工程应用中实时处理困难的问题,提出了分段并行的直接矩阵求逆算法.充分考虑了直接矩阵求逆算法的特点,将整个运算块分解为多个规模相同的子运算块,在计算统一设备架构下对这些子运算块进行并行处理,达到了提高算法处理效率的目的.实验结果表明,在采样率为200kHz,杂波对消阶数为128的条件下,与传统的串行处理算法相比,该算法的运行效率提高了25倍,并成功用于某外辐射源雷达实时信号处理中. 展开更多
关键词 外辐射源雷达 杂波抑制 直接矩阵求逆算法 计算统一设备架构 并行
在线阅读 下载PDF
CPU-GPU异构计算环境下的并行T近邻谱聚类算法 被引量:4
11
作者 张帅 李涛 +2 位作者 焦晓帆 王艺峰 杨愚鲁 《计算机研究与发展》 EI CSCD 北大核心 2015年第11期2555-2567,共13页
谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrid... 谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrids)算法是专为CPU-GPU异构计算环境设计的并行T近邻(T-nearest-neighbors,TNN)谱聚类算法,通过分块计算相似性矩阵打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量.PSCH算法中使用CUDA设计实现双缓冲轮转4段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能.PSCH算法采用隐式重启动Lanczos方法(implicitly restarted Lanczos method,IRIM)在异构硬件上计算稀疏特征矩阵的特征分解,减轻了特征分解步骤的计算瓶颈.PSCH算法在配有一块GTX 480GPU的单节点上能够对百万以上规模的数据集进行聚类,并对实验中的4个数据集取得了相对于使用16进程的MPI并行谱聚类PSC算法2.0~4.5倍的性能. 展开更多
关键词 谱聚类 T近邻 CPU-GPU异构计算 计算统一设备架构 OpenMP
在线阅读 下载PDF
CUDA架构下大规模稠密线性方程组的并行求解 被引量:7
12
作者 杨梅 李志民 曹大勇 《计算机工程与应用》 CSCD 北大核心 2011年第32期27-30,共4页
在Gauss-Jordan消去法的基础上,给出了一种适应于CUDA架构的改进Gauss-Jordan消去并行算法。通过分析该方法的处理过程以及CUDA架构的相应限制,在CUDA的grid-block-thread三层组织结构的基础上,从算法构造的角度提出了grid-strip-group-... 在Gauss-Jordan消去法的基础上,给出了一种适应于CUDA架构的改进Gauss-Jordan消去并行算法。通过分析该方法的处理过程以及CUDA架构的相应限制,在CUDA的grid-block-thread三层组织结构的基础上,从算法构造的角度提出了grid-strip-group-block-thread五层结构,给出了基础行以及全局基础行等概念,并构建了适应于CUDA架构的Gauss-Jordan消去法的并行版本,在最高维数为4000维的大规模稠密线性方程组的算例求解上与串行Gauss-Jordan消去法进行了比较,实验结果表明,该算法能够充分利用GPU的硬件特性,有效地降低了大规模稠密线性方程组的求解时间。 展开更多
关键词 计算统一设备架构(CUDA) 并行算法 改进Gauss-Jordan消去法 大规模稠密线性方程组
在线阅读 下载PDF
基于CUDA的改进互信息并行计算方法 被引量:3
13
作者 杜晓刚 党建武 王阳萍 《计算机工程》 CAS CSCD 北大核心 2015年第12期288-292,298,共6页
基于计算统一设备架构(CUDA)的互信息并行计算方法存在因bank冲突而导致执行效率降低的问题。为此,提出一种改进的互信息并行计算方法。利用CUDA的线程层次模型和共享存储器,按等步长数据并行访问方式计算直方图,结合共享存储器,通过分... 基于计算统一设备架构(CUDA)的互信息并行计算方法存在因bank冲突而导致执行效率降低的问题。为此,提出一种改进的互信息并行计算方法。利用CUDA的线程层次模型和共享存储器,按等步长数据并行访问方式计算直方图,结合共享存储器,通过分块两次归并方法计算联合熵,采用生成树归并算法避免bank冲突,使用指令展开策略进一步优化执行效率,由熵和联合熵完成互信息计算。实验结果表明,该方法在避免bank冲突的同时,能有效提高互信息计算效率。 展开更多
关键词 计算统一设备架构 图像直方图 图像熵 归一化互信息 并行计算
在线阅读 下载PDF
基于矩阵转换的卷积计算优化方法 被引量:4
14
作者 方玉玲 陈庆奎 《计算机工程》 CAS CSCD 北大核心 2019年第7期217-221,228,共6页
提出一种基于矩阵转换的高效卷积计算优化方法MCFA。根据输出矩阵的宽度和卷积核大小对输入矩阵进行分块,通过im2col方法转换输入矩阵子块和核函数矩阵,利用计算统一设备架构中封装的矩阵-矩阵乘法加速库提升卷积计算的速度。在此基础上... 提出一种基于矩阵转换的高效卷积计算优化方法MCFA。根据输出矩阵的宽度和卷积核大小对输入矩阵进行分块,通过im2col方法转换输入矩阵子块和核函数矩阵,利用计算统一设备架构中封装的矩阵-矩阵乘法加速库提升卷积计算的速度。在此基础上,将输出子块按序排列,最终得到完整的输出矩阵。实验结果证明,该方法相比im2col方法能节省61.25 %的计算空间,相比MEC方法能提高20.57 %的计算速度,且在分块情况下可以缓解大输入矩阵引起的缓存压力,提高缓存利用率。 展开更多
关键词 深度学习 卷积计算 直接卷积 矩阵分块 计算统一设备架构 卷积优化
在线阅读 下载PDF
积分图像的快速GPU计算 被引量:7
15
作者 王志国 王贵锦 +2 位作者 施陈博 苗权 林行刚 《计算机应用研究》 CSCD 北大核心 2011年第10期3913-3916,共4页
提出了一种在GPU上计算积分图像的方法。积分图像可通过对输入图像的行实行前缀加法后再对列实行前缀加法构建。前缀加法是指对于一个数组,求取起始位置至每一个下标位置的数组元素的和的操作。提出了分段前缀加法原理,当将其运用到GPU... 提出了一种在GPU上计算积分图像的方法。积分图像可通过对输入图像的行实行前缀加法后再对列实行前缀加法构建。前缀加法是指对于一个数组,求取起始位置至每一个下标位置的数组元素的和的操作。提出了分段前缀加法原理,当将其运用到GPU图像积分时有如下优点:减少了线程间的数据依赖;降低了内存访问开销;提高了GPU线程的工作效率。提出的算法相对以前算法在速度上提高了约两倍。该算法可运用到使用积分图像的图像处理算法的GPU加速中。 展开更多
关键词 积分图像 前缀加法 计算统一设备架构 并行计算
在线阅读 下载PDF
基于异构计算的三维FDTD并行算法及其在电磁仿真中的应用 被引量:5
16
作者 周兰花 付彬 +2 位作者 李仁发 刘新忠 黄晶 《计算机工程与科学》 CSCD 北大核心 2017年第7期1241-1248,共8页
时域有限差分(FDTD)法是求解电磁学中麦克斯韦方程组的重要方法之一,一直以来获得了广泛的使用,但是应用于电大尺寸目标仿真时存在巨大的耗时问题。为解决这一问题,利用图形处理器(GPU)的并行处理特性,结合计算统一设备架构(CUDA),以低... 时域有限差分(FDTD)法是求解电磁学中麦克斯韦方程组的重要方法之一,一直以来获得了广泛的使用,但是应用于电大尺寸目标仿真时存在巨大的耗时问题。为解决这一问题,利用图形处理器(GPU)的并行处理特性,结合计算统一设备架构(CUDA),以低通滤波器为算例,实现了时域卷积理想匹配层(CPML)吸收边界的三维FDTD高性能加速计算,目标网格数达5百万。实验在Fermi架构的Quadro 4000和Tesla M2050两款GPU上实测,误差均在10^(-4)范围内,相对于同时期的CPU分别可获得36和55倍以上的加速,结果表明该方法具有精度高、效率高、通用性和实用性强等特点。 展开更多
关键词 计算电磁学 FDTD 异构计算 计算统一设备架构
在线阅读 下载PDF
CUDA架构下H.264快速去块滤波算法 被引量:5
17
作者 刘虎 孙召敏 陈启美 《计算机应用》 CSCD 北大核心 2010年第A12期3252-3254,3261,共4页
针对H.264/AVC视频编码标准中去块滤波器运算复杂度高、耗时巨大这一难题,提出了一种基于NVIDIA计算统一设备架构(CUDA)平台的H.264并行快速去块滤波算法,介绍了CUDA平台硬件结构特点与软件开发流程,根据图形处理器(GPU)的并发结构特点,... 针对H.264/AVC视频编码标准中去块滤波器运算复杂度高、耗时巨大这一难题,提出了一种基于NVIDIA计算统一设备架构(CUDA)平台的H.264并行快速去块滤波算法,介绍了CUDA平台硬件结构特点与软件开发流程,根据图形处理器(GPU)的并发结构特点,对BS判定与滤波计算进行了并行优化,降低了算法复杂度,利用共享内存提高了数据访问速率,实现了去块滤波器的并行处理。实验结果表明,在图像质量基本不变的情况下,GPU算法能够明显提高运算速度,平均加速比在20倍左右,取得了良好的效果。 展开更多
关键词 计算统一设备架构 H.264 去块滤波 并行计算
在线阅读 下载PDF
基于CUDA架构的三维CPML-FDTD并行方法 被引量:4
18
作者 胡媛 李康 +1 位作者 孔凡敏 杜刘革 《计算机工程与应用》 CSCD 北大核心 2011年第25期220-223,共4页
为解决时域有限差分(FDTD)算法应用于电大尺寸目标仿真的巨大耗时问题,应用FDTD算法的并行特性和通用图形处理器(GPGPU)技术,实现了一种基于计算统一设备架构(CUDA)的三维FDTD并行计算方法,采用了时域卷积完全匹配层(CPML)吸收边界条件... 为解决时域有限差分(FDTD)算法应用于电大尺寸目标仿真的巨大耗时问题,应用FDTD算法的并行特性和通用图形处理器(GPGPU)技术,实现了一种基于计算统一设备架构(CUDA)的三维FDTD并行计算方法,采用了时域卷积完全匹配层(CPML)吸收边界条件模拟开域空间,对不同网格数目标仿真计算。进一步结合FDTD算法和CUDA的特点进行了优化,当计算空间元胞数在十万数量级及以上时,优化前后GPU运算相对于同时期的CPU分别可获得10和25倍以上的加速,结果表明该方法较适合用于实际电磁问题的仿真。 展开更多
关键词 时域有限差分(FDTD) 并行计算 时域卷积完全匹配层(CPML) 基于计算统一设备架构(CUDA) 通用图形处理器(GPGPU) 加速
在线阅读 下载PDF
基于CUDA加速动态规划优化全景拼接的刮板输送机直线状态监测 被引量:2
19
作者 李博 侍守伊 +4 位作者 张建军 夏蕊 王学文 崔卫秀 倪强 《工矿自动化》 北大核心 2025年第1期45-51,60,共8页
为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视... 为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视频流进行暗通道清晰化处理,以消除井下煤尘、水雾等的干扰。其次,使用ORB算法检测和计算2路视频帧的特征点和描述子,通过K最近邻(KNN)匹配计算特征点间的匹配对,利用设置阈值比例的方法过滤错误的匹配点,使用随机抽样一致(RANSAC)算法计算出用于图像透视变换的单应性矩阵。然后,基于CUDA将读取Sobel算子、计算梯度、计算总能量差异、循环初始化权重与路径、寻找最佳接缝线分配到不同的线程中,并定义计算能量图和寻找最佳接缝线的核函数,完成2路图像沿接缝线融合的全景拼接。最后,使用霍夫变换方法对全景拼接的刮板输送机图像中部槽挡煤板进行直线拟合,并将拟合的直线绘制在全景拼接图像上,以反映刮板输送机的直线状态。实验及测试结果表明,CUDA加速动态规划优化全景拼接痕迹不明显,且处理速度快;通过霍夫变换对中部槽挡煤板拟合的直线与刮板输送机直线具有较好的一致性,可用于刮板输送机直线状态监测。 展开更多
关键词 刮板输送机直线状态监测 CUDA加速 动态规划 全景拼接 霍夫变换 统一计算设备架构
在线阅读 下载PDF
基于CUDA的加速MATLAB计算研究 被引量:9
20
作者 刘绍波 刘明贵 张国华 《计算机应用研究》 CSCD 北大核心 2010年第6期2140-2143,共4页
介绍了NVIDIA公司新的编程框架CUDA的特点以及CUDA加速MATLAB的方法,测试了CUDA加速岩土工程中常用的算法如矩阵计算、快速傅里叶变换、支持向量机。随后分析了数据规模、算法复杂性与加速效果的关系,指出了基于CUDA的MATLAB加速计算的... 介绍了NVIDIA公司新的编程框架CUDA的特点以及CUDA加速MATLAB的方法,测试了CUDA加速岩土工程中常用的算法如矩阵计算、快速傅里叶变换、支持向量机。随后分析了数据规模、算法复杂性与加速效果的关系,指出了基于CUDA的MATLAB加速计算的应用前景。测试结果表明,CUDA方式相对传统计算方式的最好加速效果分别达到了22.39倍、46.88倍、51.32倍,证明了CUDA加速计算的有效性。 展开更多
关键词 统一计算设备架构 MATLAB 加速计算
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部