期刊文献+
共找到261篇文章
< 1 2 14 >
每页显示 20 50 100
统一计算设备架构下的F-X域预测滤波并行算法 被引量:2
1
作者 杨先凤 贵红军 傅春常 《计算机应用》 CSCD 北大核心 2021年第2期486-491,共6页
针对传统F-X域预测滤波去除地震资料随机噪声耗时巨大的问题,提出了基于统一计算设备架构(CUDA)的并行算法。首先,对算法进行模块化分析以找到算法的计算瓶颈;然后从每个窗口数据计算相关矩阵、求滤波因子、滤波等步骤入手,使用图形处理... 针对传统F-X域预测滤波去除地震资料随机噪声耗时巨大的问题,提出了基于统一计算设备架构(CUDA)的并行算法。首先,对算法进行模块化分析以找到算法的计算瓶颈;然后从每个窗口数据计算相关矩阵、求滤波因子、滤波等步骤入手,使用图形处理器(GPU)将滤波过程分解为多个任务并行处理;最后,对算法进行并行实现,并对相邻滤波窗口的数据冗余读取进行优化以提升算法效率。基于NVIDIA Tesla K20c显卡的实验结果表明,在250×250大小工区的地震数据中,所提并行算法较原串行算法在效率上实现了10.9倍的提升,同时能保证工程中要求的计算精度。 展开更多
关键词 统一计算设备架构 并行计算 F-X域预测滤波 图形处理器 冗余读取优化
在线阅读 下载PDF
统一设备计算架构下的栅格河网提取并行算法 被引量:1
2
作者 王玉着 刘修国 张唯 《计算机应用》 CSCD 北大核心 2015年第4期960-963,967,共5页
针对大规模高分辨率数字地形数据提取栅格河网效率低下的问题,提出了基于统一设备计算架构(CUDA)利用淹没模型提取栅格河网的并行算法。使用图形处理器(GPU)将汇流累积量计算分解为独立的多任务并行处理,通过数据异步传输减少数据交换时... 针对大规模高分辨率数字地形数据提取栅格河网效率低下的问题,提出了基于统一设备计算架构(CUDA)利用淹没模型提取栅格河网的并行算法。使用图形处理器(GPU)将汇流累积量计算分解为独立的多任务并行处理,通过数据异步传输减少数据交换时间,进而加速河网提取的运算。实验结果表明,该算法运行效率明显优于串行河网提取算法,在NVIDIA Geforce GTX660上对数据量为600 MB(网格大小为9784×8507)数字高程模型(DEM)数据提取河网加速比达到62。 展开更多
关键词 统一设备计算架构 数字高程模型 栅格河网 D8算法 并行计算
在线阅读 下载PDF
统一计算架构下的装配精度并行计算模型 被引量:4
3
作者 苏裕林 刘浩 +2 位作者 苏琦 贾康 洪军 《西安交通大学学报》 EI CAS CSCD 北大核心 2023年第6期105-114,共10页
针对复杂装配体在多指标需求下装配精度计算效率低下的问题,提出了一种基于统一计算架构(CUDA)的多误差传递路径装配精度并行计算模型。首先,对局部并联结构进行旋量转换,得到涵盖串并联的小位移旋量(SDT)模型,在此基础上将装配特征作... 针对复杂装配体在多指标需求下装配精度计算效率低下的问题,提出了一种基于统一计算架构(CUDA)的多误差传递路径装配精度并行计算模型。首先,对局部并联结构进行旋量转换,得到涵盖串并联的小位移旋量(SDT)模型,在此基础上将装配特征作为误差传递单元,通过构建姿态变换和误差传递模型,分解误差传递过程,为后续并行计算提供支持;然后,对多功能需求(FR)误差传递路径按类型特征进行路径合并和误差旋量复用,减少计算量和数据生成量;最后,设计算法数据结构,根据任务需求分配线程任务、合理分配内存及降低访存时延。采用该模型对某型航发高压压气机转子的装配精度进行仿真计算,结果表明:与传统CPU模型相比,所提模型的装配精度计算速度提高了约97.3倍,能够为复杂装配体的装配精度计算和公差设计提供支持。 展开更多
关键词 公差设计 装配特征 装配精度 统一计算架构 并行计算
在线阅读 下载PDF
基于统一计算设备架构的并行串匹配算法 被引量:3
4
作者 唐定车 刘任任 谭建龙 《计算机应用》 CSCD 北大核心 2009年第B06期399-401,共3页
BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于... BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于CUDA架构的并行串匹配算法比同等CPU算法获得约10倍的加速比。此外还对该算法性能的影响因子做了分析。 展开更多
关键词 统一计算设备架构 单指令多线程 并行 串匹配算法
在线阅读 下载PDF
统一计算设备架构并行图割算法用于肝脏肿瘤图像分割 被引量:4
5
作者 李拴强 冯前进 《中国生物医学工程学报》 CAS CSCD 北大核心 2010年第5期641-647,共7页
统一计算设备架构(CUDA)技术使GPU通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。在研究了CUDA的设计思想和编程方式的基础上,对图割算... 统一计算设备架构(CUDA)技术使GPU通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。在研究了CUDA的设计思想和编程方式的基础上,对图割算法进行了并行改造,并在CUDA上实现了其并行化。结合肝脏肿瘤的特点,引入感兴趣区域,改进了交互方法,实现了对肝脏肿瘤的分割。实验结果表明,该方法分割结果准确,鲁棒性强,执行效率高,易于交互和扩展。 展开更多
关键词 统一计算设备架构(CUDA) 图割 肝脏肿瘤 分割
在线阅读 下载PDF
计算机统一设备架构加速外部计算机断层图像重建 被引量:2
6
作者 曾理 倪风岳 +1 位作者 刘宝东 洪达平 《电子与信息学报》 EI CSCD 北大核心 2011年第11期2665-2671,共7页
外部计算机断层成像(CT)重建主要用于重建管状物(如管道)的管壁截面图像,具有重要的实际意义。外部CT重建算法中,带子区域平均图像总变差最小的凸集投影(SA-TVM-POCS)重建数值算法可以得到高质量的CT图像,可用于管道的无损检测。但由于... 外部计算机断层成像(CT)重建主要用于重建管状物(如管道)的管壁截面图像,具有重要的实际意义。外部CT重建算法中,带子区域平均图像总变差最小的凸集投影(SA-TVM-POCS)重建数值算法可以得到高质量的CT图像,可用于管道的无损检测。但由于在实现过程中计算量较大,阻碍了其在一些时间要求较高环境中的应用。计算机统一设备架构(Computer Unified Device Architecture,CUDA)是近几年发展起来的解决高强度计算的有效工具之一,该文利用CUDA的高强度并行计算性能,提高外部CT问题SA-TVM-POCS算法的速度,从而增加该算法的应用范围;为充分利用CUDA其高强度数据级并行计算能力,该文改进了SA-TVM-POCS算法的实现过程以适应CUDA的并行计算架构。实验结果表明,该文方法可以在重建图像质量没有下降的情况下,加速比达到20倍以上;所以,利用CUDA可以加快SA-TVM-POCS算法的计算速度。 展开更多
关键词 工业CT 外部图像重建 计算统一设备架构 SA-TVM-POCS算法 并行计算
在线阅读 下载PDF
基于计算统一设备架构的高铁故障诊断方法 被引量:3
7
作者 陈志 李天瑞 +1 位作者 李明 杨燕 《计算机应用》 CSCD 北大核心 2015年第10期2819-2823,共5页
为解决传统高铁振动信号故障诊断方法速度慢、难以满足实时处理的要求,提出一种基于计算统一设备架构(CUDA)加速的高铁振动信号故障诊断方法。首先利用CUDA架构对高铁数据进行经验模态分解(EMD),进而计算分解所得到的各个分量的模糊熵,... 为解决传统高铁振动信号故障诊断方法速度慢、难以满足实时处理的要求,提出一种基于计算统一设备架构(CUDA)加速的高铁振动信号故障诊断方法。首先利用CUDA架构对高铁数据进行经验模态分解(EMD),进而计算分解所得到的各个分量的模糊熵,最后利用最近邻分类(KNN)算法对多个模糊熵特征组成的特征空间进行故障分类。实验结果表明,该方法能高效地对高铁振动信号进行故障分类,运行速度较传统方法有明显提高。 展开更多
关键词 故障诊断 计算统一设备架构 经验模态分解 模糊熵 最近邻分类算法
在线阅读 下载PDF
基于计算统一设备架物Fortran的直接模拟蒙特卡洛方法并行优化 被引量:2
8
作者 严立 戴欣怡 +2 位作者 陈佳洛 王平阳 欧阳华 《上海交通大学学报》 EI CAS CSCD 北大核心 2013年第8期1198-1204,共7页
利用基于图形处理器(GPU)的计算统一设备架构(CUDA)Fortran编程平台,对直接模拟蒙特卡洛(DSMC)方法进行并行优化,并以高超声速气动热计算为例,考察了串行与并行计算速度以及不同仿真分子数对并行效率的影响.结果表明,在保证计算精度不... 利用基于图形处理器(GPU)的计算统一设备架构(CUDA)Fortran编程平台,对直接模拟蒙特卡洛(DSMC)方法进行并行优化,并以高超声速气动热计算为例,考察了串行与并行计算速度以及不同仿真分子数对并行效率的影响.结果表明,在保证计算精度不变的情况下,程序取得了4~10倍的加速比,并且加速性能高低与计算规模大小成正比. 展开更多
关键词 直接模拟蒙特卡洛 FORTRAN 图形处理器 计算统一设备架构 气动热
在线阅读 下载PDF
基于统一计算设备架构和基因表达式编程的自动聚类算法 被引量:1
9
作者 杜欣 刘大刚 +3 位作者 张开活 申远 赵康 倪友聪 《计算机应用》 CSCD 北大核心 2013年第7期1890-1893,1907,共5页
针对基于基因表达式编程(GEP)的自动聚类算法GEP-Cluster中聚类中心的筛选和聚合、计算数据对象到各聚类中心距离两个关键步骤效率不高的问题,提出了一种基于统一计算设备架构(CUDA)和GEP的自动聚类改进算法(CGEP-Cluster)。CGEP-Cluste... 针对基于基因表达式编程(GEP)的自动聚类算法GEP-Cluster中聚类中心的筛选和聚合、计算数据对象到各聚类中心距离两个关键步骤效率不高的问题,提出了一种基于统一计算设备架构(CUDA)和GEP的自动聚类改进算法(CGEP-Cluster)。CGEP-Cluster算法采用基因阅读运算器方法对GEP-Cluster算法的聚类中心筛选和聚合步骤进行改进,并基于CUDA将GEP-Cluster算法中数据对象到各聚类中心距离的计算并行化。实验结果表明,在数据对象规模较大时,CGEP-Cluster算法可获得8倍左右的加速比。CGEP-Cluster算法可用于聚类数未知且数据对象规模较大情况下的自动聚类。 展开更多
关键词 统一计算设备架构 基因表达式编程 聚类算法 GEP CLUSTER 演化算法
在线阅读 下载PDF
磁共振扩散张量成像数据分析中基于统一计算设备架构的高速行处理求解超定线性方程组方法
10
作者 王飞 高嵩 《中国医学影像技术》 CSCD 北大核心 2012年第6期1226-1229,共4页
目的提出一种运行于普通个人电脑平台上的并行方法,用于求解MR DTI中的超定线性方程组。方法利用统一计算设备架构(CUDA)使中央处理器(CPU)与图形处理器(GPU)协同求解超定线性方程组。CPU用于数据准备与生成扩散矩阵,GPU中的大量流处理... 目的提出一种运行于普通个人电脑平台上的并行方法,用于求解MR DTI中的超定线性方程组。方法利用统一计算设备架构(CUDA)使中央处理器(CPU)与图形处理器(GPU)协同求解超定线性方程组。CPU用于数据准备与生成扩散矩阵,GPU中的大量流处理器并行用于迭代计算。结果 CUDA模式下行处理运算速度远快于CPU串行计算,图像矩阵增大时这一优势更加明显。结论与CPU串行模式相比,CUDA模式可显著提高DTI数据处理速度。 展开更多
关键词 扩散磁共振成像 图像处理器 统一计算设备架构
在线阅读 下载PDF
并行计算在动态摄影测量边缘提取算法中应用 被引量:7
11
作者 刘振涛 燕必希 +2 位作者 董明利 孙鹏 王君 《计算机工程与设计》 北大核心 2019年第1期97-102,共6页
为满足动态摄影测量速度需求,设计一种将Hyper-Q技术应用于双站位相机图像Canny边缘提取算法中的实现方案。通过两个流对采集到的两幅图像分别处理,充分利用GPU计算资源,实现高效并行计算。对300个特征点3种不同分辨率图像进行特征点的C... 为满足动态摄影测量速度需求,设计一种将Hyper-Q技术应用于双站位相机图像Canny边缘提取算法中的实现方案。通过两个流对采集到的两幅图像分别处理,充分利用GPU计算资源,实现高效并行计算。对300个特征点3种不同分辨率图像进行特征点的Canny边缘检测,实验结果表明,在同样分辨率图像下,基于CUDA的边缘检测算法计算比串行计算算法速度提高了8.8倍,应用Hyper-Q技术后的CUDA程序比串行计算速度提高了11.6倍,图像处理速度显著提高,为双相机动态摄影测量系统在分辨率为4288×2848下实现3Hz测量速度提供思路。 展开更多
关键词 动态摄影测量 并行计算 统一计算设备架构 Hyper-Q 边缘提取
在线阅读 下载PDF
基于CUDA的改进互信息并行计算方法 被引量:3
12
作者 杜晓刚 党建武 王阳萍 《计算机工程》 CAS CSCD 北大核心 2015年第12期288-292,298,共6页
基于计算统一设备架构(CUDA)的互信息并行计算方法存在因bank冲突而导致执行效率降低的问题。为此,提出一种改进的互信息并行计算方法。利用CUDA的线程层次模型和共享存储器,按等步长数据并行访问方式计算直方图,结合共享存储器,通过分... 基于计算统一设备架构(CUDA)的互信息并行计算方法存在因bank冲突而导致执行效率降低的问题。为此,提出一种改进的互信息并行计算方法。利用CUDA的线程层次模型和共享存储器,按等步长数据并行访问方式计算直方图,结合共享存储器,通过分块两次归并方法计算联合熵,采用生成树归并算法避免bank冲突,使用指令展开策略进一步优化执行效率,由熵和联合熵完成互信息计算。实验结果表明,该方法在避免bank冲突的同时,能有效提高互信息计算效率。 展开更多
关键词 计算统一设备架构 图像直方图 图像熵 归一化互信息 并行计算
在线阅读 下载PDF
使用GPU技术的数据流分位数并行计算方法 被引量:2
13
作者 周勇 王皓 程春田 《计算机应用》 CSCD 北大核心 2010年第2期543-546,共4页
数据流实时、连续、快速到达的特点决定了数据流的实时处理能力。在处理低维数据流时经常使用分位数信息来描述数据流的统计信息,利用图形处理器(GPU)的强大计算能力和高内存带宽的特性计算数据流分位数信息,提出了基于统一计算设备架构... 数据流实时、连续、快速到达的特点决定了数据流的实时处理能力。在处理低维数据流时经常使用分位数信息来描述数据流的统计信息,利用图形处理器(GPU)的强大计算能力和高内存带宽的特性计算数据流分位数信息,提出了基于统一计算设备架构(CUDA)的数据流处理模型和基于该模型的数据流分位数并行计算方法。实验证明,该方法在提供不低于纯CPU分位数算法相同精度的条件下,使数据流分位数的实时计算带宽得到了显著的提高。 展开更多
关键词 统一计算设备架构 通用图形处理器 数据流 分位数 并行计算
在线阅读 下载PDF
非规则流中高维数据流典型相关性分析并行计算方法 被引量:5
14
作者 周勇 卢晓伟 程春田 《软件学报》 EI CSCD 北大核心 2012年第5期1053-1072,共20页
为了满足在计算资源受限的环境下高维数据流处理的实时性要求,提出一种方法——基于GPU(graphicprocessing unit)的非规则流中高维数据流的处理模型和具体的可行架构,并分析设计了相关的并行算法.该六层模型是将GPU处理数据的高宽带性... 为了满足在计算资源受限的环境下高维数据流处理的实时性要求,提出一种方法——基于GPU(graphicprocessing unit)的非规则流中高维数据流的处理模型和具体的可行架构,并分析设计了相关的并行算法.该六层模型是将GPU处理数据的高宽带性能结合进滑动窗口中数据流的分析,进而在该框架下基于统一计算设备架构(compute unified device architecture,简称CUDA),使用数据立方模型以及降维约简技术并行分析了多条高维数据流的典型相关性.理论分析和实验结果均表明,该并行处理方法能够在线精确地识别同步滑动窗口模式下高维数据流之间的相关性.相对于纯CPU方法,该方法具有显著的速度优势,很好地满足了高维数据流的实时性需求,可以作为通用的分析方法广泛应用于数据流挖掘领域. 展开更多
关键词 图形处理器 高维数据流 典型相关性 统一计算设备架构 降维约简技术
在线阅读 下载PDF
基于线索KD-Tree的射线追踪并行计算 被引量:3
15
作者 厉夫兵 苏永琪 陈文剑 《计算机工程与设计》 北大核心 2023年第12期3677-3682,共6页
针对射线追踪过程中,由于射线数目巨大、部分目标场景复杂,造成计算效率低下的问题,采用线索KD-Tree (K-dimensional tree)空间加速算法,将目标场景进行有序组织,通过对线索KD-Tree进行无堆栈遍历,加快射线与目标场景求交的计算速度。... 针对射线追踪过程中,由于射线数目巨大、部分目标场景复杂,造成计算效率低下的问题,采用线索KD-Tree (K-dimensional tree)空间加速算法,将目标场景进行有序组织,通过对线索KD-Tree进行无堆栈遍历,加快射线与目标场景求交的计算速度。为解决传统方法中,串行计算射线与目标求交过程中造成待遍历射线多的问题,采用图形处理器(graphics processing unit, GPU)在统一计算设备架构(compute unified device architecture, CUDA)平台下并行处理所有射线,加快计算速度。实例仿真计算结果表明,基于线索KD-Tree的射线追踪并行计算相比于串行计算,计算效率提高,获得了很好的加速效果。 展开更多
关键词 射线追踪 线索KD-Tree 无堆栈遍历 求交测试 图形处理器 统一计算设备架构 并行计算
在线阅读 下载PDF
基于线程池的GPU任务并行计算模式研究 被引量:23
16
作者 李涛 董前琨 +3 位作者 张帅 孔令晏 康宏 杨愚鲁 《计算机学报》 EI CSCD 北大核心 2018年第10期2175-2192,共18页
GPU已经成为具有高并发高内存带宽的通用协处理器,但是GPU与CPU在体系结构和编程模型上存在很大差异,导致CPU-GPU异构计算系统的编程复杂度提高,即使采用统一计算设备架构(CUDA)提供的kernel并发技术和多流技术也较难充分控制和利用GPU... GPU已经成为具有高并发高内存带宽的通用协处理器,但是GPU与CPU在体系结构和编程模型上存在很大差异,导致CPU-GPU异构计算系统的编程复杂度提高,即使采用统一计算设备架构(CUDA)提供的kernel并发技术和多流技术也较难充分控制和利用GPU上的计算资源,难以有效地处理不规则的并行应用问题.为从体系结构角度探索GPU硬件支持的页锁定内存和统一虚拟地址空间等特征,该文提出了CPU辅助任务调度管理下的基于线程池技术的GPU任务并行计算模型CAGTP,实现了CPU-GPU异构计算系统上的共享内存式程序设计.提出并设计了CPU端的任务队列、计算线程块级任务调度器、任务槽和GPU端的任务复用kernel函数等机制,实现了CPU与GPU间的高效细粒度任务交互,避免了原生CUDA程序中多次启停kernel函数的开销,有效地支持了GPU上的细粒度不规则并行任务计算,而且利用模型API接口函数能够降低CPU-GPU异构计算系统的编程难度.实验结果表明,CAGTP模型中任务调度的开销是kernel函数调用的5%,有效提升了通用矩阵乘、乔列斯基分解和K均值、T近邻等典型线性代数和机器学习算法的计算性能;CAGTP模型易于扩展使用多块GPU,且在性能差异较大的多个GPU之间达到负载均衡,能够高效求解混合任务和具有不规则并行性的应用问题. 展开更多
关键词 异构计算系统 统一计算设备架构 线程池 任务并行 任务复用函数
在线阅读 下载PDF
细长弹性飞行器飞行动力学并行计算及优化研究
17
作者 胡斌星 李新国 常武权 《振动与冲击》 EI CSCD 北大核心 2019年第11期42-47,94,共7页
现代飞行器尤如导弹或火箭等飞行器其长细比大、低阶频率低,弹性变形和振动对弹道仿真导航、制导、推力模块的影响不容忽略。就细长体弹性飞行器全弹道仿真中弹性模块出现的计算速度慢、无法实现实时仿真等问题,通过分析不同计算规模下... 现代飞行器尤如导弹或火箭等飞行器其长细比大、低阶频率低,弹性变形和振动对弹道仿真导航、制导、推力模块的影响不容忽略。就细长体弹性飞行器全弹道仿真中弹性模块出现的计算速度慢、无法实现实时仿真等问题,通过分析不同计算规模下各计算步骤的占时比例,在单机多GPU环境下创新性的采用动态并行构建八叉树的方式表征气动参数表,并通过自适应硬件资源、合理利用共享内存以实现气动数据索引的性能优化;同时设计了 CPU端任务队列的异步计算架构,以此实现了 CPU-GPU不同粒度的并行任务计算。数值结果表明在单GPU条件下可得到20倍左右的加速比,双GPU并行计算可得到至少30倍的加速比,并以5 ms为时限取得了 40阶截断阶数、1 200站点的弹性飞行器实时仿真。 展开更多
关键词 弹性飞行器 并行计算 异步异构 统一计算设备架构 八叉树
在线阅读 下载PDF
基于CUDA的词对齐并行计算方法
18
作者 李龚亮 敬思远 《计算机应用》 CSCD 北大核心 2017年第A02期32-34,47,共4页
针对词对齐算法在处理大规模平行语料时计算时间复杂度较高的问题,提出一种基于图形处理器(GPU)的词对齐并行计算方法。首先分析了大规模语料中句对长度的分布特征,结合现代GPU的体系架构,提出基于预排序的任务分配策略;然后基于统一计... 针对词对齐算法在处理大规模平行语料时计算时间复杂度较高的问题,提出一种基于图形处理器(GPU)的词对齐并行计算方法。首先分析了大规模语料中句对长度的分布特征,结合现代GPU的体系架构,提出基于预排序的任务分配策略;然后基于统一计算设备架构(CUDA)完成对词对齐算法中的期望计算、期望最大化两个核心步骤的并行实现。在NVIDIA Tesla K40M图形处理器上进行了实验,结果表明,该方法与GIZA++相比最高达到246的加速比。 展开更多
关键词 词对齐 最大期望算法 并行计算 统一计算设备架构 图形处理器
在线阅读 下载PDF
CPU-GPU异构计算环境下的并行T近邻谱聚类算法 被引量:4
19
作者 张帅 李涛 +2 位作者 焦晓帆 王艺峰 杨愚鲁 《计算机研究与发展》 EI CSCD 北大核心 2015年第11期2555-2567,共13页
谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrid... 谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrids)算法是专为CPU-GPU异构计算环境设计的并行T近邻(T-nearest-neighbors,TNN)谱聚类算法,通过分块计算相似性矩阵打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量.PSCH算法中使用CUDA设计实现双缓冲轮转4段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能.PSCH算法采用隐式重启动Lanczos方法(implicitly restarted Lanczos method,IRIM)在异构硬件上计算稀疏特征矩阵的特征分解,减轻了特征分解步骤的计算瓶颈.PSCH算法在配有一块GTX 480GPU的单节点上能够对百万以上规模的数据集进行聚类,并对实验中的4个数据集取得了相对于使用16进程的MPI并行谱聚类PSC算法2.0~4.5倍的性能. 展开更多
关键词 谱聚类 T近邻 CPU-GPU异构计算 计算统一设备架构 OpenMP
在线阅读 下载PDF
面向CPU+GPU异构计算的SIFT特征匹配并行算法 被引量:11
20
作者 肖汉 郭运宏 周清雷 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第11期1732-1737,共6页
依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给... 依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍. 展开更多
关键词 遥感影像 特征匹配 图形处理器(GPU) 统一计算设备架构(CUDA) 尺度不变特征变换(SIFT)
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部