期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
面向多核CPU与GPU平台的图处理系统关键技术综述 被引量:3
1
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核cpugpu平台 处理系统 图数据表示 负载均衡 不规则访存 动态图处理
在线阅读 下载PDF
基于CPU+GPU混合架构的雷达信号处理方法 被引量:2
2
作者 常艳 何涛 朱占宇 《火力与指挥控制》 CSCD 北大核心 2024年第7期80-85,90,共7页
针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积... 针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积累、目标检测、目标检测后处理及解模糊过程,将对应处理映射到CPU+GPU核心以提高加速比。实验结果表明,相比多核DSP信号处理方法,该方法具有更好的性能。 展开更多
关键词 cpu+gpu 混合架构 信号处理 多核DSP
在线阅读 下载PDF
CPU-GPU协同计算加速ASIFT算法 被引量:6
3
作者 何婷婷 芮建武 温腊 《计算机科学》 CSCD 北大核心 2014年第5期14-19,共6页
ASIFT(Affine-SIFT)是一种具有仿射不变性、尺度不变性的特征提取算法,其被用于图像匹配中,具有较好的匹配效果,但因计算复杂度高而难以运用到实时处理中。在分析ASIFT算法运行耗时分布的基础上,先对SIFT算法进行了GPU优化,通过使用共... ASIFT(Affine-SIFT)是一种具有仿射不变性、尺度不变性的特征提取算法,其被用于图像匹配中,具有较好的匹配效果,但因计算复杂度高而难以运用到实时处理中。在分析ASIFT算法运行耗时分布的基础上,先对SIFT算法进行了GPU优化,通过使用共享内存、合并访存,提高了数据访问效率。之后对ASIFT计算中的其它部分进行GPU优化,形成GASIFT。整个GASIFT计算过程中使用显存池来减少对显存的申请和释放。最后分别在CPU/GPU协同工作的两种方式上进行了尝试。实验表明,CPU负责逻辑计算、GPU负责并行计算的模式最适合于GASIFT计算,在该模式下GASIFT有很好的加速效果,尤其针对大、中图片。对于2048*1536的大图片,GASIFT与标准ASIFT相比加速比可达16倍,与OpenMP优化过的ASIFT相比加速比可达7倍,极大地提高了ASIFT在实时计算中应用的可能性。 展开更多
关键词 特征提取 ASIFT SIFT cpu gpu协同工作
在线阅读 下载PDF
CPU/GPU协同运算技术在舰载警戒雷达实验室模拟仿真中的应用 被引量:2
4
作者 饶世钧 邢忠臣 洪俊 《实验室研究与探索》 CAS 北大核心 2017年第7期118-121,共4页
针对舰载警戒雷达实验室建设雷达模拟仿真过程中模拟数据计算量大、模拟数据类型多、更新速度快及雷达回波显示难的问题,在分析雷达模拟数据处理特点的基础上,介绍了CPU/GPU协同运算技术的基本情况,提出了CPU/GPU协同运算技术在雷达模... 针对舰载警戒雷达实验室建设雷达模拟仿真过程中模拟数据计算量大、模拟数据类型多、更新速度快及雷达回波显示难的问题,在分析雷达模拟数据处理特点的基础上,介绍了CPU/GPU协同运算技术的基本情况,提出了CPU/GPU协同运算技术在雷达模拟数据生成与回波显示方面的具体应用方法,明确了CPU/GPU协同运算基本流程与各自任务分工,建立了CPU雷达模拟仿真数据组织与生成模型,给出了GPU雷达回波渲染与显示方法,并采用向量元素的遍历查找算法完成雷达回波数据获取和雷达回波纹理数据更新。通过在通用计算机对传统CPU运算和CPU/GPU协同运算两种方法进行仿真,仿真结果证明了这一技术应用的可行性与先进性,这种技术的应用对于提高舰载警戒雷达模拟仿真效率与逼真度有着重要意义。 展开更多
关键词 舰载警戒雷达 cpu/gpu协同运算 回波渲染 模拟仿真 数据处理 回波显示
在线阅读 下载PDF
Co-OLAP:CPU&GPU混合平台上面向星形模型基准的协同OLAP(英文)
5
作者 张宇 张延松 +2 位作者 张兵 陈红 王珊 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第5期240-251,共12页
当前GPU(图形处理器),即使是中端服务器配置的中端GPU也拥有强大的并行计算能力.不同于近期的研究成果,中端服务器可能配置有几块高端CPU和一块中端GPU,GPU能够提供额外的计算能力而不是提供比CPU更加强大的计算能力.本文以中端工作站上... 当前GPU(图形处理器),即使是中端服务器配置的中端GPU也拥有强大的并行计算能力.不同于近期的研究成果,中端服务器可能配置有几块高端CPU和一块中端GPU,GPU能够提供额外的计算能力而不是提供比CPU更加强大的计算能力.本文以中端工作站上的CoOLAP(协同OLAP)为中心,描述如何使中端GPU与强大的CPU协同以及如何在计算均衡的异构平台上分布数据和计算以使Co-OLAP模型简单而高效.根据实际的配置,基于内存容量,GPU显存容量,数据集模式和订制的AIR(数组地址引用)算法提出了最大高性能数据分布模型.CoOLAP模型将数据划分为驻留于内存和GPU显存的数据集,OLAP计算也划分为CPU和GPU端的自适应计算负载来最小化CPU和GPU内存之间的数据传输代价.实验结果显示,在SF=20的SSB(星形模型基准)测试中,两块至强六核处理器的性能略优于一块NVIDA Quadra 5 000GPU(352个cuda核心)的处理性能,Co-OLAP模型可以将负载均衡分布在异构计算平台并使每个平台简单而高效. 展开更多
关键词 gpu(图形处理器) OLAP(联机分析处理) Co-OLAP(协同OLAP) AIR(数组地址引用)
在线阅读 下载PDF
一种CPU-GPU协同计算的三维地形实时渲染算法 被引量:9
6
作者 郭向坤 林浒 +1 位作者 刘继申 王鸿亮 《小型微型计算机系统》 CSCD 北大核心 2018年第4期825-829,共5页
提出一种基于Open CL的CPU-GPU协同计算的大规模地形实时渲染算法,该算法侧重于把批LOD模型的构建从CPU移植到GPU.CPU主要负责把外存中的数据块实时调度到内存中,并把相应的地形块载入GPU中的显存.GPU负责利用Open CL平台并行构建LOD模... 提出一种基于Open CL的CPU-GPU协同计算的大规模地形实时渲染算法,该算法侧重于把批LOD模型的构建从CPU移植到GPU.CPU主要负责把外存中的数据块实时调度到内存中,并把相应的地形块载入GPU中的显存.GPU负责利用Open CL平台并行构建LOD模型.为了避免相邻LOD模型出现裂缝,利用地形块的裂缝检测和删除顶点的方法消除裂缝;为了解决两个LOD层次的转换过程中出现地表突跳现象,采用morphing方法实现地形的平滑过渡.实验结果表明,该算法将大量的几何计算移植到GPU上并行计算,降低了CPU的计算负载,提高了LOD模型的构建效率,加快了场景的渲染速度. 展开更多
关键词 OPENCL cpugpu协同计算 LOD模型 平滑过渡
在线阅读 下载PDF
CPU和GPU协同并行加速多生物序列比对 被引量:5
7
作者 杨春燕 钟诚 《小型微型计算机系统》 CSCD 北大核心 2016年第12期2780-2784,共5页
将主库构建阶段的输入序列分成多个分主库、将主库扩展阶段的主库元素划分成多个计算窗口,使之符合GPU并行计算的线程结构特性,GPU以计算窗口为单位并行计算比对矩阵、并行约减主库及并行扩展比对矩阵,结合库优化思想优化主库构建过程,... 将主库构建阶段的输入序列分成多个分主库、将主库扩展阶段的主库元素划分成多个计算窗口,使之符合GPU并行计算的线程结构特性,GPU以计算窗口为单位并行计算比对矩阵、并行约减主库及并行扩展比对矩阵,结合库优化思想优化主库构建过程,利用阈值cutoff控制主库约减程度,设计实现CPU和多个GPU协同计算并行比对多生物序列的高效可扩展算法OGM SA.实验结果表明,当cutoff≤0.20时,算法OGM SA的比对结果质量与算法G-M SA相同,计算速度是G-M SA算法的近4倍,内存容量需求比G-MSA算法也有所降低. 展开更多
关键词 多生物序列 并行比对 计算窗口 cpu和gpu协同计算 主库约减
在线阅读 下载PDF
基于GPU和CPU协同并行的三维各向异性介质地震波场正演模拟 被引量:2
8
作者 刘春成 顾汉明 +4 位作者 陈宝书 焦振华 马凯 蔡志成 张立 《地质科技情报》 CSCD 北大核心 2019年第5期240-246,共7页
莺歌海盆地中深部地层具有多套超低速层、异常高压、垂向裂隙发育等特点,使得介质具有各向异性,地震波场特征复杂,正演模拟是研究波场特征和观测系统优化的主要手段之一,而海上震源子频带宽、主频高,要求正演模拟网格剖分小,导致计算量... 莺歌海盆地中深部地层具有多套超低速层、异常高压、垂向裂隙发育等特点,使得介质具有各向异性,地震波场特征复杂,正演模拟是研究波场特征和观测系统优化的主要手段之一,而海上震源子频带宽、主频高,要求正演模拟网格剖分小,导致计算量大。为此,发展了基于GPU和CPU协同并行的海上三维各向异性介质正演模拟方法,通过将模型分割并分配到不同进程上和任意选择并行计算的方向和每个方向上并行计算的进程个数,不仅可以减小每个进程上内存消耗,而且减少计算时间。简单3D模型的正演模拟验证了该方法可极大地提高计算效率,复杂构造各向异性介质模型中的模拟炮集记录的偏移成像结果验证了方法的可靠性,可适用于任意各向异性介质地震波场正演模拟。 展开更多
关键词 三维各向异性介质 波动方程正演模拟 gpucpu协同并行
在线阅读 下载PDF
基于云平台CPU与GPU协同处理的光学卫星遥感影像正射融合方法
9
作者 于潇 张一 +2 位作者 吕丽红 张强 王得成 《空间科学学报》 2025年第5期1416-1424,共9页
系统探讨了基于国产云平台调度下自主可控CPU和GPU协同处理的光学卫星遥感影像正射融合方法执行效率问题,通过数据流配置、中间数据存储访问优化等手段进一步提高了该方法执行效率.在云平台调度下,使用飞腾S2500和英伟达A100对高分二号... 系统探讨了基于国产云平台调度下自主可控CPU和GPU协同处理的光学卫星遥感影像正射融合方法执行效率问题,通过数据流配置、中间数据存储访问优化等手段进一步提高了该方法执行效率.在云平台调度下,使用飞腾S2500和英伟达A100对高分二号卫星多光谱影像进行正射融合的试验,结果表明,该方法可很大程度提高光学卫星遥感影像正射融合效率,与传统X86架构CPU与GPU协同的正射融合算法相比,加速比为14.3倍以上,数据处理时间压缩至8.4 s内,其中GPU运算耗时仅1 s,可满足并优化大数据量的光学卫星遥感影像快速正射融合的要求. 展开更多
关键词 正射融合 国产云平台 cpu和gpu协同处理 数据流配置 存储访问优化
在线阅读 下载PDF
基于GPU/CPU叠前逆时偏移研究及应用 被引量:14
10
作者 刘文卿 王宇超 +4 位作者 雍学善 王孝 邵喜春 高厚强 刘秋良 《石油地球物理勘探》 EI CSCD 北大核心 2012年第5期712-716,844+676,共5页
本文基于GPU/CPU协同系统,将计算量最大的波场逆时外推通过GPU实现,并利用随机速度边界的思路提高波场外推算法的并行性,解决了大规模存储的I/O问题。通过优化拉普拉斯算子压制由互相关成像条件引入的低频噪声。数值试验表明,GPU/CPU协... 本文基于GPU/CPU协同系统,将计算量最大的波场逆时外推通过GPU实现,并利用随机速度边界的思路提高波场外推算法的并行性,解决了大规模存储的I/O问题。通过优化拉普拉斯算子压制由互相关成像条件引入的低频噪声。数值试验表明,GPU/CPU协同系统的计算效率非常高,在实际应用中取得良好的成像效果和时效比。理论模型试算和实际盐丘数据的处理验证了算法的正确性。 展开更多
关键词 逆时偏移 波动方程 成像条件 gpu/cpu协同计算 随机速度边界
在线阅读 下载PDF
一种适应GPU的混合OLAP查询处理模型 被引量:9
11
作者 张宇 张延松 +1 位作者 陈红 王珊 《软件学报》 EI CSCD 北大核心 2016年第5期1246-1265,共20页
通用GPU因其强大的并行计算能力成为新兴的高性能计算平台,并逐渐成为近年来学术界在高性能数据库实现技术领域的研究热点.但当前GPU数据库领域的研究沿袭的是ROLAP(relational OLAP)多维分析模型,研究主要集中在关系操作符在GPU平台上... 通用GPU因其强大的并行计算能力成为新兴的高性能计算平台,并逐渐成为近年来学术界在高性能数据库实现技术领域的研究热点.但当前GPU数据库领域的研究沿袭的是ROLAP(relational OLAP)多维分析模型,研究主要集中在关系操作符在GPU平台上的算法实现和性能优化技术,以哈希连接的GPU并行算法研究为中心.GPU拥有数千个并行计算单元,但其逻辑控制单元较少,相对于CPU具有更强的并行计算能力,但逻辑控制和复杂内存管理能力较弱,因此并不适合需要复杂数据结构和复杂内存管理机制的内存数据库查询处理算法直接移植到GPU平台.提出了面向GPU向量计算特性的混合OLAP多维分析模型semi-MOLAP,将MOLAP(multidimensional OLAP)模型的直接数组访问和计算特性与ROLAP模型的存储效率结合在一起,实现了一个基于完全数组结构的GPU semi-MOLAP多维分析模型,简化了GPU数据管理,降低了GPU semi-MOLAP算法复杂度,提高了GPU semiMOLAP算法的代码执行率.同时,基于GPU和CPU计算的特点,将semi-MOLAP操作符拆分为CPU和GPU平台的协同计算,提高了CPU和GPU的利用率以及OLAP的查询整体性能. 展开更多
关键词 gpu 联机分析处理 内存数据库 协同计算 数组计算
在线阅读 下载PDF
CPU/GPU异构混合并行的栅格数据空间分析研究——以地形因子计算为例 被引量:9
12
作者 卢敏 王金茵 +2 位作者 卢刚 陶伟东 王结臣 《计算机工程与应用》 CSCD 北大核心 2017年第1期172-177,共6页
海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的... 海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的设备间任务划分,进行CPU与GPU异构混合的并行技术改良研究。实验结果表明,基于相同的单机硬件环境,与多核共享内存模型或众核流处理器的单一计算平台并行方案相比,CPU/GPU异构混合并行计算方法对于栅格数据分析具有更好的加速效果。 展开更多
关键词 GIS栅格数据分析 共享内存模型 处理器模型 cpu/gpu异构混合并行
在线阅读 下载PDF
CPU-GPU混合平台上动态场景光线跟踪的研究 被引量:5
13
作者 张健 焦良葆 陈瑞 《计算机工程与应用》 CSCD 2012年第21期151-154,159,共5页
提出了一种动态场景光线跟踪新方法,能有效地调度CPU和GPU的运行,提高渲染速度。根据加速结构kd-tree的特点,将其分成上层部分和下层部分,上层部分由于并行性较小,由CPU创建;而下层部分并行性较大,由GPU创建,提高动态场景加速结构的创... 提出了一种动态场景光线跟踪新方法,能有效地调度CPU和GPU的运行,提高渲染速度。根据加速结构kd-tree的特点,将其分成上层部分和下层部分,上层部分由于并行性较小,由CPU创建;而下层部分并行性较大,由GPU创建,提高动态场景加速结构的创建速度。同时充分利用CPU和GPU两个运算平台的特点,有效调度两者的运行,隐藏部分运算时间,进一步提高动态场景的渲染速度。实验结果表明,在安装了GeForce285GTX的PC机上,高真实感地交互渲染了包含11k三角面片的Kitchen动态场景。 展开更多
关键词 光线跟踪 KD-TREE 图形处理器(gpu) cpu
在线阅读 下载PDF
基于GPU与CPU协作的实时波束形成实现方法 被引量:1
14
作者 李晓敏 侯朝焕 +1 位作者 鄢社锋 杨力 《计算机应用研究》 CSCD 北大核心 2011年第4期1333-1335,1359,共4页
采用基于CUDA(compute unified device architecture,统一计算设备架构)的GPU(graphic processing unit,图形处理器)与CPU协作处理方法,实现了宽带波束形成的实时处理。本方法的处理速度相较于MATLAB和CPU平台可以提高一至两个数量级,... 采用基于CUDA(compute unified device architecture,统一计算设备架构)的GPU(graphic processing unit,图形处理器)与CPU协作处理方法,实现了宽带波束形成的实时处理。本方法的处理速度相较于MATLAB和CPU平台可以提高一至两个数量级,相较于同等处理速度的多DSP平台则体现了开发周期短、费用低、工作量小和可靠性高等众多优势。 展开更多
关键词 gpu cpu CUDA 宽带 波束形成 实时处理
在线阅读 下载PDF
面向大数据复杂应用的GPU协同计算模型 被引量:3
15
作者 张龙翔 曹云鹏 王海峰 《计算机应用研究》 CSCD 北大核心 2020年第7期2049-2053,共5页
大数据计算中存在流计算、内存计算、批计算和图计算等不同模式,各种计算模式有不同的访存、通信和资源利用等特征。GPU异构集群在大数据分析处理中得到广泛应用,然而缺少研究GPU异构集群在大数据分析中的计算模型。多核CPU与GPU协同计... 大数据计算中存在流计算、内存计算、批计算和图计算等不同模式,各种计算模式有不同的访存、通信和资源利用等特征。GPU异构集群在大数据分析处理中得到广泛应用,然而缺少研究GPU异构集群在大数据分析中的计算模型。多核CPU与GPU协同计算时不仅增加了计算资源的密度,而且提高节点间和节点内的通信复杂度。为了从理论上研究GPU与多核CPU协同计算问题,面向多种计算模式建立一个多阶段的协同计算模型(p-DCOT)。p-DCOT以BSP大同步并行模型为核心,将协同计算过程分成数据层、计算层和通信层三个层次,并且延用DOT模型的矩阵来形式化描述计算和通信行为。通过扩展p-DOT模型描述节点内和节点间的协同计算行为,细化了负载均衡的参数并证明时间成本函数,最后用典型计算作业验证模型及参数分析的有效性。该协同计算模型可成为揭示大数据分析处理中协同计算行为的工具。 展开更多
关键词 协同计算模型 计算模式 大数据处理 gpu异构集群
在线阅读 下载PDF
CPU/GPU系统负载均衡的可分负载调度 被引量:2
16
作者 彭江泉 钟诚 《计算机工程与设计》 CSCD 北大核心 2013年第11期3916-3923,共8页
针对具有多个片上多核处理器CMP和多个GPU的异构系统,综合考虑多核CPU和GPU的不同计算能力、各级缓存不同容量、CPU和GPU之间通信代价以及GPU内部结构等因素,采取计算与通信重叠、对任务自动划分、GPU端线程块大小和维度自动设置、多个... 针对具有多个片上多核处理器CMP和多个GPU的异构系统,综合考虑多核CPU和GPU的不同计算能力、各级缓存不同容量、CPU和GPU之间通信代价以及GPU内部结构等因素,采取计算与通信重叠、对任务自动划分、GPU端线程块大小和维度自动设置、多个异步流同时传输的方法,通过切换线程块执行以隐藏访存开销,提出一种均衡CPU和GPU负载、高效的可分负载多轮调度算法。采用计算密集型任务Mandelbrot进行实验测试,测试结果表明,与已有算法相比,该算法的调度性能有明显提升。 展开更多
关键词 cpu gpu异构系统 可分负载 调度算法 协同计算 负载均衡 多级缓存
在线阅读 下载PDF
全局基因调控网络构建CPU/GPU并行算法
17
作者 陈绪伟 钟诚 《小型微型计算机系统》 CSCD 北大核心 2015年第2期234-239,共6页
对基因表达谱分块,使之符合GPU并行计算的线程结构特性,根据GPU线程结构特性设计双层并行模式,并利用纹理缓存实现访存高效;依据CPU二级缓存容量对基本块进一步细分成子块以提高缓存命中率,利用数据预取技术减少访存次数,利用线程绑定... 对基因表达谱分块,使之符合GPU并行计算的线程结构特性,根据GPU线程结构特性设计双层并行模式,并利用纹理缓存实现访存高效;依据CPU二级缓存容量对基本块进一步细分成子块以提高缓存命中率,利用数据预取技术减少访存次数,利用线程绑定技术减少线程在核心之间的迁移;依据多核CPU和GPU的计算能力分配CPU和GPU的基因互信息计算任务以平衡CPU与GPU的计算负载;在设计新的阈值计算算法基础上,设计实现了访存高效的构建全局基因调控网络CPU/GPU并行算法.实验结果表明,与已有算法相比,本文算法加速更明显,并且能够构建更大规模的全局基因调控网络. 展开更多
关键词 全局基因调控网络 cpugpu协同计算 访存高效 并行算法
在线阅读 下载PDF
基于Hadoop的高性能海量数据处理平台研究 被引量:32
18
作者 翟岩龙 罗壮 +1 位作者 杨凯 徐晟晨 《计算机科学》 CSCD 北大核心 2013年第3期100-103,共4页
海量数据高性能计算蕴藏着巨大的应用价值,但是目前云计算体系只具有海量数据处理能力,而不具有足够的高性能计算能力。将具有超强并行计算能力的GPU与云计算相融合,提出了基于CPU/GPU协同的异构高性能云计算体系结构。以开源Hadoop为基... 海量数据高性能计算蕴藏着巨大的应用价值,但是目前云计算体系只具有海量数据处理能力,而不具有足够的高性能计算能力。将具有超强并行计算能力的GPU与云计算相融合,提出了基于CPU/GPU协同的异构高性能云计算体系结构。以开源Hadoop为基础,采用注释码的形式对MapReduce函数中需要并行的部分进行标记。通过定制GPU类加载器,将被标记代码转换为CUDA代码并动态编译运行。该平台将GPU的计算能力融合到MapRe-duce框架中,可高效处理海量数据。 展开更多
关键词 cpu gpu协同计算 HADOOP 海量数据处理 高性能计算
在线阅读 下载PDF
基于GPU的矩阵求逆性能测试和分析 被引量:11
19
作者 刘丽 沈杰 李洪林 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第6期812-817,共6页
在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并... 在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。 展开更多
关键词 图形处理器(gpu) 计算统一设备架构(CUDA) cpu 并行运算 矩阵求逆
在线阅读 下载PDF
ANSYS和Abaqus软件GPU加速性能典型算例测试与分析 被引量:3
20
作者 王惠 郭培卿 陈小龙 《计算机工程与科学》 CSCD 北大核心 2013年第11期105-110,共6页
在高性能计算领域,CPU/GPU异构协同处理技术已经成为快速获得计算结果的有效手段之一。典型结构力学计算软件ANSYS和Abaqus最新版本中加入了CPU/GPU协同处理技术,以进一步提高问题的求解效率。利用NVIDIA公司Tesla系列M2090GPU和上海超... 在高性能计算领域,CPU/GPU异构协同处理技术已经成为快速获得计算结果的有效手段之一。典型结构力学计算软件ANSYS和Abaqus最新版本中加入了CPU/GPU协同处理技术,以进一步提高问题的求解效率。利用NVIDIA公司Tesla系列M2090GPU和上海超级计算中心"蜂鸟"超级计算平台,通过求解典型结构问题,对ANSYS和Abaqus软件在开启GPU加速功能前后对求解效率的影响进行了对比和分析。结果表明,当并行规模低于16核时,GPU加速能够不同程度地减少各类结构问题的求解时间,但加速效果随着并行规模的增加逐渐减弱,多GPU协同求解对加速性能的提高并不明显,在实际应用中,需要结合问题类型以及当前硬件架构选择合适的并行方式和协同处理模式。 展开更多
关键词 cpu gpu 协同处理 加速性能 高性能计算
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部