期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
CPU/GPU协同运算技术在舰载警戒雷达实验室模拟仿真中的应用 被引量:2
1
作者 饶世钧 邢忠臣 洪俊 《实验室研究与探索》 CAS 北大核心 2017年第7期118-121,共4页
针对舰载警戒雷达实验室建设雷达模拟仿真过程中模拟数据计算量大、模拟数据类型多、更新速度快及雷达回波显示难的问题,在分析雷达模拟数据处理特点的基础上,介绍了CPU/GPU协同运算技术的基本情况,提出了CPU/GPU协同运算技术在雷达模... 针对舰载警戒雷达实验室建设雷达模拟仿真过程中模拟数据计算量大、模拟数据类型多、更新速度快及雷达回波显示难的问题,在分析雷达模拟数据处理特点的基础上,介绍了CPU/GPU协同运算技术的基本情况,提出了CPU/GPU协同运算技术在雷达模拟数据生成与回波显示方面的具体应用方法,明确了CPU/GPU协同运算基本流程与各自任务分工,建立了CPU雷达模拟仿真数据组织与生成模型,给出了GPU雷达回波渲染与显示方法,并采用向量元素的遍历查找算法完成雷达回波数据获取和雷达回波纹理数据更新。通过在通用计算机对传统CPU运算和CPU/GPU协同运算两种方法进行仿真,仿真结果证明了这一技术应用的可行性与先进性,这种技术的应用对于提高舰载警戒雷达模拟仿真效率与逼真度有着重要意义。 展开更多
关键词 舰载警戒雷达 cpu/gpu协同运算 回波渲染 模拟仿真 数据处理 回波显示
在线阅读 下载PDF
CPU-GPU协同计算加速ASIFT算法 被引量:6
2
作者 何婷婷 芮建武 温腊 《计算机科学》 CSCD 北大核心 2014年第5期14-19,共6页
ASIFT(Affine-SIFT)是一种具有仿射不变性、尺度不变性的特征提取算法,其被用于图像匹配中,具有较好的匹配效果,但因计算复杂度高而难以运用到实时处理中。在分析ASIFT算法运行耗时分布的基础上,先对SIFT算法进行了GPU优化,通过使用共... ASIFT(Affine-SIFT)是一种具有仿射不变性、尺度不变性的特征提取算法,其被用于图像匹配中,具有较好的匹配效果,但因计算复杂度高而难以运用到实时处理中。在分析ASIFT算法运行耗时分布的基础上,先对SIFT算法进行了GPU优化,通过使用共享内存、合并访存,提高了数据访问效率。之后对ASIFT计算中的其它部分进行GPU优化,形成GASIFT。整个GASIFT计算过程中使用显存池来减少对显存的申请和释放。最后分别在CPU/GPU协同工作的两种方式上进行了尝试。实验表明,CPU负责逻辑计算、GPU负责并行计算的模式最适合于GASIFT计算,在该模式下GASIFT有很好的加速效果,尤其针对大、中图片。对于2048*1536的大图片,GASIFT与标准ASIFT相比加速比可达16倍,与OpenMP优化过的ASIFT相比加速比可达7倍,极大地提高了ASIFT在实时计算中应用的可能性。 展开更多
关键词 特征提取 ASIFT SIFT cpu gpu协同工作
在线阅读 下载PDF
一种CPU-GPU协同计算的三维地形实时渲染算法 被引量:9
3
作者 郭向坤 林浒 +1 位作者 刘继申 王鸿亮 《小型微型计算机系统》 CSCD 北大核心 2018年第4期825-829,共5页
提出一种基于Open CL的CPU-GPU协同计算的大规模地形实时渲染算法,该算法侧重于把批LOD模型的构建从CPU移植到GPU.CPU主要负责把外存中的数据块实时调度到内存中,并把相应的地形块载入GPU中的显存.GPU负责利用Open CL平台并行构建LOD模... 提出一种基于Open CL的CPU-GPU协同计算的大规模地形实时渲染算法,该算法侧重于把批LOD模型的构建从CPU移植到GPU.CPU主要负责把外存中的数据块实时调度到内存中,并把相应的地形块载入GPU中的显存.GPU负责利用Open CL平台并行构建LOD模型.为了避免相邻LOD模型出现裂缝,利用地形块的裂缝检测和删除顶点的方法消除裂缝;为了解决两个LOD层次的转换过程中出现地表突跳现象,采用morphing方法实现地形的平滑过渡.实验结果表明,该算法将大量的几何计算移植到GPU上并行计算,降低了CPU的计算负载,提高了LOD模型的构建效率,加快了场景的渲染速度. 展开更多
关键词 OPENCL cpugpu协同计算 LOD模型 平滑过渡
在线阅读 下载PDF
CPU和GPU协同并行加速多生物序列比对 被引量:5
4
作者 杨春燕 钟诚 《小型微型计算机系统》 CSCD 北大核心 2016年第12期2780-2784,共5页
将主库构建阶段的输入序列分成多个分主库、将主库扩展阶段的主库元素划分成多个计算窗口,使之符合GPU并行计算的线程结构特性,GPU以计算窗口为单位并行计算比对矩阵、并行约减主库及并行扩展比对矩阵,结合库优化思想优化主库构建过程,... 将主库构建阶段的输入序列分成多个分主库、将主库扩展阶段的主库元素划分成多个计算窗口,使之符合GPU并行计算的线程结构特性,GPU以计算窗口为单位并行计算比对矩阵、并行约减主库及并行扩展比对矩阵,结合库优化思想优化主库构建过程,利用阈值cutoff控制主库约减程度,设计实现CPU和多个GPU协同计算并行比对多生物序列的高效可扩展算法OGM SA.实验结果表明,当cutoff≤0.20时,算法OGM SA的比对结果质量与算法G-M SA相同,计算速度是G-M SA算法的近4倍,内存容量需求比G-MSA算法也有所降低. 展开更多
关键词 多生物序列 并行比对 计算窗口 cpugpu协同计算 主库约减
在线阅读 下载PDF
基于GPU和CPU协同并行的三维各向异性介质地震波场正演模拟 被引量:2
5
作者 刘春成 顾汉明 +4 位作者 陈宝书 焦振华 马凯 蔡志成 张立 《地质科技情报》 CSCD 北大核心 2019年第5期240-246,共7页
莺歌海盆地中深部地层具有多套超低速层、异常高压、垂向裂隙发育等特点,使得介质具有各向异性,地震波场特征复杂,正演模拟是研究波场特征和观测系统优化的主要手段之一,而海上震源子频带宽、主频高,要求正演模拟网格剖分小,导致计算量... 莺歌海盆地中深部地层具有多套超低速层、异常高压、垂向裂隙发育等特点,使得介质具有各向异性,地震波场特征复杂,正演模拟是研究波场特征和观测系统优化的主要手段之一,而海上震源子频带宽、主频高,要求正演模拟网格剖分小,导致计算量大。为此,发展了基于GPU和CPU协同并行的海上三维各向异性介质正演模拟方法,通过将模型分割并分配到不同进程上和任意选择并行计算的方向和每个方向上并行计算的进程个数,不仅可以减小每个进程上内存消耗,而且减少计算时间。简单3D模型的正演模拟验证了该方法可极大地提高计算效率,复杂构造各向异性介质模型中的模拟炮集记录的偏移成像结果验证了方法的可靠性,可适用于任意各向异性介质地震波场正演模拟。 展开更多
关键词 三维各向异性介质 波动方程正演模拟 gpucpu协同并行
在线阅读 下载PDF
基于GPU/CPU叠前逆时偏移研究及应用 被引量:14
6
作者 刘文卿 王宇超 +4 位作者 雍学善 王孝 邵喜春 高厚强 刘秋良 《石油地球物理勘探》 EI CSCD 北大核心 2012年第5期712-716,844+676,共5页
本文基于GPU/CPU协同系统,将计算量最大的波场逆时外推通过GPU实现,并利用随机速度边界的思路提高波场外推算法的并行性,解决了大规模存储的I/O问题。通过优化拉普拉斯算子压制由互相关成像条件引入的低频噪声。数值试验表明,GPU/CPU协... 本文基于GPU/CPU协同系统,将计算量最大的波场逆时外推通过GPU实现,并利用随机速度边界的思路提高波场外推算法的并行性,解决了大规模存储的I/O问题。通过优化拉普拉斯算子压制由互相关成像条件引入的低频噪声。数值试验表明,GPU/CPU协同系统的计算效率非常高,在实际应用中取得良好的成像效果和时效比。理论模型试算和实际盐丘数据的处理验证了算法的正确性。 展开更多
关键词 逆时偏移 波动方程 成像条件 gpu/cpu协同计算 随机速度边界
在线阅读 下载PDF
CPU/GPU系统负载均衡的可分负载调度 被引量:2
7
作者 彭江泉 钟诚 《计算机工程与设计》 CSCD 北大核心 2013年第11期3916-3923,共8页
针对具有多个片上多核处理器CMP和多个GPU的异构系统,综合考虑多核CPU和GPU的不同计算能力、各级缓存不同容量、CPU和GPU之间通信代价以及GPU内部结构等因素,采取计算与通信重叠、对任务自动划分、GPU端线程块大小和维度自动设置、多个... 针对具有多个片上多核处理器CMP和多个GPU的异构系统,综合考虑多核CPU和GPU的不同计算能力、各级缓存不同容量、CPU和GPU之间通信代价以及GPU内部结构等因素,采取计算与通信重叠、对任务自动划分、GPU端线程块大小和维度自动设置、多个异步流同时传输的方法,通过切换线程块执行以隐藏访存开销,提出一种均衡CPU和GPU负载、高效的可分负载多轮调度算法。采用计算密集型任务Mandelbrot进行实验测试,测试结果表明,与已有算法相比,该算法的调度性能有明显提升。 展开更多
关键词 cpu gpu异构系统 可分负载 调度算法 协同计算 负载均衡 多级缓存
在线阅读 下载PDF
全局基因调控网络构建CPU/GPU并行算法
8
作者 陈绪伟 钟诚 《小型微型计算机系统》 CSCD 北大核心 2015年第2期234-239,共6页
对基因表达谱分块,使之符合GPU并行计算的线程结构特性,根据GPU线程结构特性设计双层并行模式,并利用纹理缓存实现访存高效;依据CPU二级缓存容量对基本块进一步细分成子块以提高缓存命中率,利用数据预取技术减少访存次数,利用线程绑定... 对基因表达谱分块,使之符合GPU并行计算的线程结构特性,根据GPU线程结构特性设计双层并行模式,并利用纹理缓存实现访存高效;依据CPU二级缓存容量对基本块进一步细分成子块以提高缓存命中率,利用数据预取技术减少访存次数,利用线程绑定技术减少线程在核心之间的迁移;依据多核CPU和GPU的计算能力分配CPU和GPU的基因互信息计算任务以平衡CPU与GPU的计算负载;在设计新的阈值计算算法基础上,设计实现了访存高效的构建全局基因调控网络CPU/GPU并行算法.实验结果表明,与已有算法相比,本文算法加速更明显,并且能够构建更大规模的全局基因调控网络. 展开更多
关键词 全局基因调控网络 cpugpu协同计算 访存高效 并行算法
在线阅读 下载PDF
CPU被淘汰?GPU未来将用于通用计算处理
9
《系统工程与电子技术》 EI CSCD 北大核心 2007年第6期949-949,共1页
关键词 gpu cpu NVIDIA 计算 通用 运算能力 X86架构 价格比
在线阅读 下载PDF
基于GPU的矩阵求逆性能测试和分析 被引量:11
10
作者 刘丽 沈杰 李洪林 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第6期812-817,共6页
在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并... 在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。 展开更多
关键词 图形处理器(gpu) 计算统一设备架构(CUDA) cpu 并行运算 矩阵求逆
在线阅读 下载PDF
ANSYS和Abaqus软件GPU加速性能典型算例测试与分析 被引量:3
11
作者 王惠 郭培卿 陈小龙 《计算机工程与科学》 CSCD 北大核心 2013年第11期105-110,共6页
在高性能计算领域,CPU/GPU异构协同处理技术已经成为快速获得计算结果的有效手段之一。典型结构力学计算软件ANSYS和Abaqus最新版本中加入了CPU/GPU协同处理技术,以进一步提高问题的求解效率。利用NVIDIA公司Tesla系列M2090GPU和上海超... 在高性能计算领域,CPU/GPU异构协同处理技术已经成为快速获得计算结果的有效手段之一。典型结构力学计算软件ANSYS和Abaqus最新版本中加入了CPU/GPU协同处理技术,以进一步提高问题的求解效率。利用NVIDIA公司Tesla系列M2090GPU和上海超级计算中心"蜂鸟"超级计算平台,通过求解典型结构问题,对ANSYS和Abaqus软件在开启GPU加速功能前后对求解效率的影响进行了对比和分析。结果表明,当并行规模低于16核时,GPU加速能够不同程度地减少各类结构问题的求解时间,但加速效果随着并行规模的增加逐渐减弱,多GPU协同求解对加速性能的提高并不明显,在实际应用中,需要结合问题类型以及当前硬件架构选择合适的并行方式和协同处理模式。 展开更多
关键词 cpu gpu 协同处理 加速性能 高性能计算
在线阅读 下载PDF
盐下构造速度建模与逆时偏移成像研究及应用 被引量:30
12
作者 刘文卿 王西文 +4 位作者 刘洪 王宇超 王孝 曾华会 邵喜春 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2013年第2期616-625,共10页
盐丘速度建模及成像是盐下油气藏勘探有关技术瓶颈问题.盐下构造由于盐丘速度与围岩地层差异大,且厚度横向变化大,造成地震波场复杂及时间域构造畸变.针对H区复杂盐丘的地质特征,通过技术创新重新认识盐下油气藏.针对盐丘速度建模的难点... 盐丘速度建模及成像是盐下油气藏勘探有关技术瓶颈问题.盐下构造由于盐丘速度与围岩地层差异大,且厚度横向变化大,造成地震波场复杂及时间域构造畸变.针对H区复杂盐丘的地质特征,通过技术创新重新认识盐下油气藏.针对盐丘速度建模的难点,提出了"多信息约束层控实体建模技术",采用序贯高斯模拟及克里金趋势约束速度反演方法,较好解决了盐下速度异常问题,大大提高了速度建模的精度;针对盐下复杂构造成像,基于有限差分方法研究了精确且高效的差分格式逆时波场外推算法.基于GPU/CPU协同平台,将波场延拓通过GPU实现.采用逆时偏移深度域成像技术,使高角度反射界面、甚至超过90°盐丘侧翼界面的反射波精确成像.通过盐丘理论模型试算验证算法及方法的正确性.上述方法解决了盐丘速度建模精度问题、盐丘侧翼的回转构造成像问题,实现了对盐丘边界及盐丘侧翼的准确归位.消除了速度异常造成的时间域构造畸变,使盐下地层在深度域能够准确成像. 展开更多
关键词 盐丘 层控建模 多信息约束 逆时偏移 波动方程 gpu cpu协同计算
在线阅读 下载PDF
基于Hadoop的高性能海量数据处理平台研究 被引量:32
13
作者 翟岩龙 罗壮 +1 位作者 杨凯 徐晟晨 《计算机科学》 CSCD 北大核心 2013年第3期100-103,共4页
海量数据高性能计算蕴藏着巨大的应用价值,但是目前云计算体系只具有海量数据处理能力,而不具有足够的高性能计算能力。将具有超强并行计算能力的GPU与云计算相融合,提出了基于CPU/GPU协同的异构高性能云计算体系结构。以开源Hadoop为基... 海量数据高性能计算蕴藏着巨大的应用价值,但是目前云计算体系只具有海量数据处理能力,而不具有足够的高性能计算能力。将具有超强并行计算能力的GPU与云计算相融合,提出了基于CPU/GPU协同的异构高性能云计算体系结构。以开源Hadoop为基础,采用注释码的形式对MapReduce函数中需要并行的部分进行标记。通过定制GPU类加载器,将被标记代码转换为CUDA代码并动态编译运行。该平台将GPU的计算能力融合到MapRe-duce框架中,可高效处理海量数据。 展开更多
关键词 cpu gpu协同计算 HADOOP 海量数据处理 高性能计算
在线阅读 下载PDF
光滑粒子流体动力学方法的高效异构加速 被引量:5
14
作者 王迎瑞 黎雷生 +1 位作者 王景焘 田荣 《计算机学报》 EI CSCD 北大核心 2017年第9期2040-2056,共17页
目前,光滑粒子流体动力学方法的GPU加速几乎都是基于简化的Euler控制方程,完整的Navier-Stokes方程的GPU实现非常少,且对其困难、优化策略、加速效果的描述较为模糊.另一方面,CPU-GPU协同方式深刻影响着异构平台的整体效率,GPU加速模型... 目前,光滑粒子流体动力学方法的GPU加速几乎都是基于简化的Euler控制方程,完整的Navier-Stokes方程的GPU实现非常少,且对其困难、优化策略、加速效果的描述较为模糊.另一方面,CPU-GPU协同方式深刻影响着异构平台的整体效率,GPU加速模型还有待进一步探讨.文中的目的是将自主开发的、基于Navier-Stokes方程的SPH应用程序petaPar在异构平台上进行高效加速.文中首先从数学公式的角度分析了Euler方程和NavierStokes方程的计算特征,并总结了Navier-Stokes方程在GPU加速中面临的困难.由于Euler方程只含有简单的标量和向量计算,是典型的适合GPU的计算密集轻量级kernel;而完整形式的Navier-Stokes方程涉及复杂的材料本构和大量张量计算,需要面对GPU上大kernel带来的系列问题,如访存压力、cache不足、低占用率、寄存器溢出等.文中通过减少粒子属性、提取操作到粒子更新、利用粒子的重用度、最大化GPU占用率等策略对Navier-Stokes方程的粒子交互kernel进行优化,具体实现见5.1节.同时,文中调研了三种GPU加速模型:热点加速、全GPU加速以及对等协同,分析了其开发投入、应用范围、理论加速比等,并深入探讨了对等协同模型的通信优化策略.由于通信粒子的不连续分布,GPU端通信粒子的抽取、插入、删除等操作本质上是对不连续内存的并行操作,会严重影响CPU-GPU的同步效果,而相关文献对此问题没有阐述.我们通过改进粒子索引规则解决此问题:粒子排序时不仅考虑网格编号,还要考虑网格类型,具体实现见5.2.3节.基于Euler方程和Navier-Stokes方程实现并分析了三种GPU加速模型.测试结果显示,三种模型下,Euler方程分别获得了8倍、33倍、36倍的加速,Navier-Stokes方程分别获得了6倍、15倍、20倍的加速.全GPU加速均突破了热点加速的加速比理论上限,对等协同比之全GPU加速又可以获得进一步提高.特别是对于Navier-Stokes方程,采用文中的kernel优化策略及对等协同模型,最终在异构平台上实现了20倍的整体加速.针对Navier-Stokes方程的对等协同版本这一应用范围最广、加速效果最好的实现,在Titan超级计算机的6个和1024个异构计算节点上进行了强、弱可扩展性测试,分别获得了67.1%和75.2%的并行效率. 展开更多
关键词 cpugpu耦合计算 热点加速 gpu加速 对等协同 粒子模拟 光滑粒子流体动力学 petaPar
在线阅读 下载PDF
基于CUDA的二值图像连通体标记算法 被引量:3
15
作者 赵永涛 陈庆奎 +1 位作者 姬丽娜 刘伯成 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2017年第1期72-78,共7页
为了对二值图像中连通体的标记进行加速,提出一种基于CUDA的二值图像连通体标记算法.首先为每个非零元素赋予初始标号,再将标号修改为8邻域内最小标号来完成初始标记;然后根据结构元素匹配法找到标号矩阵中同一连通体有可能出现不同根... 为了对二值图像中连通体的标记进行加速,提出一种基于CUDA的二值图像连通体标记算法.首先为每个非零元素赋予初始标号,再将标号修改为8邻域内最小标号来完成初始标记;然后根据结构元素匹配法找到标号矩阵中同一连通体有可能出现不同根标号的位置,使用原子操作对根标号进行合并,通过CPU与GPU的协同工作来判断合并程度并进行循环修改;最后对所有标号使用回溯法进行一次性修改,实现复杂形状的连通体标记.实验结果表明,该算法较已有的算法减少了全局内存的读写次数和处理线程数量,加快了处理速度. 展开更多
关键词 连通体标记 CUDA 二值图像 结构元素匹配 cpu/gpu协同
在线阅读 下载PDF
高频地波雷达实时信号并行处理方案及实现 被引量:2
16
作者 牛炯 申晋晋 陈倩 《中国海洋大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第2期56-61,共6页
近些年,随着高频地波雷达技术的发展,大量的遥感数据给实时信号处理带来了巨大的挑战。高频地波雷达信号处理机的主流设计方案通常采用DSP+FPGA技术或基于高性能CPU技术来实现信号的实时处理,但DSP+FPGA方案中系统的软硬件耦合较为紧密... 近些年,随着高频地波雷达技术的发展,大量的遥感数据给实时信号处理带来了巨大的挑战。高频地波雷达信号处理机的主流设计方案通常采用DSP+FPGA技术或基于高性能CPU技术来实现信号的实时处理,但DSP+FPGA方案中系统的软硬件耦合较为紧密,开发周期长且不易维护,而高性能CPU技术对计算机性能要求较高,大大增加了硬件成本。在保证信号实时处理的前提下,为了缩短开发周期,提高系统的可维护性和降低开发成本,本文基于CPU+GPU架构设计了的信号处理方案,实现了高频地波雷达实时信号处理的基本流程,获取了目标的距离信息和速度信息。实验结果表明,本文提出的CPU+GPU架构下的信号处理方案与同期中央处理器(CPU)运算平台相比,具有10倍以上的加速比,验证了方案的可行性。 展开更多
关键词 cpu+gpu 高频地波雷达 实时信号处理 协同工作
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部