期刊文献+
共找到664篇文章
< 1 2 34 >
每页显示 20 50 100
基于CPU-GPU协同的迭代物理光学并行算法研究
1
作者 曹倩 周远国 +1 位作者 任强 王焱 《电波科学学报》 北大核心 2025年第3期427-438,共12页
随着雷达技术与无人驾驶的结合,电磁仿真在无人驾驶领域得到了广泛应用。当利用迭代物理光学(iterative physical optics,IPO)法求解电大散射体雷达散射截面(radar cross section,RCS)时,未知量数目比较大,导致占用内存和计算耗时非常... 随着雷达技术与无人驾驶的结合,电磁仿真在无人驾驶领域得到了广泛应用。当利用迭代物理光学(iterative physical optics,IPO)法求解电大散射体雷达散射截面(radar cross section,RCS)时,未知量数目比较大,导致占用内存和计算耗时非常大。为解决该问题,本文引入参数空间技术优化IPO算法,提高了电大尺寸RCS的计算效率,并引入计算统一设备架构(compute unified device architecture,CUDA)技术,在中央处理器(central processing unit,CPU)与图形处理器(graphics processing unit,GPU)协同平台上实现了电大尺寸目标RCS的并行计算。与商业软件FEKO比对,在NVIDIA GeForce RTX 3050显卡上获得了224.35的加速比。实例结果展示了基于CPU-GPU协同的IPO算法并行计算的可行性与高效性,可以用来解决目前只能在高性能计算机或计算机集群上解决的电大尺寸目标散射问题。 展开更多
关键词 迭代物理光学法(IPO) 参数空间技术 cpu-gpu协同 并行加速 雷达散射截面(RCS)
在线阅读 下载PDF
面向多核CPU与GPU平台的图处理系统关键技术综述 被引量:2
2
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核cpugpu平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
在线阅读 下载PDF
基于GPU并行计算的拓扑优化全流程加速设计方法
3
作者 张长东 吴奕凡 +3 位作者 周铉华 李旭东 肖息 张自来 《航空制造技术》 北大核心 2025年第12期34-41,67,共9页
随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、... 随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、刚度矩阵计算与组装、有限元求解等过程进行了并行加速,实现了高效高精度的体素网格划分及有限元过程的高效求解。此外,该方法针对拓扑优化设计过程的加速需求,对灵敏度过滤过程进行了并行加速处理。以300万体素单元的姿态推力器模型为设计对象,发现相比于Abaqus 2022软件的拓扑优化并行加速计算,本文所提方法的加速比提高了1259%,且两种方法的相似度极高,验证了所提方法的有效性与实用性。 展开更多
关键词 拓扑优化 并行计算 gpu加速 符号距离场 稀疏矩阵 网格划分
在线阅读 下载PDF
基于CPU+GPU混合架构的雷达信号处理方法 被引量:2
4
作者 常艳 何涛 朱占宇 《火力与指挥控制》 CSCD 北大核心 2024年第7期80-85,90,共7页
针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积... 针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积累、目标检测、目标检测后处理及解模糊过程,将对应处理映射到CPU+GPU核心以提高加速比。实验结果表明,相比多核DSP信号处理方法,该方法具有更好的性能。 展开更多
关键词 cpu+gpu 混合架构 信号处理 多核DSP
在线阅读 下载PDF
基于ROACH2-GPU的集群相关器研究——Hashpipe软件在X-engine模块中的应用
5
作者 张科 王钊 +6 位作者 李吉夏 吴锋泉 田海俊 牛晨辉 张巨勇 陈志平 陈学雷 《贵州师范大学学报(自然科学版)》 北大核心 2025年第2期114-121,共8页
随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时... 随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时关联计算的需求,利用GPU在高性能并行计算上的优势,为天籁柱形探路者阵列设计并实现一套基于ROACH2-GPU的集群相关器,深入探究Hashpipe(High availibility shared pipeline engine)软件在集群相关器X-engine模块中的应用。首先介绍ROACH2-GPU集群相关器的整体架构,然后研究Hashpipe的核心功能和数据处理方法,实现了完整的分布式异构处理功能,优化了Hashpipe控制和参数接口。根据实际观测需求,可修改程序参数,能实现不同通道数量的相关器配置,降低后端软硬件设计的难度和成本。最后,在完成软件正确性测试的基础上,进行了强射电天文源的观测和处理,能够获得准确的干涉条纹。 展开更多
关键词 ROACH2-gpu Hashpipe 集群相关器 X-engine模块 并行计算
在线阅读 下载PDF
基于国产GPU的国产公钥密码SM2高性能并行加速方法
6
作者 吴雯 董建阔 +4 位作者 刘鹏博 董振江 胡昕 张品昌 肖甫 《通信学报》 北大核心 2025年第5期15-28,共14页
为了满足国家信息安全自主可控的战略需求,确保算法的透明性和安全性,提出基于国产GPU的国产公钥密码SM2数字签名算法的高性能并行加速方法。首先,设计适用于域运算的底层函数,优化有限域运算的效率,约减采用2轮进位消解以抵御计时攻击... 为了满足国家信息安全自主可控的战略需求,确保算法的透明性和安全性,提出基于国产GPU的国产公钥密码SM2数字签名算法的高性能并行加速方法。首先,设计适用于域运算的底层函数,优化有限域运算的效率,约减采用2轮进位消解以抵御计时攻击。其次,基于雅可比(Jacobian)坐标实现点加和倍点运算,充分利用寄存器和全局内存的特性,设计离线/在线预计算表以提高点乘计算效率。最后,根据海光深度计算单元(DCU)的特点进行实验设计,实现高性能的SM2签名和验签算法,分别达到6816kops/s的签名吞吐量和1385kops/s的验签吞吐量。研究验证了基于国产GPU的国产公钥密码SM2数字签名算法的可行性和有效性,为国内信息安全自主可控领域提供了重要的技术支持。 展开更多
关键词 国家商用密码 数字签名 图形处理器 异构计算
在线阅读 下载PDF
复杂地质条件的间断有限元地震波数值模拟及GPU加速
7
作者 韩德超 刘卫华 +2 位作者 张春丽 袁媛 白鹏 《石油物探》 北大核心 2025年第4期639-652,共14页
间断Galerkin有限元方法(DGFEM)是一种具有较高模拟精度的有限元方法,但其算法编程难度大,其针对各类复杂介质的波动方程的算法目前未见统一的计算格式。为此,基于三角形非结构化网格以及局部Lax-Friedrichs数值流,构建了针对复杂介质... 间断Galerkin有限元方法(DGFEM)是一种具有较高模拟精度的有限元方法,但其算法编程难度大,其针对各类复杂介质的波动方程的算法目前未见统一的计算格式。为此,基于三角形非结构化网格以及局部Lax-Friedrichs数值流,构建了针对复杂介质波动方程模拟的DGFEM编程计算矩阵,并进一步得出了适用于各类复杂介质模拟的单一波场分量的通用计算格式。该通用计算格式能够有效提升DGFEM算法编程的可拓展性。基于该格式给出了DGFEM的通用CUDA核函数的构建方法,并形成CPU+GPU的二维DGFEM并行计算程序框架。通用CUDA核函数可以将DGFEM算法进一步延伸到更加复杂的介质以及三维情况。理论模型和复杂山地模型的数值实验结果表明,构建的通用计算格式和CUDA核函数可以准确模拟声波、弹性波、粘弹性波、孔隙弹性波方程描述的纵波、横波以及慢纵波等波现象。相比单核CPU模拟,二维DGFEM弹性波GPU计算加速比平均在100倍左右。同时,弹性波、粘弹性波、孔隙弹性波模拟耗时约为声波模拟的1.7,2.3,3.0倍。此结果可以指导复杂介质耦合条件模拟时多进程的负载平衡。 展开更多
关键词 间断Galerkin有限元方法 弹性波 粘弹性波 孔隙弹性波 数值模拟 gpu并行计算.
在线阅读 下载PDF
基于Vulkan的电大复杂目标电磁散射SBR计算方法与GPU加速技术
8
作者 王思凡 吴扬 +5 位作者 贾浩文 胡志明 申子昂 徐若锋 梁达 赵雷 《电波科学学报》 北大核心 2025年第3期457-463,共7页
提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令... 提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令缓冲机制,使得CPU与GPU能够高效协同工作,从而加速多角度扫描任务的执行;在虚拟孔径面上划分互不干扰的子任务,进一步提升了多GPU并行的利用效率。实验结果表明:所提出方法在计算电大复杂目标雷达散射截面时相较于FEKO RL-GO方法实现了40倍以上的加速;双命令缓冲机制提升了约42%的多角度扫描速度;双GPU计算并行效率超过90%。 展开更多
关键词 雷达散射截面(RCS) 弹跳射线(SBR)法 光线追踪 gpu加速计算 电大复杂目标
在线阅读 下载PDF
基于GPU/CPU叠前逆时偏移研究及应用 被引量:14
9
作者 刘文卿 王宇超 +4 位作者 雍学善 王孝 邵喜春 高厚强 刘秋良 《石油地球物理勘探》 EI CSCD 北大核心 2012年第5期712-716,844+676,共5页
本文基于GPU/CPU协同系统,将计算量最大的波场逆时外推通过GPU实现,并利用随机速度边界的思路提高波场外推算法的并行性,解决了大规模存储的I/O问题。通过优化拉普拉斯算子压制由互相关成像条件引入的低频噪声。数值试验表明,GPU/CPU协... 本文基于GPU/CPU协同系统,将计算量最大的波场逆时外推通过GPU实现,并利用随机速度边界的思路提高波场外推算法的并行性,解决了大规模存储的I/O问题。通过优化拉普拉斯算子压制由互相关成像条件引入的低频噪声。数值试验表明,GPU/CPU协同系统的计算效率非常高,在实际应用中取得良好的成像效果和时效比。理论模型试算和实际盐丘数据的处理验证了算法的正确性。 展开更多
关键词 逆时偏移 波动方程 成像条件 gpu/cpu协同计算 随机速度边界
在线阅读 下载PDF
基于CPU/GPU异构平台的全波形反演及其实用化分析 被引量:12
10
作者 张猛 王华忠 +3 位作者 任浩然 冯波 隋志强 王延光 《石油物探》 EI CSCD 北大核心 2014年第4期461-467,共7页
全波形反演(Full Waveform Inversion,FWI)在理论上是当前精度最高的速度估计方法。通过分析FWI的计算特点,使用图形处理器(Graphic Processing Unit,简称GPU)进行算法加速,形成了基于CPU/GPU异构平台的时空域声波方程全波形反演算法实... 全波形反演(Full Waveform Inversion,FWI)在理论上是当前精度最高的速度估计方法。通过分析FWI的计算特点,使用图形处理器(Graphic Processing Unit,简称GPU)进行算法加速,形成了基于CPU/GPU异构平台的时空域声波方程全波形反演算法实现流程。理论模型测试结果表明,该算法不仅对速度模型具有高精度刻画能力,而且计算效率比基于CPU集群的FWI算法大幅提升。对胜利探区某陆上区块实际地震资料进行全波形速度反演试处理,取得了初步的应用效果。在此基础上,讨论了FWI对实际地震资料质量的要求,就FWI在陆上地震资料的生产性应用提出了相应的策略。 展开更多
关键词 地震反问题 全波形反演 速度估计 cpu gpu异构平台 陆上地震资料
在线阅读 下载PDF
基于CPU/GPU异构模式的高光谱遥感影像数据处理研究与实现 被引量:6
11
作者 汤媛媛 周海芳 +1 位作者 方民权 申小龙 《计算机科学》 CSCD 北大核心 2016年第2期47-50,77,共5页
近年来,基于GPU的新型异构高性能计算模式的蓬勃发展为众多领域应用提供了良好的发展机遇,国内外遥感专家开始引入高性能异构计算来解决高光谱遥感影像高维空间特点所带来的数据计算量大、实时处理难等问题。在此简要介绍了高光谱遥感和... 近年来,基于GPU的新型异构高性能计算模式的蓬勃发展为众多领域应用提供了良好的发展机遇,国内外遥感专家开始引入高性能异构计算来解决高光谱遥感影像高维空间特点所带来的数据计算量大、实时处理难等问题。在此简要介绍了高光谱遥感和CPU/GPU异构计算模式,总结了近几年国内外基于CPU/GPU异构模式的高光谱遥感数据处理研究现状和问题;并面向共享存储型小型桌面超级计算机,基于CPU/GPU异构模式实现了高光谱遥感影像MNF降维的并行化,通过与串行程序和共享存储的OpenMP同构模式对比,验证了异构模式在高光谱遥感处理领域的发展潜力。 展开更多
关键词 高光谱遥感 cpu/gpu OPENMP MNF
在线阅读 下载PDF
基于GPU/CPU和震源随机编码技术的混合域全波形反演 被引量:5
12
作者 冯海新 刘洪 +2 位作者 孙军 胡婷 刘志伟 《石油物探》 EI CSCD 北大核心 2017年第1期107-115,共9页
传统的全波形反演利用普通炮集进行反演,反演计算量过大;且利用传统的相位编码技术进行全波形反演,会产生炮间串扰问题,因此,提出了基于GPU/CPU和震源随机编码技术的混合域全波形反演。该方法将参与反演的多个炮集随机组合并分成炮集数... 传统的全波形反演利用普通炮集进行反演,反演计算量过大;且利用传统的相位编码技术进行全波形反演,会产生炮间串扰问题,因此,提出了基于GPU/CPU和震源随机编码技术的混合域全波形反演。该方法将参与反演的多个炮集随机组合并分成炮集数相同的组,各组炮集叠加形成多个组合炮集,然后将组合炮集代替普通炮集进行反演。与传统的相位编码反演方法相比,震源随机编码技术在反演效率和收敛速度方面均有优势,且减少了炮间串扰噪声;并且在GPU的加速下,计算效率会再次提升。Marmousi模型数据测试结果表明:组合炮集方法得到了与普通炮集方法相同的反演效果,但计算效率却比普通炮集方法明显提高,且相较于传统的相位编码技术,组合炮集方法有效抑制了串扰噪声。 展开更多
关键词 混合域 全波形反演 gpu/cpu 组合炮集 震源随机编码
在线阅读 下载PDF
CPU/GPU异构混合并行的栅格数据空间分析研究——以地形因子计算为例 被引量:9
13
作者 卢敏 王金茵 +2 位作者 卢刚 陶伟东 王结臣 《计算机工程与应用》 CSCD 北大核心 2017年第1期172-177,共6页
海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的... 海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的设备间任务划分,进行CPU与GPU异构混合的并行技术改良研究。实验结果表明,基于相同的单机硬件环境,与多核共享内存模型或众核流处理器的单一计算平台并行方案相比,CPU/GPU异构混合并行计算方法对于栅格数据分析具有更好的加速效果。 展开更多
关键词 GIS栅格数据分析 共享内存模型 流处理器模型 cpu/gpu异构混合并行
在线阅读 下载PDF
CPU/GPU协同并行计算研究综述 被引量:97
14
作者 卢风顺 宋君强 +1 位作者 银福康 张理论 《计算机科学》 CSCD 北大核心 2011年第3期5-9,46,共6页
CPU/GPU异构混合并行系统以其强劲计算能力、高性价比和低能耗等特点成为新型高性能计算平台,但其复杂体系结构为并行计算研究提出了巨大挑战。CPU/GPU协同并行计算属于新兴研究领域,是一个开放的课题。根据所用计算资源的规模将CPU/GP... CPU/GPU异构混合并行系统以其强劲计算能力、高性价比和低能耗等特点成为新型高性能计算平台,但其复杂体系结构为并行计算研究提出了巨大挑战。CPU/GPU协同并行计算属于新兴研究领域,是一个开放的课题。根据所用计算资源的规模将CPU/GPU协同并行计算研究划分为三类,尔后从立项依据、研究内容和研究方法等方面重点介绍了几个混合计算项目,并指出了可进一步研究的方向,以期为领域科学家进行协同并行计算研究提供一定参考。 展开更多
关键词 异构混合 协同并行计算 gpu计算 性能优化 可扩展
在线阅读 下载PDF
CPU-GPU协同计算加速ASIFT算法 被引量:6
15
作者 何婷婷 芮建武 温腊 《计算机科学》 CSCD 北大核心 2014年第5期14-19,共6页
ASIFT(Affine-SIFT)是一种具有仿射不变性、尺度不变性的特征提取算法,其被用于图像匹配中,具有较好的匹配效果,但因计算复杂度高而难以运用到实时处理中。在分析ASIFT算法运行耗时分布的基础上,先对SIFT算法进行了GPU优化,通过使用共... ASIFT(Affine-SIFT)是一种具有仿射不变性、尺度不变性的特征提取算法,其被用于图像匹配中,具有较好的匹配效果,但因计算复杂度高而难以运用到实时处理中。在分析ASIFT算法运行耗时分布的基础上,先对SIFT算法进行了GPU优化,通过使用共享内存、合并访存,提高了数据访问效率。之后对ASIFT计算中的其它部分进行GPU优化,形成GASIFT。整个GASIFT计算过程中使用显存池来减少对显存的申请和释放。最后分别在CPU/GPU协同工作的两种方式上进行了尝试。实验表明,CPU负责逻辑计算、GPU负责并行计算的模式最适合于GASIFT计算,在该模式下GASIFT有很好的加速效果,尤其针对大、中图片。对于2048*1536的大图片,GASIFT与标准ASIFT相比加速比可达16倍,与OpenMP优化过的ASIFT相比加速比可达7倍,极大地提高了ASIFT在实时计算中应用的可能性。 展开更多
关键词 特征提取 ASIFT SIFT cpu gpu协同工作
在线阅读 下载PDF
地震叠前逆时偏移算法的CPU/GPU实施对策 被引量:83
16
作者 李博 刘红伟 +4 位作者 刘国峰 佟小龙 刘洪 郭建 裴江云 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2010年第12期2938-2943,共6页
相较于单程波偏移算法而言,逆时偏移成像方法以其物理基础为依托优势,几十年来一直备受国内外地球物理学家的青睐.目前的逆时偏移(RTM)若直接采用双程波动方程进行延拓,尽管可以回避上下行波的分离处理,然就已有算法而言,其计算量和I/O... 相较于单程波偏移算法而言,逆时偏移成像方法以其物理基础为依托优势,几十年来一直备受国内外地球物理学家的青睐.目前的逆时偏移(RTM)若直接采用双程波动方程进行延拓,尽管可以回避上下行波的分离处理,然就已有算法而言,其计算量和I/O(输入/输出)量却是最大的.针对此问题,本文在分析现行逆时偏移的多种算法基础上,提出利用CPU/GPU(中央处理器/图形处理器)作为数值计算核心,建立随机边界模型,从而克服存储I/O难题和提高计算效率.在实际的数据测试中,本文的方法可以大幅度的提高计算效率和减少存储单元,从而促使其高效地应用于生产实际. 展开更多
关键词 逆时偏移 波动方程 随机边界 中央处理器 图形处理器
在线阅读 下载PDF
CPU-GPU系统中基于剖分的全局性能优化方法 被引量:10
17
作者 张保 董小社 +3 位作者 白秀秀 曹海军 刘超 梅一多 《西安交通大学学报》 EI CAS CSCD 北大核心 2012年第2期17-23,共7页
针对将应用移植到CPU-GPU异构并行系统上时优化策略各自分散、没有一个全局的指导思想的问题,提出了一种基于剖分的全局性能优化方法.该方法由优化策略库、剖分工具库和策略配置模块组成.优化策略库将应用移植到异构并行系统上的性能优... 针对将应用移植到CPU-GPU异构并行系统上时优化策略各自分散、没有一个全局的指导思想的问题,提出了一种基于剖分的全局性能优化方法.该方法由优化策略库、剖分工具库和策略配置模块组成.优化策略库将应用移植到异构并行系统上的性能优化过程划分为访存级、内核加速级和数据划分级3级优化;针对3级优化剖分工具库提供了3级剖分机制,通过运行时的剖分技术获取剖分信息;策略配置模块根据所获取的信息指导用户在每级优化中选择合适的优化策略.实验证明,基于剖分的全局性能优化方法可以明确地指导将应用移植到CPU-GPU异构并行系统上的全局优化过程,利用该优化方法后,以矩阵相乘和傅里叶变换为例的应用性能提升明显,最终性能相对于访存级优化最高可提高30%左右. 展开更多
关键词 cpu-gpu异构并行系统 全局优化 3级优化 3级剖分
在线阅读 下载PDF
基于GPU与CPU协作的实时波束形成实现方法 被引量:1
18
作者 李晓敏 侯朝焕 +1 位作者 鄢社锋 杨力 《计算机应用研究》 CSCD 北大核心 2011年第4期1333-1335,1359,共4页
采用基于CUDA(compute unified device architecture,统一计算设备架构)的GPU(graphic processing unit,图形处理器)与CPU协作处理方法,实现了宽带波束形成的实时处理。本方法的处理速度相较于MATLAB和CPU平台可以提高一至两个数量级,... 采用基于CUDA(compute unified device architecture,统一计算设备架构)的GPU(graphic processing unit,图形处理器)与CPU协作处理方法,实现了宽带波束形成的实时处理。本方法的处理速度相较于MATLAB和CPU平台可以提高一至两个数量级,相较于同等处理速度的多DSP平台则体现了开发周期短、费用低、工作量小和可靠性高等众多优势。 展开更多
关键词 gpu cpu CUDA 宽带 波束形成 实时处理
在线阅读 下载PDF
CPU-GPU混合平台上动态场景光线跟踪的研究 被引量:5
19
作者 张健 焦良葆 陈瑞 《计算机工程与应用》 CSCD 2012年第21期151-154,159,共5页
提出了一种动态场景光线跟踪新方法,能有效地调度CPU和GPU的运行,提高渲染速度。根据加速结构kd-tree的特点,将其分成上层部分和下层部分,上层部分由于并行性较小,由CPU创建;而下层部分并行性较大,由GPU创建,提高动态场景加速结构的创... 提出了一种动态场景光线跟踪新方法,能有效地调度CPU和GPU的运行,提高渲染速度。根据加速结构kd-tree的特点,将其分成上层部分和下层部分,上层部分由于并行性较小,由CPU创建;而下层部分并行性较大,由GPU创建,提高动态场景加速结构的创建速度。同时充分利用CPU和GPU两个运算平台的特点,有效调度两者的运行,隐藏部分运算时间,进一步提高动态场景的渲染速度。实验结果表明,在安装了GeForce285GTX的PC机上,高真实感地交互渲染了包含11k三角面片的Kitchen动态场景。 展开更多
关键词 光线跟踪 KD-TREE 图形处理器(gpu) cpu
在线阅读 下载PDF
多核CPU-GPU协同的并行深度优先算法 被引量:2
20
作者 余莹 李肯立 《计算机应用研究》 CSCD 北大核心 2014年第10期2982-2985,共4页
针对多核CPU和GPU环境下图的深度优先搜索问题,提出多核CPU中实现并行DFS的新算法,通过有效利用内存带宽来提高性能,且当图增大时优势越明显。在此基础上提出一种混合方法,为DFS每一分支动态地选择最佳的实现:顺序执行;两种不同算法的... 针对多核CPU和GPU环境下图的深度优先搜索问题,提出多核CPU中实现并行DFS的新算法,通过有效利用内存带宽来提高性能,且当图增大时优势越明显。在此基础上提出一种混合方法,为DFS每一分支动态地选择最佳的实现:顺序执行;两种不同算法的多核执行;GPU执行。混合算法为每种大小的图提供相对更好的性能,且能避免高直径图上的最坏情况。通过比较多CPU和GPU系统,分析底层架构对DFS性能的影响。实验结果表明,一个高端single-socket GPU系统的DFS执行性能相当于一个高端4-socket CPU系统。 展开更多
关键词 多核cpu gpu 深度优先搜索 并行 异构
在线阅读 下载PDF
上一页 1 2 34 下一页 到第
使用帮助 返回顶部