期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
面向多核CPU与GPU平台的图处理系统关键技术综述 被引量:2
1
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核cpu与gpu平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
在线阅读 下载PDF
多核CPU/GPU平台下的集合求交算法
2
作者 王怀超 赵雷 《计算机工程》 CAS CSCD 2013年第4期296-299,304,共5页
提出一个多核CPU/GPU混合平台下的集合求交算法。针对CPU端求交问题,利用对数据空间局部性和中序求交的思想,给出内向求交算法和Baeza-Yates改进算法,算法速度分别提升0.79倍和1.25倍。在GPU端,提出有效搜索区间思想,通过计算GPU中每个B... 提出一个多核CPU/GPU混合平台下的集合求交算法。针对CPU端求交问题,利用对数据空间局部性和中序求交的思想,给出内向求交算法和Baeza-Yates改进算法,算法速度分别提升0.79倍和1.25倍。在GPU端,提出有效搜索区间思想,通过计算GPU中每个Block在其余列表上的有效搜索区间来缩小搜索范围,进而提升求交速度,速度平均提升40%。在混合平台采用时间隐藏技术将数据预处理和输入输出操作隐藏在GPU计算过程中,结果显示系统平均速度可提升85%。 展开更多
关键词 集合求交 多核cpu gpu求交算法 并行算法 时间隐藏 有效搜索区间
在线阅读 下载PDF
基于CPU/GPU异构平台的全波形反演及其实用化分析 被引量:12
3
作者 张猛 王华忠 +3 位作者 任浩然 冯波 隋志强 王延光 《石油物探》 EI CSCD 北大核心 2014年第4期461-467,共7页
全波形反演(Full Waveform Inversion,FWI)在理论上是当前精度最高的速度估计方法。通过分析FWI的计算特点,使用图形处理器(Graphic Processing Unit,简称GPU)进行算法加速,形成了基于CPU/GPU异构平台的时空域声波方程全波形反演算法实... 全波形反演(Full Waveform Inversion,FWI)在理论上是当前精度最高的速度估计方法。通过分析FWI的计算特点,使用图形处理器(Graphic Processing Unit,简称GPU)进行算法加速,形成了基于CPU/GPU异构平台的时空域声波方程全波形反演算法实现流程。理论模型测试结果表明,该算法不仅对速度模型具有高精度刻画能力,而且计算效率比基于CPU集群的FWI算法大幅提升。对胜利探区某陆上区块实际地震资料进行全波形速度反演试处理,取得了初步的应用效果。在此基础上,讨论了FWI对实际地震资料质量的要求,就FWI在陆上地震资料的生产性应用提出了相应的策略。 展开更多
关键词 地震反问题 全波形反演 速度估计 cpu gpu异构平台 陆上地震资料
在线阅读 下载PDF
多核CPU-GPU协同的并行深度优先算法 被引量:2
4
作者 余莹 李肯立 《计算机应用研究》 CSCD 北大核心 2014年第10期2982-2985,共4页
针对多核CPU和GPU环境下图的深度优先搜索问题,提出多核CPU中实现并行DFS的新算法,通过有效利用内存带宽来提高性能,且当图增大时优势越明显。在此基础上提出一种混合方法,为DFS每一分支动态地选择最佳的实现:顺序执行;两种不同算法的... 针对多核CPU和GPU环境下图的深度优先搜索问题,提出多核CPU中实现并行DFS的新算法,通过有效利用内存带宽来提高性能,且当图增大时优势越明显。在此基础上提出一种混合方法,为DFS每一分支动态地选择最佳的实现:顺序执行;两种不同算法的多核执行;GPU执行。混合算法为每种大小的图提供相对更好的性能,且能避免高直径图上的最坏情况。通过比较多CPU和GPU系统,分析底层架构对DFS性能的影响。实验结果表明,一个高端single-socket GPU系统的DFS执行性能相当于一个高端4-socket CPU系统。 展开更多
关键词 多核cpu gpu 深度优先搜索 并行 异构
在线阅读 下载PDF
基于多核CPU+GPU运算的电磁场高效体绘制算法研究 被引量:1
5
作者 陈宇峰 张铂 李林 《计算机工程与应用》 CSCD 北大核心 2018年第18期218-222,共5页
雷达探测范围作为电磁场的一个典型代表,由于其在军事决策时扮演着重要的作用,所以对探测范围可视化的准确性和实时性的要求很严格。传统的面绘制三维数据场信息会造成大量的空间信息丢失。因此,采用体绘制技术来获取电磁场中的三维数... 雷达探测范围作为电磁场的一个典型代表,由于其在军事决策时扮演着重要的作用,所以对探测范围可视化的准确性和实时性的要求很严格。传统的面绘制三维数据场信息会造成大量的空间信息丢失。因此,采用体绘制技术来获取电磁场中的三维数据场信息。针对传统体绘制技术算法执行效率较低的问题,提出使用多核CPU+GPU的架构来加速体绘制,从而实现实时处理。实验表明,采用提出的方法可以大幅减少体绘制中光线绘制的时间,充分利用CPU的空闲存储资源和计算资源。 展开更多
关键词 电磁场 体绘制 多核cpu+gpu 并行计算
在线阅读 下载PDF
逆时深度偏移成像方法及其在CPU/GPU异构平台上的实现 被引量:9
6
作者 赵磊 王华忠 刘守伟 《岩性油气藏》 CSCD 2010年第F07期36-41,共6页
逆时深度偏移的优点可以用来对全波场逆时外推,使得来自高角度反射界面的反射波。甚至来自超过90°反射界面的反射波精确成像。逆时深度偏移涉及到2个重要问题:精确且高效的逆时波场外推算法及反射波的成像条件。文中提出了修改... 逆时深度偏移的优点可以用来对全波场逆时外推,使得来自高角度反射界面的反射波。甚至来自超过90°反射界面的反射波精确成像。逆时深度偏移涉及到2个重要问题:精确且高效的逆时波场外推算法及反射波的成像条件。文中提出了修改的激励时间成像条件:在反射界面处,反射波出发时等于入射波到达时。认为用反射界面上某成像点与法线方向对称的波矢量所定义的波场进行相关成像是完善的成像条件。边界条件的处理借鉴Robert提出的随机边界,这可以提高波场外推算法的并行性。关于存储,认为牺牲一次正向波场外推,先把波场正传到最大时间,然后与观测波场同时逆时外推并成像,在GPU/CPU计算机平台上是比较合适的方案,这样就彻底抛弃了正向外推波场的存储。数值试验验证了分析的正确性。 展开更多
关键词 逆时偏移 高阶有限差分 gpu/cpu平台 随机边界条件
在线阅读 下载PDF
基于CPU+GPU混合架构的雷达信号处理方法 被引量:2
7
作者 常艳 何涛 朱占宇 《火力与指挥控制》 CSCD 北大核心 2024年第7期80-85,90,共7页
针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积... 针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积累、目标检测、目标检测后处理及解模糊过程,将对应处理映射到CPU+GPU核心以提高加速比。实验结果表明,相比多核DSP信号处理方法,该方法具有更好的性能。 展开更多
关键词 cpu+gpu 混合架构 信号处理 多核DSP
在线阅读 下载PDF
多核平台入侵检测系统负载均衡算法设计与实现 被引量:4
8
作者 李彦君 钟求喜 +1 位作者 陈诚 陆华彪 《计算机应用研究》 CSCD 北大核心 2012年第4期1413-1416,共4页
负载均衡是基于多核平台实现高速入侵检测系统的关键技术之一。基于真实流量统计分析发现的流阈值与流数目、流字节数之间变化的规律,提出只调整较大流的动态分流算法HCLF,并实现了原型系统。实验测试表明,与静态哈希算法和新流调整算... 负载均衡是基于多核平台实现高速入侵检测系统的关键技术之一。基于真实流量统计分析发现的流阈值与流数目、流字节数之间变化的规律,提出只调整较大流的动态分流算法HCLF,并实现了原型系统。实验测试表明,与静态哈希算法和新流调整算法相比,HCLF算法在负载均衡度、系统丢包率方面具有显著的优越性,改善了多核平台高速入侵检测系统对突发流量和应用环境的适应性。 展开更多
关键词 多核平台 入侵检测系统 cpu利用率 较大流 负载均衡度 丢包率
在线阅读 下载PDF
异构平台中并行矩量法的加速技术 被引量:1
9
作者 陈岩 张光辉 +2 位作者 林中朝 张玉 赵勋旺 《微波学报》 CSCD 北大核心 2014年第S1期51-54,共4页
本文主要研究了在CPU/GPU异构集群上的并行矩量法的加速技术。本文设计出一种MPI/CUDA软件编程架构,解决了CPU/GPU异构集群上并行LU分解跨节点计算的难题。此架构基于矩阵分块二维循环分布的数据分配策略,利用MPI实现计算节点之间的通信... 本文主要研究了在CPU/GPU异构集群上的并行矩量法的加速技术。本文设计出一种MPI/CUDA软件编程架构,解决了CPU/GPU异构集群上并行LU分解跨节点计算的难题。此架构基于矩阵分块二维循环分布的数据分配策略,利用MPI实现计算节点之间的通信,同时利用GPU加速矩阵更新过程。为了突破GPU显存对LU分解的矩阵规模的限制,本文进一步研究了"显存—内存"核外算法。为了优化算法性能,本文提出了基于"CUDA流"技术和"异步通信"技术的设计方案,实现了GPU通信与计算的重叠,有效隐藏了GPU通信时间,获到了明显的加速效果。 展开更多
关键词 矩量法 异构平台 gpu加速 并行 隐藏通信
在线阅读 下载PDF
基于GPU的可扩展哈希方法
10
作者 胡学萱 奚建清 林妙 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第1期111-117,共7页
为了使用可扩展哈希表进行快速的数据访问,需要高效地更新索引以维护哈希表.文中提出了一种基于GPU的可扩展哈希算法g EHT.该算法充分利用GPU的并行计算能力,并采用表重用、预分裂技术,无锁地扩展和收缩表、插入和删除数据,实现了高并... 为了使用可扩展哈希表进行快速的数据访问,需要高效地更新索引以维护哈希表.文中提出了一种基于GPU的可扩展哈希算法g EHT.该算法充分利用GPU的并行计算能力,并采用表重用、预分裂技术,无锁地扩展和收缩表、插入和删除数据,实现了高并发地创建哈希表、更新索引和检索数据.实验结果表明,该算法的查询数据、维护哈希表和更新索引性能优于其他多核CPU的线性哈希及可扩展哈希算法,尤其是在高负载的情况下. 展开更多
关键词 可扩展哈希 并行计算 gpu 算法 多核cpu
在线阅读 下载PDF
特征点检测DoG并行算法 被引量:7
11
作者 朱超 吴素萍 《计算机工程与应用》 CSCD 北大核心 2020年第10期36-43,共8页
特征点检测被广泛应用于目标识别、跟踪及三维重建等领域。针对三维重建算法中特征点检测算法运算量大、耗时多的特点,对高斯差分(Difference-of-Gaussian,DoG)算法进行改进,提出特征点检测DoG并行算法。基于OpenMP的多核CPU、CUDA及Ope... 特征点检测被广泛应用于目标识别、跟踪及三维重建等领域。针对三维重建算法中特征点检测算法运算量大、耗时多的特点,对高斯差分(Difference-of-Gaussian,DoG)算法进行改进,提出特征点检测DoG并行算法。基于OpenMP的多核CPU、CUDA及OpenCL架构的GPU并行环境,设计实现DoG特征点检测并行算法。对hallFeng图像集在不同实验平台进行对比实验,实验结果表明,基于OpenMP的多核CPU的并行算法表现出良好的多核可扩展性,基于CUDA及OpenCL架构的GPU并行算法可获得较高加速比,最高加速比可达96.79,具有显著的加速效果,且具有良好的数据和平台可扩展性。 展开更多
关键词 图形处理器(gpu) 多核cpu 高斯差分(DoG) 特征点检测 并行算法
在线阅读 下载PDF
国产芯片在材料计算模拟中的性能探究 被引量:1
12
作者 王志秀 姜新港 易文才 《现代电子技术》 2023年第12期73-78,共6页
第一性原理材料计算模拟是化学、物理、材料等科学研究的重要手段,发展国产计算芯片及建设软件生态是提升我国材料计算模拟效率的重要环节之一。文中以极端条件下金刚石的结构优化和电子结构计算为典型算例,探究维也纳从头算模拟软件包(... 第一性原理材料计算模拟是化学、物理、材料等科学研究的重要手段,发展国产计算芯片及建设软件生态是提升我国材料计算模拟效率的重要环节之一。文中以极端条件下金刚石的结构优化和电子结构计算为典型算例,探究维也纳从头算模拟软件包(VASP)在国产中央处理器(CPU)和国产图形计算加速卡(GPU)上的计算可靠性及运行效率。计算结果表明,国产CPU和GPU在VASP计算模拟的各种算法中关联的数学库呈现极好的稳定性和优异的计算效率。不同芯片计算平台下相同计算任务消耗的时间对比结果表明,国产CPU芯片在体系价电子数小于500的计算模拟体系中能够取得更好的计算性能,而国产GPU计算加速卡在体系价电子数大于500的计算模拟体系中能够取得显著的加速效果,最高加速是常用Intel CPU计算平台的42倍。国产材料计算模拟平台已趋成熟,能够在我国催化反应机理、半导体器件设计、材料极端物性等领域发挥重要作用。 展开更多
关键词 芯片性能探究 材料计算模拟 国产芯片 计算芯片 cpu gpu 计算平台
在线阅读 下载PDF
点云重建的并行算法
13
作者 杨捷 吴素萍 《计算机工程与应用》 CSCD 北大核心 2020年第6期213-219,共7页
在三维重建问题中,为了提高重建模型的精确度和完整性,需要增大三维重建的数据量,由此会增加重建的计算量和运行时间。针对该问题,对点云重建过程进行并行设计,降低耗时、提高三维重建的效率,提出在多核CPU、GPU架构和CPU/GPU异构环境... 在三维重建问题中,为了提高重建模型的精确度和完整性,需要增大三维重建的数据量,由此会增加重建的计算量和运行时间。针对该问题,对点云重建过程进行并行设计,降低耗时、提高三维重建的效率,提出在多核CPU、GPU架构和CPU/GPU异构环境下点云重建的并行算法,并在不同实验平台上对Kermit和hallFeng数据集进行了点云重建的并行实验。实验结果表明,相比于串行的点云重建算法,点云重建并行算法在保证重建精度的条件下,取得了较好的加速比,并且并行算法具有实验平台和数据规模的可扩展性。 展开更多
关键词 点云重建 并行算法 异构计算 图形处理器(gpu) 多核cpu
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部