期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
面向多核CPU与GPU平台的图处理系统关键技术综述 被引量:2
1
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核cpu与GPU平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
在线阅读 下载PDF
基于CPU+GPU混合架构的雷达信号处理方法 被引量:2
2
作者 常艳 何涛 朱占宇 《火力与指挥控制》 CSCD 北大核心 2024年第7期80-85,90,共7页
针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积... 针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积累、目标检测、目标检测后处理及解模糊过程,将对应处理映射到CPU+GPU核心以提高加速比。实验结果表明,相比多核DSP信号处理方法,该方法具有更好的性能。 展开更多
关键词 cpu+GPU 混合架构 信号处理 多核DSP
在线阅读 下载PDF
基于多核CPU-GPU异构平台的并行Agent仿真 被引量:4
3
作者 余文广 王维平 +1 位作者 侯洪涛 李群 《系统工程与电子技术》 EI CSCD 北大核心 2012年第8期1716-1722,共7页
多核中央处理器(central processing units,CPU)-图形处理器(graphics processing units,GPU)异构平台为提高并行Agent仿真(parallel Agent-based simulation,PABS)在单机上的运行性能提供了一个更高效的硬件基础,但在当前相关研究中,... 多核中央处理器(central processing units,CPU)-图形处理器(graphics processing units,GPU)异构平台为提高并行Agent仿真(parallel Agent-based simulation,PABS)在单机上的运行性能提供了一个更高效的硬件基础,但在当前相关研究中,还缺乏一般性的理论方法来指导并行Agent仿真将多核CPU和GPU的计算资源充分利用起来。通过分析多核CPU-GPU异构并行架构的特点,在方法论层面上建立了并行Agent仿真在多核CPU-GPU异构平台下的多层负载分配模型,并根据基于Agent的仿真的执行结构,提出了对基于Agent的仿真的计算结构、数据结构进行重构的方法,以适应异构的硬件架构。最后对基于多核CPU-GPU的并行Agent仿真性能进行了实验分析。 展开更多
关键词 并行Agent仿真 多核中央处理器 图形处理器 异构平台
在线阅读 下载PDF
多核CPU-GPU异构平台下并行Agent仿真负载均衡方法 被引量:3
4
作者 王维平 余文广 +1 位作者 侯洪涛 李群 《系统工程与电子技术》 EI CSCD 北大核心 2012年第11期2366-2373,共8页
多核中央处理器(central processing unit,CPU)-图形处理器(graphic processing unit,GPU)异构平台为并行Agent仿真提供了一个新的硬件执行平台,而负载均衡方法是充分利用硬件计算资源、提高并行仿真运行性能的一个有效途径。针对多核CP... 多核中央处理器(central processing unit,CPU)-图形处理器(graphic processing unit,GPU)异构平台为并行Agent仿真提供了一个新的硬件执行平台,而负载均衡方法是充分利用硬件计算资源、提高并行仿真运行性能的一个有效途径。针对多核CPU-GPU异构平台下并行Agent仿真的负载均衡问题,建立了面向多核CPU-GPU的并行Agent仿真多层负载分配模型,提出了基于带约束的k-means空间聚类算法的并行Agent仿真静态负载划分方法和动态负载均衡策略,并给出了划分子集间的可交互性判定,以过滤掉大量不会发生交互关系的Agent之间的交互判定计算。最后通过实验验证了本文提出方法的有效性。 展开更多
关键词 并行Agent仿真 多核中央处理器 图形处理器 负载均衡
在线阅读 下载PDF
基于多核CPU的复杂液压产品快速并行优化方法 被引量:7
5
作者 宁志强 卫立新 +3 位作者 张瑞 权龙 化建辉 高有山 《农业机械学报》 EI CAS CSCD 北大核心 2022年第4期441-449,共9页
为缩短复杂液压产品的研发周期和提高系列化产品的开发效率,提出一种基于多核CPU的复杂液压产品快速并行优化方法。该方法利用粒子群算法寻求产品设计参数的优化和性能指标的约束,将每个仿真程序视作粒子群个体。采用两级加速策略,即CV... 为缩短复杂液压产品的研发周期和提高系列化产品的开发效率,提出一种基于多核CPU的复杂液压产品快速并行优化方法。该方法利用粒子群算法寻求产品设计参数的优化和性能指标的约束,将每个仿真程序视作粒子群个体。采用两级加速策略,即CVODE求解器加速和多核CPU加速。以非对称轴向柱塞泵三角槽优化设计为研究对象,通过物理样机试验对CVODE求解器加速方法的准确性进行验证,结果显示,试验与仿真结果吻合度较高。利用粒子群算法对三角槽主要参数进行优化以降低泵输出流量脉动。对比三角槽结构优化前后的流量脉动率,结果显示,在不增加柱塞腔压力的条件下,非对称轴向柱塞泵三角槽优化后的流量脉动相比优化前降低了36%。该方法可脱离专业仿真软件平台,能够独立运行于Windows操作系统,解决液压动态仿真对专业软件依赖的问题,且多进程比多线程编程更容易实现。在8核CPU工作站仿真条件下,与SimulationX平台仿真方法相比,该多核CPU并行方法的仿真效率提高10倍以上,与双核计算机并行运行效率相比提高近5倍。 展开更多
关键词 复杂液压产品 液压仿真软件 多核cpu 多进程并行优化 样机试验
在线阅读 下载PDF
多核CPU和GPU加速分子动力学模拟 被引量:6
6
作者 林江宏 林锦贤 吕暾 《计算机应用》 CSCD 北大核心 2011年第3期843-847,共5页
在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了... 在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了计算机的处理能力。性能测试结果表明,相对于优化后的CPU串行计算,多核CPU-GPU异构并行计算模型有强大的性能优势,特别是将占整个程序执行时间90%的作用力的计算移植到GPU上执行,获得了最高可达12倍的计算加速比。 展开更多
关键词 分子动力学 图形处理器 多核中央处理器 AMBER力场 计算统一设备架构 OPENMP
在线阅读 下载PDF
基于多核CPU的脑网络拓扑属性并行分析方法
7
作者 杨灿 郭浩 陈俊杰 《计算机工程与设计》 北大核心 2016年第12期3400-3404,共5页
针对脑网络研究中需计算的网络数目过多造成执行时间过长的问题,提出一种基于多核CPU(central processing unit)的并行计算方法。通过SPMD(single program multiple data)机制利用CPU的多核同时执行,实现并行计算多个网络的属性,利用循... 针对脑网络研究中需计算的网络数目过多造成执行时间过长的问题,提出一种基于多核CPU(central processing unit)的并行计算方法。通过SPMD(single program multiple data)机制利用CPU的多核同时执行,实现并行计算多个网络的属性,利用循环打包方法降低SPMD机制中循环控制的时间,得到并行计算多个网络指标的时间,同串行计算时间相比,可得到此方法的并行计算效果。与传统并行单个算法的策略相比,该方法利用不同脑网络之间计算的独立性,采取同时计算多个网络的策略。在一台多核CPU的主机上,分析CPU核数、网络节点规模这两个因素对网络指标计算并行效果影响。在利用12个CPU核并行计算网络节点规模为3000的指标时,加速比均达到2以上,其中效果最好的是网络同配系数的计算,加速比达到6倍以上。实验结果表明,基于SPMD机制和循环打包方法的并行计算架构对脑网络指标计算的并行效果显著,加速比随着CPU核数、网络节点规模的增长呈上升趋势。 展开更多
关键词 功能脑网络 拓扑属性 并行计算 多核中央处理器 单程序多数据机制
在线阅读 下载PDF
农田环境下无人机图像并行拼接识别算法 被引量:4
8
作者 许鑫 张力 +4 位作者 岳继博 钟鹤鸣 王颖 刘杰 乔红波 《农业工程学报》 EI CAS CSCD 北大核心 2024年第9期154-163,共10页
为改善在农田环境下无人机图像计算速度和效率,该研究提出了一种农田环境下无人机图像并行拼接识别算法。利用倒二叉树并行拼接识别算法,通过提取图像拼接中的变换矩阵,实现拼接识别同时进行。根据边缘设备的CPU核心数和图像数量自动将... 为改善在农田环境下无人机图像计算速度和效率,该研究提出了一种农田环境下无人机图像并行拼接识别算法。利用倒二叉树并行拼接识别算法,通过提取图像拼接中的变换矩阵,实现拼接识别同时进行。根据边缘设备的CPU核心数和图像数量自动将图像拼接识别任务划分为多个子进程,并分配到不同核心上执行,以提高在农田环境下的计算效率。试验结果表明:相同试验环境和数据集条件下,倒二叉树并行拼接算法的拼接耗时相较于其他算法平均减少了60%~90%左右;在农田环境下,倒二叉树并行拼接识别相较于串行拼接识别的耗时减少了70%,图像识别的平均像素交并比提升了10.17个百分点,说明在农田环境下采用多线程倒二叉树并行算法可以更好地利用农田环境下边缘设备的计算资源,大幅提升无人机图像的拼接和识别的速度,为无人机的快速实时监测提供技术支撑。 展开更多
关键词 无人机 遥感 图像处理 全景拼接 多核cpu 多进程
在线阅读 下载PDF
基于多进程的电力系统频域特征值并行搜索算法 被引量:10
9
作者 仲悟之 宋新立 +3 位作者 汤涌 卜广全 吴国旸 刘涛 《电力系统自动化》 EI CSCD 北大核心 2010年第21期11-16,共6页
对大规模电力系统进行小干扰稳定分析时,特别是在线动态安全预警系统中,由于系统线性化矩阵的规模庞大,求解特征值的串行算法难以满足计算速度的要求。近年来,多核CPU技术发展迅速,充分利用多核CPU的计算机硬件资源,采用并行计算技术是... 对大规模电力系统进行小干扰稳定分析时,特别是在线动态安全预警系统中,由于系统线性化矩阵的规模庞大,求解特征值的串行算法难以满足计算速度的要求。近年来,多核CPU技术发展迅速,充分利用多核CPU的计算机硬件资源,采用并行计算技术是大幅提高小干扰稳定计算速度的有效途径。提出了基于多进程的电力系统频域特征值并行搜索算法,并应用于国内广泛使用的电力系统小干扰稳定性分析程序(PSD-SSAP)中。该算法具有计算准确、实现简单、并行计算效率高等优点。实际大规模电力系统的算例测试和分析验证了该算法的正确性和有效性。 展开更多
关键词 并行计算 电力系统 小干扰稳定 多进程 多核处理器
在线阅读 下载PDF
基于OpenMP的分子动力学并行算法的性能分析与优化 被引量:10
10
作者 白明泽 程丽 +1 位作者 豆育升 孙世新 《计算机应用》 CSCD 北大核心 2012年第1期163-166,共4页
为提高分子动力学模拟在共享内存式服务器上的计算速度,对基于OpenMP的分子动力学并行算法(Critical方法)进行了性能分析与优化。通过在多核服务器上的测试,以及加速比和并行效率的计算分析了Critical方法的并行性能,进而提出优化的三... 为提高分子动力学模拟在共享内存式服务器上的计算速度,对基于OpenMP的分子动力学并行算法(Critical方法)进行了性能分析与优化。通过在多核服务器上的测试,以及加速比和并行效率的计算分析了Critical方法的并行性能,进而提出优化的三角形方法。所提方法中每个线程所计算的粒子数固定,且粒子数目呈阶梯状上升,使得各线程能够错时到达临界区。从而使程序在临界区的闲置时间比Critical方法减半,加速比明显提高。 展开更多
关键词 分子动力学 并行计算 多核中央处理器 OPENMP 临界区
在线阅读 下载PDF
wpa/wpa2-psk高速暴力破解器的设计和实现 被引量:13
11
作者 刘永磊 金志刚 +1 位作者 陈喆 刘京伟 《计算机工程》 CAS CSCD 北大核心 2011年第10期125-127,共3页
针对基于单核CPU的wpa/wpa2-psk暴力破解器破解速度慢的缺点,提出一种分布式多核CPU加GPU的高速暴力破解器。采用分布式技术将密钥列表合理地分配到各台机器上,在单机上利用多核CPU和GPU形成多个计算核心并行破解,利用GPU计算密集型并... 针对基于单核CPU的wpa/wpa2-psk暴力破解器破解速度慢的缺点,提出一种分布式多核CPU加GPU的高速暴力破解器。采用分布式技术将密钥列表合理地分配到各台机器上,在单机上利用多核CPU和GPU形成多个计算核心并行破解,利用GPU计算密集型并行任务强大的计算能力提高破解速度。实验结果证明,该暴力破解器的破解速度相比传统暴力破解器有明显提高。 展开更多
关键词 暴力破解 Wi-Fi联盟受限接入 预共享密钥 图形处理器 多核cpu
在线阅读 下载PDF
基于无锁数据结构的FIFO队列算法 被引量:8
12
作者 王俊昌 王振 付雄 《计算机工程》 CAS CSCD 北大核心 2018年第8期315-320,共6页
现代商用多核处理器缺少硬件支持的处理核间通信机制,多个处理核间必须通过加锁保护的共享内存传递数据。为此,设计一种基于软件的无锁队列作为核间通信机制,通过无锁数据结构提高软件队列的性能。当数据到达速率较低时,队列自适应地减... 现代商用多核处理器缺少硬件支持的处理核间通信机制,多个处理核间必须通过加锁保护的共享内存传递数据。为此,设计一种基于软件的无锁队列作为核间通信机制,通过无锁数据结构提高软件队列的性能。当数据到达速率较低时,队列自适应地减小队列长度,从而占用较小的内存空间,进而更好地利用处理器高速缓存;当数据到达速率较高时,队列自适应地增加队列长度,以避免数据丢失。实验结果表明,在数据到达速率变化较大的实际应用场景中,该队列较FastForward、MCRingBuffer和B-Queue队列具有更高的数据处理性能。 展开更多
关键词 无锁数据结构 多核处理 流水线并行 自适应调整 cpu核间通信
在线阅读 下载PDF
异构计算平台上列存储系统的并行连接优化策略 被引量:4
13
作者 丁祥武 陈金鑫 王梅 《计算机工程与应用》 CSCD 北大核心 2017年第5期73-80,共8页
GPU以及集成式的CPU-GPU架构凭借其强大的并行处理能力和可编程流水线方式,已经成为数据库领域的研究热点。为充分利用异构平台的并行计算能力,提升列存储系统的查询性能,在研究异构平台结构特性的基础上,首先提出了GPU多线程平台上进... GPU以及集成式的CPU-GPU架构凭借其强大的并行处理能力和可编程流水线方式,已经成为数据库领域的研究热点。为充分利用异构平台的并行计算能力,提升列存储系统的查询性能,在研究异构平台结构特性的基础上,首先提出了GPU多线程平台上进行连接的数据划分策略——ICMD(Improved CMD),利用GPU流处理器并行处理各个子空间上的连接,然后利用任务评估分配模型实现查询负载的动态分配,使得查询操作能在多核CPU、GPU上高效并行执行。同时利用片上全局同步机制、局部内存重用技术优化ICMD连接算法。最后采用SSB基准测试集测试,结果表明:Intel~?HD Graphics 4600平台上并行连接查询相比于CPU版本获得了35%的性能提升,较GPU查询引擎的Ocelot性能上提升了18%。 展开更多
关键词 多核中央处理器-图形处理器(cpu-GPU) 流处理器 异构编程 列存储 改进协调模块分布(ICMD) 任务动态评估分配
在线阅读 下载PDF
利用投影时序逻辑的多内核进程调度建模与验证 被引量:2
14
作者 舒新峰 段振华 《西安交通大学学报》 EI CAS CSCD 北大核心 2010年第3期52-57,共6页
针对软件测试无法满足多内核处理器上进程调度的验证需要这一问题,提出利用投影时序逻辑(PTL)的定理证明方法来验证进程调度.使用PTL公式建立了支持当前主流进程调度算法的多内核处理器进程调度一般模型S,并将系统期望的性质描述为PTL公... 针对软件测试无法满足多内核处理器上进程调度的验证需要这一问题,提出利用投影时序逻辑(PTL)的定理证明方法来验证进程调度.使用PTL公式建立了支持当前主流进程调度算法的多内核处理器进程调度一般模型S,并将系统期望的性质描述为PTL公式P,在PTL公理系统的基础上,通过证明S蕴含P是否为一个定理来验证系统是否具备该性质.以2内核处理器上的多级反馈队列算法的正确性为案例进行检验,结果表明所提方法可验证多内核处理器进程调度的系统性质,保证多内核进程调度的可靠性.由于多内核处理器的进程调度具备了并发系统的主要特点,因此该方法也适用于一般的并发系统验证. 展开更多
关键词 投影时序逻辑 进程调度 定理证明 多核处理器 调度验证
在线阅读 下载PDF
BOSS在KVM平台中的性能研究与优化 被引量:2
15
作者 马震太 张晓梅 《计算机工程》 CAS CSCD 北大核心 2017年第7期70-74,共5页
针对BESIII离线软件系统(BOSS)在内核虚拟机平台上的性能损耗,结合BOSS作业特点给出相关优化方法。对引起性能损耗的各种因素进行研究,并根据不同客户机规模的测试情况,定量分析测试结果,进而确定性能损耗。对BOSS作业在物理机和客户机... 针对BESIII离线软件系统(BOSS)在内核虚拟机平台上的性能损耗,结合BOSS作业特点给出相关优化方法。对引起性能损耗的各种因素进行研究,并根据不同客户机规模的测试情况,定量分析测试结果,进而确定性能损耗。对BOSS作业在物理机和客户机上的性能进行测试,结果表明,优化后模拟作业性能损耗降低至1.1%~1.6%,重建作业与分析作业性能分别提高2.6%~4.5%,7%~18.7%。 展开更多
关键词 BESⅢ离线软件系统 内核虚拟机 中央处理单元迁移 透明大页 磁盘预分配 多客户机
在线阅读 下载PDF
优化信号处理性能的32位双核RISC微处理器设计
16
作者 焦义文 陈源 王元钦 《计算机应用》 CSCD 北大核心 2010年第12期260-262,共3页
提出了一种适合数字信号处理的32位双核RISC微处理器设计方案。通过分析流水线级数对处理性能的影响,给出了易于实现、功能便于扩充的流水线深度及系统结构设计方案,再配合扩充正余弦值查找表、浮点数运算器和增加核的个数等方法有效地... 提出了一种适合数字信号处理的32位双核RISC微处理器设计方案。通过分析流水线级数对处理性能的影响,给出了易于实现、功能便于扩充的流水线深度及系统结构设计方案,再配合扩充正余弦值查找表、浮点数运算器和增加核的个数等方法有效地提高了处理器数字信号处理能力。采用低成本的现场可编程门阵列(FPGA)进行性能验证,结果表明:对于4点快速傅里叶变换(FFT)浮点运算效能提高40.14%,对于1024点FFT浮点运算效能提高49.59%。 展开更多
关键词 cpu设计 流水线 现场可编程门阵列 多核 查找表
在线阅读 下载PDF
特征点检测DoG并行算法 被引量:7
17
作者 朱超 吴素萍 《计算机工程与应用》 CSCD 北大核心 2020年第10期36-43,共8页
特征点检测被广泛应用于目标识别、跟踪及三维重建等领域。针对三维重建算法中特征点检测算法运算量大、耗时多的特点,对高斯差分(Difference-of-Gaussian,DoG)算法进行改进,提出特征点检测DoG并行算法。基于OpenMP的多核CPU、CUDA及Ope... 特征点检测被广泛应用于目标识别、跟踪及三维重建等领域。针对三维重建算法中特征点检测算法运算量大、耗时多的特点,对高斯差分(Difference-of-Gaussian,DoG)算法进行改进,提出特征点检测DoG并行算法。基于OpenMP的多核CPU、CUDA及OpenCL架构的GPU并行环境,设计实现DoG特征点检测并行算法。对hallFeng图像集在不同实验平台进行对比实验,实验结果表明,基于OpenMP的多核CPU的并行算法表现出良好的多核可扩展性,基于CUDA及OpenCL架构的GPU并行算法可获得较高加速比,最高加速比可达96.79,具有显著的加速效果,且具有良好的数据和平台可扩展性。 展开更多
关键词 图形处理器(GPU) 多核cpu 高斯差分(DoG) 特征点检测 并行算法
在线阅读 下载PDF
点云重建的并行算法
18
作者 杨捷 吴素萍 《计算机工程与应用》 CSCD 北大核心 2020年第6期213-219,共7页
在三维重建问题中,为了提高重建模型的精确度和完整性,需要增大三维重建的数据量,由此会增加重建的计算量和运行时间。针对该问题,对点云重建过程进行并行设计,降低耗时、提高三维重建的效率,提出在多核CPU、GPU架构和CPU/GPU异构环境... 在三维重建问题中,为了提高重建模型的精确度和完整性,需要增大三维重建的数据量,由此会增加重建的计算量和运行时间。针对该问题,对点云重建过程进行并行设计,降低耗时、提高三维重建的效率,提出在多核CPU、GPU架构和CPU/GPU异构环境下点云重建的并行算法,并在不同实验平台上对Kermit和hallFeng数据集进行了点云重建的并行实验。实验结果表明,相比于串行的点云重建算法,点云重建并行算法在保证重建精度的条件下,取得了较好的加速比,并且并行算法具有实验平台和数据规模的可扩展性。 展开更多
关键词 点云重建 并行算法 异构计算 图形处理器(GPU) 多核cpu
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部