期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于负载均衡的CPU-GPU异构计算平台任务调度策略 被引量:5
1
作者 方娟 章佳兴 《北京工业大学学报》 CAS CSCD 北大核心 2020年第7期782-787,共6页
针对中央处理单元-图形处理单元(central processing unit-graphics processing unit,CPU-GPU)异构计算系统中,CPU和GPU负载不均导致系统性能降低的问题,提出了一种基于队列的混合调度策略.该策略通过探测获得CPU和GPU处理指定任务的计... 针对中央处理单元-图形处理单元(central processing unit-graphics processing unit,CPU-GPU)异构计算系统中,CPU和GPU负载不均导致系统性能降低的问题,提出了一种基于队列的混合调度策略.该策略通过探测获得CPU和GPU处理指定任务的计算能力,将计算任务按照探测比例分配给CPU和GPU;将并行任务存入双向队列,以降低调度带来的额外开销.结果表明,使用该策略的基准测试程序系统性能平均提升了28.07%.总体而言,该调度策略能够缩短CPU与GPU完成各自计算任务后的等待时间,有效平衡系统CPU与GPU之间的负载,提升系统性能. 展开更多
关键词 中央处理单元-图形处理单元(central processing unit-graphics processing unit cpu-gpu) 异构计算 高性能计算 任务调度 负载均衡 负载感知
在线阅读 下载PDF
面向大规模异构计算平台的MiniGo高效训练方法
2
作者 李荣春 贺周雨 +3 位作者 乔鹏 姜晶菲 窦勇 李东升 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第5期209-218,共10页
提出一种适用于大规模异构计算平台训练MiniGo智能体的高效多级并行训练方法,包括节点间任务级并行、中央处理器-数字信号处理器(central processing unit-digital signal processor, CPU-DSP)异构并行、DSP核内并行。实现了高效的输入... 提出一种适用于大规模异构计算平台训练MiniGo智能体的高效多级并行训练方法,包括节点间任务级并行、中央处理器-数字信号处理器(central processing unit-digital signal processor, CPU-DSP)异构并行、DSP核内并行。实现了高效的输入/输出部署,消除网络通信瓶颈。提出了面向CPU-DSP共享内存结构的异构计算内存管理,减少异构设备间的数据搬运。实现了共享内存编程优化,并利用DSP实现密集卷积计算算子加速优化。结果表明,与16核CPU计算相比,单核DSP算子加速最大加速比达16.44;该方法实现计算节点规模从1 067扩展至4 139,得到达到给定终止条件所需时间从43.02 h降至16.05 h,可扩展效率为69.1%。评估表明,该方法能够实现MiniGo在大规模异构计算平台的高效并行训练。 展开更多
关键词 MiniGo 大规模异构计算平台 数字信号处理器
在线阅读 下载PDF
CPU-GPU异构计算环境下的并行T近邻谱聚类算法 被引量:3
3
作者 张帅 李涛 +2 位作者 焦晓帆 王艺峰 杨愚鲁 《计算机研究与发展》 EI CSCD 北大核心 2015年第11期2555-2567,共13页
谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrid... 谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrids)算法是专为CPU-GPU异构计算环境设计的并行T近邻(T-nearest-neighbors,TNN)谱聚类算法,通过分块计算相似性矩阵打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量.PSCH算法中使用CUDA设计实现双缓冲轮转4段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能.PSCH算法采用隐式重启动Lanczos方法(implicitly restarted Lanczos method,IRIM)在异构硬件上计算稀疏特征矩阵的特征分解,减轻了特征分解步骤的计算瓶颈.PSCH算法在配有一块GTX 480GPU的单节点上能够对百万以上规模的数据集进行聚类,并对实验中的4个数据集取得了相对于使用16进程的MPI并行谱聚类PSC算法2.0~4.5倍的性能. 展开更多
关键词 谱聚类 T近邻 cpu-gpu异构计算 计算统一设备架构 OpenMP
在线阅读 下载PDF
异构计算平台图像边缘检测算法优化研究 被引量:5
4
作者 魏秋明 梁军 +2 位作者 鲍泓 王晶 李论 《计算机工程》 CAS CSCD 北大核心 2017年第5期240-247,共8页
随着实际应用中图像数据规模的增大和分辨率的提高,图像边缘检测算法的性能成为制约图像实时处理的关键。从向量化访存、数据本地化以及条件分支优化3个方面出发,结合算法特性和底层硬件架构特征,研究Canny边缘检测算法在NVIDIA Tegra K... 随着实际应用中图像数据规模的增大和分辨率的提高,图像边缘检测算法的性能成为制约图像实时处理的关键。从向量化访存、数据本地化以及条件分支优化3个方面出发,结合算法特性和底层硬件架构特征,研究Canny边缘检测算法在NVIDIA Tegra K1异构计算平台上的GPU性能优化。实验结果表明,与基于Open CV3.0CPU的Canny边缘检测算法相比,优化后的Canny边缘检测算法在不同图像数据规模下可达13.2倍~17.8倍的性能加速比,具有较好的检测性能。 展开更多
关键词 图像边缘检测 异构计算平台 向量化访存 数据本地化 条件分支优化
在线阅读 下载PDF
异构计算平台激光雷达算法优化研究 被引量:3
5
作者 许武 梁军 +3 位作者 李威 徐鹏飞 徐圣瑞 张福贵 《计算机工程》 CAS CSCD 北大核心 2018年第7期1-7,共7页
单纯采用CPU处理激光雷达点云数据已无法满足其实时性需求。为此,选用NVIDIA Tegra X1作为异构计算平台,对激光雷达数据处理算法进行加速。结合硬件架构特征和激光雷达数据处理算法的特性,通过粗粒度并行解决GPU优化过程中出现的负载不... 单纯采用CPU处理激光雷达点云数据已无法满足其实时性需求。为此,选用NVIDIA Tegra X1作为异构计算平台,对激光雷达数据处理算法进行加速。结合硬件架构特征和激光雷达数据处理算法的特性,通过粗粒度并行解决GPU优化过程中出现的负载不均衡问题。同时采用零复制和数据本地化的方法进行数据的精细优化。实验结果表明,相较于目前智能车上使用的工控机,优化后的激光雷达数据处理算法能够加速5倍~6倍,提高了智能车对雷达数据处理的实时性。 展开更多
关键词 粗粒度并行 负载不均衡 零复制 数据本地化 GPU优化 异构计算平台
在线阅读 下载PDF
基于可重构架构的数据中心异构加速软硬件系统级平台
6
作者 王彦伟 李仁刚 +1 位作者 徐冉 刘钧锴 《计算机研究与发展》 北大核心 2025年第4期963-977,共15页
构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素.为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构... 构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素.为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构建了一个可重构组合的软硬件加速原型系统,简化了现有以处理器为中心的系统级计算平台构建方法,实现目标软硬件设计的快速部署与系统级原型验证.针对以上目标,通过解耦的可重构架构设备虚拟化和远程映射等方法,发掘独立计算单元的潜力,构建了一套ISOF(independent system of FPGA(field programmable gate arrays))软硬件计算平台系统,可使其超越普通服务器设计所能提供的能力,实现计算单元低成本高效扩展,使客户端可灵活使用外设资源,并且为满足系统级通信挑战,设计了一套计算单元之间的通信硬件平台和交互机制.此外,为提升软硬件系统级平台的敏捷性,ISOF提供了灵活统一的调用接口.最后,通过对平台目标系统级的分析评估,验证了该平台在满足了当下计算与加速需求下,保证了高速、低延时的通信,以及良好的吞吐率和弹性扩容效率,另外在高速通信的基础上改进的拥塞避免和丢包恢复机制,满足了数据中心规模通信的稳定性需求. 展开更多
关键词 异构计算 加速平台 原型系统 高速互连 可重构架构 FPGA
在线阅读 下载PDF
基于CPU-GPU异构的电力系统静态电压稳定域边界并行计算方法 被引量:10
7
作者 李雪 张琳玮 +2 位作者 姜涛 陈厚合 李国庆 《电工技术学报》 EI CSCD 北大核心 2021年第19期4070-4084,共15页
为提升区域互联电力系统静态电压稳定域边界(SVSRB)的构建效率,该文以直接法为基础,提出一种基于CPU-GPU异构的静态电压稳定域边界并行计算方法。该方法首先依据SVSRB拓扑特性,基于边界追踪算法实现直接法求解鞍结分岔(SNB)点时初值的... 为提升区域互联电力系统静态电压稳定域边界(SVSRB)的构建效率,该文以直接法为基础,提出一种基于CPU-GPU异构的静态电压稳定域边界并行计算方法。该方法首先依据SVSRB拓扑特性,基于边界追踪算法实现直接法求解鞍结分岔(SNB)点时初值的高效选取,克服直接法对初值敏感这一瓶颈;然后结合CPU-GPU异构平台,将直接法求解SNB点计算量较大、计算耗时占比高的修正量求解部分由GPU完成,其他逻辑性强但计算量较低的部分由CPU完成,以实现SNB点的并行求解,降低直接法计算量大、计算复杂度高的不足,从而提升SVSRB的搜索效率;最后以WECC3机9节点测试系统,波兰电网2737节点和3120节点测试系统,欧洲电网7092节点、9241节点、11624节点和13659节点测试系统算例对该文所提方法进行了分析与验证,结果表明所提并行计算方法可实现电力系统静态电压稳定域边界的快速、准确搜索。 展开更多
关键词 静态电压稳定域边界 边界追踪法 直接法 鞍结分岔点 cpu-gpu 异构平台
在线阅读 下载PDF
电力系统全纯嵌入潮流的并行计算 被引量:1
8
作者 李雪 高翔 +2 位作者 姜涛 王长江 李国庆 《电工技术学报》 EI CSCD 北大核心 2024年第18期5839-5854,共16页
潮流计算是电力系统规划和运行的基础,全纯嵌入潮流计算方法(HELM)因无需初值且具有全局收敛性,因而在电力系统潮流计算中受到极大关注。然而,采用HELM求解大规模电力系统潮流时,高维幂级数系数线性方程组求解和节点电压的幂级数有理的... 潮流计算是电力系统规划和运行的基础,全纯嵌入潮流计算方法(HELM)因无需初值且具有全局收敛性,因而在电力系统潮流计算中受到极大关注。然而,采用HELM求解大规模电力系统潮流时,高维幂级数系数线性方程组求解和节点电压的幂级数有理的逼近计算量大、耗时久,是制约HELM计算效率提升的关键。为此,该文提出一种基于稳定双正交共轭梯度(BICGSTAB)和Aitken差分的电力系统全纯嵌入潮流并行计算方法,该方法首先采用近似逆预处理的BICGSTAB法并行迭代求解HELM的高维幂级数系数线性方程组,以快速计算节点电压的各阶幂级数系数;其次,借助Aitken差分法实现所有节点电压幂级数有理逼近值的并行计算;然后,基于CPU-GPU异构平台设计所提算法的并行流程,以实现大规模电力系统潮流的快速求解;最后,通过节点在1 354~13 802的不同规模测试系统对所提方法进行分析、验证。结果表明,所提电力系统潮流全纯嵌入并行计算方法可实现电力系统潮流的准确、快速求解。 展开更多
关键词 全纯嵌入法 潮流计算 Aitken差分法 cpu-gpu异构运算平台 预处理器
在线阅读 下载PDF
CPU-GPU平台上的高速MPSK并行解调算法
9
作者 吴涛 闫迪 +1 位作者 刘燕都 赵江 《现代电子技术》 北大核心 2019年第13期9-14,共6页
针对多进制数字相位调制信号特点,采用数据并行方法,将连续信号流分解为多个信号块以实现并行处理。研究一种基于三维迭代搜索的载波相位-码元相位联合估计算法,在本地构造载波信号的搜索库,利用分段码元相关法从搜索库中挑选出与待处... 针对多进制数字相位调制信号特点,采用数据并行方法,将连续信号流分解为多个信号块以实现并行处理。研究一种基于三维迭代搜索的载波相位-码元相位联合估计算法,在本地构造载波信号的搜索库,利用分段码元相关法从搜索库中挑选出与待处理信号相似度最高的载波信号作为同步载波。通过迭代搜索方法逐步缩小搜索库,降低计算量。仿真结果表明,与克拉美-罗下限相比,解调损失小于0.1dB。在惠普工作站与英伟达K20平台上搭建验证系统,系统的处理速率可达625.9MB/s。 展开更多
关键词 cpu-gpu平台 高速MPSK 并行解调 相位模糊 三维迭代搜索 数据并行
在线阅读 下载PDF
基于国产异构平台的奇异值分解法
10
作者 杨太龙 赵红朋 张磊 《计算机工程》 CAS CSCD 北大核心 2024年第9期216-225,共10页
随着深度学习等高算力应用的发展,异构计算正在逐步成为并行计算的重要方向。国产异构平台近年来发展迅速,针对国产平台的架构定制开发适配的算法与软件有着重要意义。奇异值分解(SVD)作为线性代数库中用于处理一般矩阵的强大分解器,应... 随着深度学习等高算力应用的发展,异构计算正在逐步成为并行计算的重要方向。国产异构平台近年来发展迅速,针对国产平台的架构定制开发适配的算法与软件有着重要意义。奇异值分解(SVD)作为线性代数库中用于处理一般矩阵的强大分解器,应用在科学计算、人工智能、信号处理等众多领域。现有某类国产加速器的可用库中SVD算法性能远低于NVIDIA,这对相关应用的高效移植带来了挑战。为此,通过调整算法流程减少线程启动与访存开销,提出了面向国产加速器的矩阵双对角化方法mySVD。卸载计算密集型任务到加速器,设计面向国产异构平台的分治算法;通过CPU+加速器多流,提出了任务并行的奇异向量矩阵生成方法。最终形成一套奇异值算法的高效移植优化方案。实验结果表明,该方案在不同的测试矩阵规模上,性能最高达到现有的商业闭源线性代数库MKL的9.8倍,以及现有开源异构计算线性代数库MAGMA的5.5倍。最终将其用于图像处理,并跨平台与MATLAB、NVIDIA公司的GPU线性代数库CUSOLVER进行对比,其具有更快的速度且生成的图像与原图像相似度更高。 展开更多
关键词 并行计算 异构计算 奇异值分解 国产平台 图像处理
在线阅读 下载PDF
向量分组聚集计算技术研究
11
作者 张宇 张延松 《计算机工程与应用》 CSCD 北大核心 2021年第11期84-94,共11页
分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构... 分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构计算平台的硬件特征提出了向量聚集计算技术,将位于传统流水线末端的分组聚集计算按照"早分组,晚聚集"策略进行分解与下推,实现将数据密集型的分组聚集计算从流水线中分离,将操作与处理器计算特性优化匹配,实现异构计算平台上最优的负载分配。通过将传统基于哈希分组的聚集计算转换为向量分组聚集计算,显著提升了分组聚集计算性能。实验结果表明,向量分组聚集技术相对于具有代表性的高性能内存数据库Hyper、GPU数据库MapD最大达到5~8倍的性能提升。向量聚集计算不仅提高了OLAP聚集计算性能,而且实现了将数据密集型负载从查询计划中分离的目标,使异构计算平台能够根据处理器的硬件特性优化配置计算资源,提高异构计算平台OLAP的整体性能。 展开更多
关键词 cpu-gpu异构计算平台 向量分组聚集 分组向量索引 数据密集型负载
在线阅读 下载PDF
网格计算中的任务调度模型研究 被引量:13
12
作者 尚明生 《计算机工程》 EI CAS CSCD 北大核心 2006年第2期7-9,22,共4页
任务调度对于获取高性能具有十分重要的作用,各种任务调度算法都是基于不同的假设模型。从任务模型、网络平台模型和性能目标模型3个方面讨论了各种模型,结论为网格任务调度模型的主要发展方向是异构、非专用和多目标。
关键词 任务调度 计算网格 异构计算 应用模型 平台模型 性能模型
在线阅读 下载PDF
基于预处理BICGSTAB法的电力系统潮流并行计算方法 被引量:8
13
作者 宋晓喆 魏国 +3 位作者 李雪 王长江 孙福寿 李振元 《电力系统保护与控制》 EI CSCD 北大核心 2020年第20期18-28,共11页
为实现大规模电力系统潮流的准确、快速求解,以非精确牛顿法为基础,提出一种基于CPU-GPU异构平台的电力系统潮流并行计算方法。修正方程组的求解是牛拉法潮流计算中最为耗时的部分,提升修正方程组的求解效率可有效提升潮流计算效率。为... 为实现大规模电力系统潮流的准确、快速求解,以非精确牛顿法为基础,提出一种基于CPU-GPU异构平台的电力系统潮流并行计算方法。修正方程组的求解是牛拉法潮流计算中最为耗时的部分,提升修正方程组的求解效率可有效提升潮流计算效率。为此,根据雅可比矩阵的不对称不定性,采用稳定双正交共轭梯度(bi-conjugate gradient stabilized,BICGSTAB)法进行修正方程组的求解。进一步,为改善BICGSTAB法的收敛性,根据雅可比矩阵的稀疏性和类对角占优性,提出一种改进PPAT(Preconditioner with sparsity Pattern of AT,PPAT)预处理器和改进Jacobi预处理器相结合的两阶段预处理方法,并对雅可比矩阵进行预处理,提升BICGSTAB法的收敛性能。然后,将上述潮流算法移植到CPU-GPU异构平台,实现电力系统潮流的并行求解。最后,通过不同测试系统算例对所提方法进行验证、分析。结果表明,所提潮流并行计算方法可实现电力系统潮流的准确、快速求解。 展开更多
关键词 潮流计算 非精确牛顿法 雅可比矩阵 BICGSTAB法 预处理器 cpu-gpu异构平台
在线阅读 下载PDF
基于GPU加速的大电网N-1故障扫描批量计算方法 被引量:7
14
作者 张宸赓 许寅 +3 位作者 陈颖 苏大威 李一 刘思言 《电力自动化设备》 EI CSCD 北大核心 2020年第8期167-173,共7页
随着电网规模的不断扩大,从各种可能的设备开断情况中筛选出严重故障集成为N-1安全校验的重要耗时部分。为了加速大电网N-1安全校验的故障筛选,提出了一种基于中央处理器-图形处理器(CPU-GPU)异构计算框架的实时N-1故障扫描批量计算方... 随着电网规模的不断扩大,从各种可能的设备开断情况中筛选出严重故障集成为N-1安全校验的重要耗时部分。为了加速大电网N-1安全校验的故障筛选,提出了一种基于中央处理器-图形处理器(CPU-GPU)异构计算框架的实时N-1故障扫描批量计算方法。考虑到不同工况下的计算存在粗粒度并行性,进一步挖掘计算中的细粒度并行性是提高计算效率的有效途径。提出了同时考虑断线故障和发电机开断故障这2种预想事故下的细粒度并行计算方法,并设计了关键计算步骤的核函数。增加考虑了网络拓扑中的移相器,使得计算精度更高,通过与IEEE标准算例和欧洲真实电网算例对比,验证了各工况下批量计算方法的正确性,并取得了显著的加速效果。 展开更多
关键词 电力系统 静态安全分析 GPU N-1故障扫描 cpu-gpu异构计算框架
在线阅读 下载PDF
面向PHM的桌面超算平台设计 被引量:1
15
作者 司书浩 景博 +2 位作者 焦晓璇 付强 王赟 《电子测量与仪器学报》 CSCD 北大核心 2018年第9期28-35,共8页
针对复杂武器装备故障预测与健康管理(PHM)中存在的传感器种类多、采集数据量大,实时性要求高,运行平台性能低等问题,设计了一种PHM桌面超算平台。该平台基于数字信号处理器+现场可编程门阵列(DSP+FPGA)异构计算架构,用于实现系统的故... 针对复杂武器装备故障预测与健康管理(PHM)中存在的传感器种类多、采集数据量大,实时性要求高,运行平台性能低等问题,设计了一种PHM桌面超算平台。该平台基于数字信号处理器+现场可编程门阵列(DSP+FPGA)异构计算架构,用于实现系统的故障诊断、预测与健康管理功能。PHM桌面超算平台利用多块包含DSP和FPGA的协处理卡对PHM数据处理任务进行加速计算,并提供多通道高速数据采集和算法模型验证等功能。实验验证表明,该平台运行可靠,实用性强,为实现武器装备PHM系统功能提供了高性能运行平台。 展开更多
关键词 故障预测与健康管理 桌面超算平台 异构计算 数字信号处理器 现场可编程门阵列
在线阅读 下载PDF
GPU数据库OLAP优化技术研究 被引量:1
16
作者 张延松 刘专 +2 位作者 韩瑞琛 张宇 王珊 《软件学报》 EI CSCD 北大核心 2023年第11期5205-5229,共25页
GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模... GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模型更加适合,则需要更深入的研究.基于GPU的OLAP引擎有两个主要的技术路线:GPU内存处理模式和GPU加速模式.前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能,不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率.后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集,主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率.致力于将两种技术路线集成到OLAP加速引擎中,研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator,设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型,实现GPU平台向量化查询处理技术,优化显存利用率和查询性能,探索GPU数据库的不同的技术路线和性能特征.实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能,与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速.基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载,能够比GPU内存模式支持更大的数据集. 展开更多
关键词 混合cpu-gpu平台 GPU加速OLAP OLAP GPU内存 GPU量化处理模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部