期刊文献+
共找到65篇文章
< 1 2 4 >
每页显示 20 50 100
基于ROACH2-GPU的集群相关器研究——Hashpipe软件在X-engine模块中的应用
1
作者 张科 王钊 +6 位作者 李吉夏 吴锋泉 田海俊 牛晨辉 张巨勇 陈志平 陈学雷 《贵州师范大学学报(自然科学版)》 北大核心 2025年第2期114-121,共8页
随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时... 随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时关联计算的需求,利用GPU在高性能并行计算上的优势,为天籁柱形探路者阵列设计并实现一套基于ROACH2-GPU的集群相关器,深入探究Hashpipe(High availibility shared pipeline engine)软件在集群相关器X-engine模块中的应用。首先介绍ROACH2-GPU集群相关器的整体架构,然后研究Hashpipe的核心功能和数据处理方法,实现了完整的分布式异构处理功能,优化了Hashpipe控制和参数接口。根据实际观测需求,可修改程序参数,能实现不同通道数量的相关器配置,降低后端软硬件设计的难度和成本。最后,在完成软件正确性测试的基础上,进行了强射电天文源的观测和处理,能够获得准确的干涉条纹。 展开更多
关键词 ROACH2-gpu Hashpipe 集群相关器 X-engine模块 并行计算
在线阅读 下载PDF
星脉网络:面向GPU集群集合通信与集中式路由的协同优化
2
作者 李宝嘉 何春志 +2 位作者 夏寅贲 何泽坤 王晓亮 《中兴通讯技术》 北大核心 2025年第2期3-13,共11页
图形处理器(GPU)集群网络流量不断增加,运营难度明显加大,这给高性能大规模GPU集群网络系统的构建带来新的挑战与机遇。提出了一种能够实现超10万GPU集群互联的无损高性能网络方案——星脉网络。GPU集群网络需要联合优化端侧的集合通信... 图形处理器(GPU)集群网络流量不断增加,运营难度明显加大,这给高性能大规模GPU集群网络系统的构建带来新的挑战与机遇。提出了一种能够实现超10万GPU集群互联的无损高性能网络方案——星脉网络。GPU集群网络需要联合优化端侧的集合通信库和网络路由控制器,以实现多路径的高效集合通信。为此,针对星脉网络研发了端侧集合通信库(TCCL)以实现最短的跨节点路径规划,同时还开发了全局优化路由器(GOR)以避免路径冲突导致的网络拥塞。在腾讯大模型GPU集群中,星脉网络方案和公开GPU集群方案(NVIDIA NCCL)的对比结果表明:星脉网络可以实现25%的集合通信带宽提升,同时避免80%的由流量冲突造成的网络拥塞问题。 展开更多
关键词 大规模gpu集群 集合通信 负载均衡
在线阅读 下载PDF
基于GPU集群的空间VLBI射电源条纹搜索研究 被引量:1
3
作者 段学铭 童力 +1 位作者 郑为民 张娟 《天文学进展》 CSCD 北大核心 2024年第3期494-505,共12页
探月工程四期将发射嫦娥七号“鹊桥二号”中继星,搭载4.2 m口径的抛物面望远镜,与地面射电望远镜构成首个月轨空间VLBI。空间VLBI受中继星轨道扰动和星载设备时延等因素影响,射电源的预报时延模型无法引导相关处理机正常工作,需通过基... 探月工程四期将发射嫦娥七号“鹊桥二号”中继星,搭载4.2 m口径的抛物面望远镜,与地面射电望远镜构成首个月轨空间VLBI。空间VLBI受中继星轨道扰动和星载设备时延等因素影响,射电源的预报时延模型无法引导相关处理机正常工作,需通过基于实测信号条纹搜索的方法找到符合要求的高精度时延模型。为此,提出一种基于GPU集群的空间VLBI射电源条纹搜索算法,研究在GPU集群上负载均衡的任务分配方法,并行实现相关处理模块和残余值搜索模块。通过RadioAstron 1 min观测数据验证,相较于目前CPU集群平台,GPU集群处理速度提升了27.0倍。 展开更多
关键词 空间VLBI 条纹搜索 gpu集群 相关处理
在线阅读 下载PDF
容器集群GPU资源共享调度优化 被引量:1
4
作者 罗恋 顾进广 +1 位作者 李奇缘 高峰 《计算机应用与软件》 北大核心 2024年第7期207-214,共8页
在容器集群环境中,整块的物理GPU资源通常只能被单个容器独享调度,存在大量的资源浪费。现有的GPU共享调度方案中仍存在调度失败、资源开销大或没有实现资源隔离的问题,改进的GPU Sharing利用LD_PRELOAD机制有效地实现了GPU显存资源的隔... 在容器集群环境中,整块的物理GPU资源通常只能被单个容器独享调度,存在大量的资源浪费。现有的GPU共享调度方案中仍存在调度失败、资源开销大或没有实现资源隔离的问题,改进的GPU Sharing利用LD_PRELOAD机制有效地实现了GPU显存资源的隔离,并优化了原有的调度算法,极大提高了集群显存资源的利用率。实验结果验证了改进后GPU Sharing在资源隔离实现上的有效性,同时,改进后的GPU Sharing同在物理机上执行应用程序只多了1.008%的额外开销,而且优化后的调度算法提高了53.01%的GPU显存利用率。 展开更多
关键词 gpu集群 gpu共享调度 容器 资源共享 gpu利用率
在线阅读 下载PDF
研发类GPU集群任务数据集的构建及分析
5
作者 罗婧 叶志晟 +4 位作者 杨泽华 傅天豪 魏雄 汪小林 罗英伟 《计算机工程与科学》 CSCD 北大核心 2024年第12期2128-2137,共10页
近年来,随着深度学习模型训练需求增长,研究机构和企业通过搭建共享GPU集群来降低成本和提高效率。现有研究主要关注企业生产类GPU集群的任务调度和资源分配。针对研发类GPU集群鹏城云脑I,进行任务运行时关键指标的监控和数据采集,构建... 近年来,随着深度学习模型训练需求增长,研究机构和企业通过搭建共享GPU集群来降低成本和提高效率。现有研究主要关注企业生产类GPU集群的任务调度和资源分配。针对研发类GPU集群鹏城云脑I,进行任务运行时关键指标的监控和数据采集,构建含任务细粒度时序资源使用信息的深度学习训练任务数据集——鹏城云脑I任务数据集。该数据集是首个面向研发类GPU集群公开数据集,揭示了研发类GPU集群中资源利用率低的现象,为研发类GPU集群高资源利用率的调度器设计提供依据和参考,推动任务调度和资源分配机制的研究。 展开更多
关键词 gpu集群 深度学习 集群负载 任务数据集 资源利用率
在线阅读 下载PDF
应用GPU集群加速计算蛋白质分子场 被引量:12
6
作者 张繁 王章野 +2 位作者 姚建 吴韬 彭群生 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第3期412-419,共8页
针对生物化学计算中采用量子化学理论计算蛋白质分子场所带来的巨大计算量的问题,搭建起一个GPU集群系统,用来加速计算基于量子化学的蛋白质分子场.该系统采用消息传递并行编程环境(MPI)连接集群各结点,以开放多线程OpenMP编程标准作为... 针对生物化学计算中采用量子化学理论计算蛋白质分子场所带来的巨大计算量的问题,搭建起一个GPU集群系统,用来加速计算基于量子化学的蛋白质分子场.该系统采用消息传递并行编程环境(MPI)连接集群各结点,以开放多线程OpenMP编程标准作为多核CPU编程环境,以CUDA语言作为GPU编程环境,提出并实现了集群系统结点中GPU和多核CPU协同计算的并行加速架构优化设计.在保持较高计算精度的前提下,结合MPI,OpenMP和CUDA混合编程模式,大大提高了系统的计算性能,并对不同体系和规模的蛋白质分子场模拟进行了计算分析.与相应的CPU集群、GPU单机和CPU单机计算方法对比,该GPU集群大幅度地提高了高分辨率复杂蛋白质分子场模拟的计算效率,比CPU集群的平均计算加速比提高了7.5倍. 展开更多
关键词 gpu集群 蛋白质分子场模拟 并行加速架构设计
在线阅读 下载PDF
平行散点图:基于GPU的可视化分析方法 被引量:7
7
作者 杨珂 罗琼 石教英 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2008年第9期1219-1228,共10页
提出一种分析多维数据集之间关系的信息可视化方法——平行散点图.结合平行坐标、散点图方法,综合了焦点+背景、多视角、多视图、刷子等交互与可视化策略,使人有效地观察与分析多维数据集之间的连接关系;利用统一渲染GPU对粒子、线段、... 提出一种分析多维数据集之间关系的信息可视化方法——平行散点图.结合平行坐标、散点图方法,综合了焦点+背景、多视角、多视图、刷子等交互与可视化策略,使人有效地观察与分析多维数据集之间的连接关系;利用统一渲染GPU对粒子、线段、公告牌等的绘制与输出功能,在千万级数据集上达到较强的深度感与交互级的绘制性能;提出GPU上基于空间填充曲线的聚类算法,可交互式地降低连接线的视觉杂乱度;将连接、聚类与可视化整合为一个基于GPU的系统,在千万级数据集上达到交互级的可视化分析. 展开更多
关键词 信息可视化 gpu 多维数据 连接 聚类
在线阅读 下载PDF
GPU集群上的三维UPML-FDTD算法的实现及优化 被引量:6
8
作者 徐磊 徐莹 +1 位作者 蒋荣琳 张丹丹 《计算机工程与科学》 CSCD 北大核心 2013年第11期160-167,共8页
在高性能计算领域,拥有强大浮点计算能力的协处理器正在快速发展。近年来,利用协处理器(如GPU)来加速时域有限差分FDTD算法的计算过程成为电磁研究领域的热点问题。在GPU集群上实现了三维UPML-FDTD算法并进行了优化。采用电偶极子激励... 在高性能计算领域,拥有强大浮点计算能力的协处理器正在快速发展。近年来,利用协处理器(如GPU)来加速时域有限差分FDTD算法的计算过程成为电磁研究领域的热点问题。在GPU集群上实现了三维UPML-FDTD算法并进行了优化。采用电偶极子激励源对算法的模拟结果同解析解进行了验证,结果表明该算法具有较高的精度;同时,在NVIDIA Tesla M2070和K20mGPU集群上对FDTD算法的性能进行测试,对优化前后的计算结果以及GPU与CPU的计算性能进行了比较,并使用80块NVIDIA Tesla K20mGPU进行了可扩展性测试。从本文的研究结果可以看出,经过优化的FDTD算法性能有了较大的提升,而且FDTD算法在GPU集群上获得了比较理想的并行效率。 展开更多
关键词 FDTD UPML gpu集群 MPI
在线阅读 下载PDF
基于集群和GPU的高光谱遥感影像并行处理 被引量:7
9
作者 王茂芝 郭科 徐文皙 《红外与激光工程》 EI CSCD 北大核心 2013年第11期3070-3075,共6页
以高光谱遥感影像数据处理中的主成分分析(PCA)和最小噪声分离(MNF)以及光谱相关系数填图(SCM)算法的并行化为目标,分别在集群环境下基于MPI设计并实现了协方差矩阵并行算法,以及基于GPU设计并实现了SCM并行算法,并在高光谱遥感影像数... 以高光谱遥感影像数据处理中的主成分分析(PCA)和最小噪声分离(MNF)以及光谱相关系数填图(SCM)算法的并行化为目标,分别在集群环境下基于MPI设计并实现了协方差矩阵并行算法,以及基于GPU设计并实现了SCM并行算法,并在高光谱遥感影像数据处理中得到应用和验证。实验结果表明,高光谱遥感影像数据处理高性能计算对于提高和改善其时间性能具有显著效果,是高光谱遥感工程化应用快速处理重要的技术手段。 展开更多
关键词 高光谱遥感 高性能计算 集群 gpu
在线阅读 下载PDF
GPU加速的基于增量式聚类的视频拷贝检测方法 被引量:5
10
作者 任化敏 张勇东 林守勋 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第3期449-456,共8页
为有效地保护版权,提高大规模视频集的拷贝检测速度,提出一种完全实现在GPU上的基于增量式聚类的拷贝检测方法.对数据库中新增加的视频,首先调用GPU上的硬件解码单元对视频流解码,以实时的速度提取高维SIFT特征点;然后对特征点进行增量K... 为有效地保护版权,提高大规模视频集的拷贝检测速度,提出一种完全实现在GPU上的基于增量式聚类的拷贝检测方法.对数据库中新增加的视频,首先调用GPU上的硬件解码单元对视频流解码,以实时的速度提取高维SIFT特征点;然后对特征点进行增量K-means聚类,以动态地反映数据库的变化,并根据聚类结果更新视觉关键词词典;再将每帧表示成归一化的词频向量;最后使用基于帧级别词频向量的时空顺序匹配法来判定查询视频是否为数据库中视频的拷贝.实验结果表明,该方法比原有的CPU实现方法整体提速最高达63倍. 展开更多
关键词 拷贝检测 增量聚类 视觉关键词 图形处理器 计算统一设备架构
在线阅读 下载PDF
面向集群环境的虚拟化GPU计算平台 被引量:8
11
作者 杨经纬 马凯 龙翔 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2016年第11期2340-2348,共9页
针对集群系统的多节点多GPU环境,提出一种新型虚拟化GPU计算平台.该平台实现对集群系统所有节点上GPU资源的统一抽象与管理,构建公共GPU资源池.原有GPU应用程序可以不经任何修改而迁移到虚拟化GPU计算平台,并具备访问资源池内任何GPU的... 针对集群系统的多节点多GPU环境,提出一种新型虚拟化GPU计算平台.该平台实现对集群系统所有节点上GPU资源的统一抽象与管理,构建公共GPU资源池.原有GPU应用程序可以不经任何修改而迁移到虚拟化GPU计算平台,并具备访问资源池内任何GPU的能力,编程人员无需显式针对多节点多GPU应用展开MPI编程.应用程序摆脱了单个节点上GPU资源的限制,并具备无差别地访问集群系统中任何可用GPU资源的能力,能有效提高系统总体资源利用率以及吞吐量.采用流水化通信技术,实现对虚拟化GPU计算平台的运行时开销以及节点间数据传输延迟的隐藏.实验表明:与非流水化通信相比,系统总体数据传输延迟降低了50%~70%,具备与节点机本地数据传输等同的通信性能. 展开更多
关键词 gpu MPI CUDA 集群系统 硬件加速 并行计算 高性能计算
在线阅读 下载PDF
基于GPU的二部图联合聚类并行算法研究 被引量:4
12
作者 张宇 刘坡 +2 位作者 杨敏华 龚建华 黄明详 《地理与地理信息科学》 CSCD 北大核心 2013年第4期99-103,108,共6页
提出一种基于GPU的二部图联合聚类并行算法,它能够在单指令多线程模型下完成高性能并行计算。针对空间联合聚类算法中存在大量的空间聚类计算和约束判断计算(文中为求和计算),并行算法分别采用共享存储器和全局存储器加速技术,来提高算... 提出一种基于GPU的二部图联合聚类并行算法,它能够在单指令多线程模型下完成高性能并行计算。针对空间联合聚类算法中存在大量的空间聚类计算和约束判断计算(文中为求和计算),并行算法分别采用共享存储器和全局存储器加速技术,来提高算法执行的效率。该文以表示同一地区多时相、多比例尺的两个空间要素集的聚类为例,表明二部图并行算法比CPU串行算法最高可以获得858倍的加速比。GPU的实时处理能力和计算能力可以为海量的空间数据聚类提供新的思路和参考。 展开更多
关键词 gpu 并行计算 空间聚类 二部图 邻接矩阵
在线阅读 下载PDF
CPU-GPU异构计算环境下的并行T近邻谱聚类算法 被引量:4
13
作者 张帅 李涛 +2 位作者 焦晓帆 王艺峰 杨愚鲁 《计算机研究与发展》 EI CSCD 北大核心 2015年第11期2555-2567,共13页
谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrid... 谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrids)算法是专为CPU-GPU异构计算环境设计的并行T近邻(T-nearest-neighbors,TNN)谱聚类算法,通过分块计算相似性矩阵打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量.PSCH算法中使用CUDA设计实现双缓冲轮转4段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能.PSCH算法采用隐式重启动Lanczos方法(implicitly restarted Lanczos method,IRIM)在异构硬件上计算稀疏特征矩阵的特征分解,减轻了特征分解步骤的计算瓶颈.PSCH算法在配有一块GTX 480GPU的单节点上能够对百万以上规模的数据集进行聚类,并对实验中的4个数据集取得了相对于使用16进程的MPI并行谱聚类PSC算法2.0~4.5倍的性能. 展开更多
关键词 谱聚类 T近邻 CPU-gpu异构计算 计算统一设备架构 OpenMP
在线阅读 下载PDF
多指标自趋优的GPU集群能耗控制模型 被引量:8
14
作者 王海峰 陈庆奎 《计算机研究与发展》 EI CSCD 北大核心 2015年第1期105-115,共11页
在大规模流数据实时处理领域中图形处理器(graphics processing unit,GPU)集群是一种重要的并行计算系统,对计算速度、能耗和可靠性3项指标都有较高要求.然而各指标互相约束,在实时计算中需要动态寻找最优均衡点,因此GPU集群中多项性能... 在大规模流数据实时处理领域中图形处理器(graphics processing unit,GPU)集群是一种重要的并行计算系统,对计算速度、能耗和可靠性3项指标都有较高要求.然而各指标互相约束,在实时计算中需要动态寻找最优均衡点,因此GPU集群中多项性能指标实时优化成为一个具有挑战性的问题.为综合考虑计算速度、能耗和可靠性3项指标,利用极大熵函数法把多项指标转化为一个综合性能评价指标,再以模型预测控制理论为基础构造一个自适应强的控制模型,该模型能够依据计算负载的变化动态调整集群内节点的能耗状态,在保证计算速度和可靠性的前提下消减冗余计算能耗.与未考虑可靠性的基准控制模型进行对比实验,结果表明所提出的模型具有较好的控制稳定性和鲁棒性,适合应用到GPU集群节能管理中. 展开更多
关键词 能耗优化 可靠性 gpu集群 模型预测 极大熵函数
在线阅读 下载PDF
面向通用计算GPU集群的任务自动分配系统 被引量:2
15
作者 胡新明 盛冲冲 +1 位作者 李佳佳 吴百锋 《计算机工程》 CAS CSCD 2014年第3期103-107,119,共6页
当前GPU集群的主流编程模型是MPI与CUDA的松散耦合,采用这种编程模型进行编程,存在编程复杂度大、程序的可移植性差、执行效率低等问题。为此,提出一种面向通用计算GPU集群的任务自动分配系统StreamMAP。对编译器进行改造,以编译制导的... 当前GPU集群的主流编程模型是MPI与CUDA的松散耦合,采用这种编程模型进行编程,存在编程复杂度大、程序的可移植性差、执行效率低等问题。为此,提出一种面向通用计算GPU集群的任务自动分配系统StreamMAP。对编译器进行改造,以编译制导的方式提供集群任务的计算资源需求,通过运行时系统动态地发现、建立并维护系统资源拓扑,设计一种较为契合GPU集群应用特征的任务分配策略。实验结果表明,StreamMAP系统能降低集群应用程序的编程复杂度,使之较为高效地利用GPU集群的计算资源,且程序的可移植性和可扩展性也得到了保证。 展开更多
关键词 gpu集群 异构 编程模型 任务分配 可移植性 可扩展性
在线阅读 下载PDF
基于蓝牙4.0的GPU集群功耗测量系统设计 被引量:8
16
作者 李杰 陈庆奎 《电子测量与仪器学报》 CSCD 2014年第3期314-319,共6页
为了给GPU集群低功耗优化研究提供依据,在蓝牙4.0技术的基础上,设计了一种无线GPU集群功耗测量系统。给出系统的总体架构和硬件设计方案,详细介绍了电流传感器ACS711的测量原理,并针对蓝牙无线传感器网络中节点对耗电量的高要求,提出了... 为了给GPU集群低功耗优化研究提供依据,在蓝牙4.0技术的基础上,设计了一种无线GPU集群功耗测量系统。给出系统的总体架构和硬件设计方案,详细介绍了电流传感器ACS711的测量原理,并针对蓝牙无线传感器网络中节点对耗电量的高要求,提出了一种基于RSSI的动态节能机制;然后对系统的性能参数进行了实验分析,其丢包率和测量误差分别为0.01%和0.65%;最终将系统部署到"大规模3G视频分析GPU集群"上进行实际测试研究。实验结果表明,系统性能稳定,丢包率低,测量误差小,能准确测量GPU集群的实时功耗。 展开更多
关键词 gpu集群 功耗 测量系统 蓝牙4 0 节能机制
在线阅读 下载PDF
GPU集群加速近似逆预条件CG并行求解器 被引量:1
17
作者 赵莲 赵永华 +1 位作者 陈尧 赵慰 《计算机科学与探索》 CSCD 北大核心 2015年第9期1084-1092,共9页
针对GPU集群系统,研究了分解近似逆(approximate inverse,AINV)和对称逐次超松弛-近似逆(symmetric successive over relaxation approximate inverse,SSOR-AI)两类近似逆预条件的并行算法。采用多级k-路图划分方法,通过子图的内点和边... 针对GPU集群系统,研究了分解近似逆(approximate inverse,AINV)和对称逐次超松弛-近似逆(symmetric successive over relaxation approximate inverse,SSOR-AI)两类近似逆预条件的并行算法。采用多级k-路图划分方法,通过子图的内点和边界点识别方法以及稀疏矩阵的置换技术,提出了将稀疏矩阵转换为分块箭形矩阵的并行方法。基于所形成的分块箭形矩阵,结合块内稀疏矩阵近似逆串行、块间并行的策略给出了近似逆预条件的并行方法,实现了AINV和SSOR-AI并行算法,解决了AINV预条件难以并行的问题。基于CPU与GPU协同计算、主机端页锁定内存和设备端计算与通信重叠的优化技术,实现了并行近似逆预条件与共轭梯度(conjugate gradient,CG)算法相结合的线性方程组混合并行求解器。数值实验表明,所提方法对AINV和SSOR-AI两类近似逆预条件,在多GPU上获得了很好的可扩展性和加速效果。 展开更多
关键词 近似逆 预条件 迭代法 异构并行计算 gpu集群
在线阅读 下载PDF
GPU集群能耗优化控制模型研究 被引量:3
18
作者 王海峰 曹云鹏 《电子学报》 EI CAS CSCD 北大核心 2015年第10期1904-1910,共7页
随着大数据技术的发展,GPU集群作为一种高效的并行系统被应用到大规模数据实时计算中.能量是实时计算时重要的资源,GPU集群的能耗优化及实时消减成为一个具有挑战性的问题.从集群全局角度引入模型预测控制策略,并建立闭环反馈机制的多... 随着大数据技术的发展,GPU集群作为一种高效的并行系统被应用到大规模数据实时计算中.能量是实时计算时重要的资源,GPU集群的能耗优化及实时消减成为一个具有挑战性的问题.从集群全局角度引入模型预测控制策略,并建立闭环反馈机制的多输入多输出控制器.通过调整计算频率和改变活跃流多处理器来改变能耗状态,利用反馈和滚动优化机制完成对未来的控制预判,实现消减冗余能耗的目标.实验表明:控制模型的精度和节能效果优于基准模型,而且具有较好的稳定性,适合应用到大规模数据实时计算中. 展开更多
关键词 能耗控制 gpu集群 能量消减 模型预测
在线阅读 下载PDF
基于CPU-GPU异构机群的FDTD并行算法加速研究 被引量:1
19
作者 邵宗有 王昭顺 刘新春 《系统仿真学报》 CAS CSCD 北大核心 2013年第2期235-240,共6页
时域有限差分法(FDTD)求解电磁学中麦克斯韦方程组是科学与工程计算中一个非常重要的算法。通过对FDTD求解麦克斯韦旋度方程的直接时间域的分析,给出其基于多个GPU组成异构机群系统上的并行加速算法,用OpenCL、CUDA和MPI编程模型实现了... 时域有限差分法(FDTD)求解电磁学中麦克斯韦方程组是科学与工程计算中一个非常重要的算法。通过对FDTD求解麦克斯韦旋度方程的直接时间域的分析,给出其基于多个GPU组成异构机群系统上的并行加速算法,用OpenCL、CUDA和MPI编程模型实现了并行程序。在目前的主流NVIDIA和ATI的GPU平台上,加速的并行FDTD程序相对CPU串行程序和8个CPU核的MPI并行程序,分别获得了超过8倍和1.5倍的加速,并在多个GPU卡上获得了接近线性加速的扩展性能。 展开更多
关键词 电磁场仿真 时域有限差分法 gpu 机群
在线阅读 下载PDF
用户QoS感知的GPU集群深度学习任务动态调度 被引量:3
20
作者 罗磊 陈照云 王俪璇 《计算机工程与科学》 CSCD 北大核心 2021年第8期1331-1340,共10页
提出一种GPU集群下用户服务质量QoS感知的深度学习研发平台上的动态任务调度方法。采用离线评估模块对深度学习任务进行离线评测并构建计算性能预测模型。在线调度模块基于性能预测模型,结合任务的预期QoS,共同开展任务放置和任务执行... 提出一种GPU集群下用户服务质量QoS感知的深度学习研发平台上的动态任务调度方法。采用离线评估模块对深度学习任务进行离线评测并构建计算性能预测模型。在线调度模块基于性能预测模型,结合任务的预期QoS,共同开展任务放置和任务执行顺序的调度。在一个分布式GPU集群实例上的实验表明,该方法相比其他基准策略能够实现更高的QoS保证率和集群资源利用率。 展开更多
关键词 深度学习 gpu集群 任务调度 QOS
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部