期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于算网状态感知的多集群GPU算力资源调度平台设计与实现
1
作者
胡亚辉
张宸康
+4 位作者
王越嶙
洪雨琛
范鹏飞
宋俊平
周旭
《通信学报》
北大核心
2025年第10期175-190,共16页
针对大规模深度学习任务的多集群GPU调度中资源粒度粗放、缺乏统一vGPU视图及跨集群网络感知不足等问题,设计算网状态感知的多集群GPU算力调度平台。平台采用集中式架构,通过实时感知跨集群算力资源与网络状态并协同调度,实现细粒度全...
针对大规模深度学习任务的多集群GPU调度中资源粒度粗放、缺乏统一vGPU视图及跨集群网络感知不足等问题,设计算网状态感知的多集群GPU算力调度平台。平台采用集中式架构,通过实时感知跨集群算力资源与网络状态并协同调度,实现细粒度全局资源编排调度。平台先构建设备、集群、vGPU及网络层多维度指标体系,实时采集核心利用率、显存、带宽等关键数据;设计节点级vGPU编排部署模块,突破“作业到集群”局限,达成“作业到节点”精准调度,提升GPU共享效率与资源利用率。实验表明,平台可实现多集群vGPU与网络信息的实时采集可视化,经DDPG强化学习及BestFit算法验证,具备高效资源管理能力。
展开更多
关键词
多集群
图形处理器
算力资源
算网状态感知
编排调度
在线阅读
下载PDF
职称材料
题名
基于算网状态感知的多集群GPU算力资源调度平台设计与实现
1
作者
胡亚辉
张宸康
王越嶙
洪雨琛
范鹏飞
宋俊平
周旭
机构
中国矿业大学(北京)人工智能学院
中国科学院计算机网络信息中心
出处
《通信学报》
北大核心
2025年第10期175-190,共16页
基金
国家重点研发计划基金资助项目(No.2024YFB2908700)
中央高校基本科研业务费专项资金资助项目(No.2025ZKPYZN02)
国家能源集团科技环保有限公司开放课题资助项目(No.YZ-2025-101)。
文摘
针对大规模深度学习任务的多集群GPU调度中资源粒度粗放、缺乏统一vGPU视图及跨集群网络感知不足等问题,设计算网状态感知的多集群GPU算力调度平台。平台采用集中式架构,通过实时感知跨集群算力资源与网络状态并协同调度,实现细粒度全局资源编排调度。平台先构建设备、集群、vGPU及网络层多维度指标体系,实时采集核心利用率、显存、带宽等关键数据;设计节点级vGPU编排部署模块,突破“作业到集群”局限,达成“作业到节点”精准调度,提升GPU共享效率与资源利用率。实验表明,平台可实现多集群vGPU与网络信息的实时采集可视化,经DDPG强化学习及BestFit算法验证,具备高效资源管理能力。
关键词
多集群
图形处理器
算力资源
算网状态感知
编排调度
Keywords
multi-cluster
graphics processing unit
computing resource
network and computing state awareness
orchestration and deployment
分类号
TN393 [电子电信—物理电子学]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于算网状态感知的多集群GPU算力资源调度平台设计与实现
胡亚辉
张宸康
王越嶙
洪雨琛
范鹏飞
宋俊平
周旭
《通信学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部