期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于算网状态感知的多集群GPU算力资源调度平台设计与实现
1
作者 胡亚辉 张宸康 +4 位作者 王越嶙 洪雨琛 范鹏飞 宋俊平 周旭 《通信学报》 北大核心 2025年第10期175-190,共16页
针对大规模深度学习任务的多集群GPU调度中资源粒度粗放、缺乏统一vGPU视图及跨集群网络感知不足等问题,设计算网状态感知的多集群GPU算力调度平台。平台采用集中式架构,通过实时感知跨集群算力资源与网络状态并协同调度,实现细粒度全... 针对大规模深度学习任务的多集群GPU调度中资源粒度粗放、缺乏统一vGPU视图及跨集群网络感知不足等问题,设计算网状态感知的多集群GPU算力调度平台。平台采用集中式架构,通过实时感知跨集群算力资源与网络状态并协同调度,实现细粒度全局资源编排调度。平台先构建设备、集群、vGPU及网络层多维度指标体系,实时采集核心利用率、显存、带宽等关键数据;设计节点级vGPU编排部署模块,突破“作业到集群”局限,达成“作业到节点”精准调度,提升GPU共享效率与资源利用率。实验表明,平台可实现多集群vGPU与网络信息的实时采集可视化,经DDPG强化学习及BestFit算法验证,具备高效资源管理能力。 展开更多
关键词 多集群 图形处理器 算力资源 算网状态感知 编排调度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部