随着人工智能大模型训练与推理业务的快速发展,智算中心面临算网协同调度的新挑战。为优化分布式智算Ring Allreduce业务的部署问题,首先,通过扩展传统波平面,开发了算力波平面技术,实现了算力与网络资源的一体化虚拟管理。然后,基于算...随着人工智能大模型训练与推理业务的快速发展,智算中心面临算网协同调度的新挑战。为优化分布式智算Ring Allreduce业务的部署问题,首先,通过扩展传统波平面,开发了算力波平面技术,实现了算力与网络资源的一体化虚拟管理。然后,基于算力波平面,提出了一种高效路由、波长、算力和时隙分配(routing,wavelength,computing power and time slot assignment,RWCTA)算法用于环规约(Ring Allreduce)业务部署。仿真结果表明,与传统基于波平面的部署算法相比,基于算力波平面的RWCTA算法能有效降低62.4%的总业务完成时间和54.5%的平均业务计算时间。展开更多
文摘随着人工智能大模型训练与推理业务的快速发展,智算中心面临算网协同调度的新挑战。为优化分布式智算Ring Allreduce业务的部署问题,首先,通过扩展传统波平面,开发了算力波平面技术,实现了算力与网络资源的一体化虚拟管理。然后,基于算力波平面,提出了一种高效路由、波长、算力和时隙分配(routing,wavelength,computing power and time slot assignment,RWCTA)算法用于环规约(Ring Allreduce)业务部署。仿真结果表明,与传统基于波平面的部署算法相比,基于算力波平面的RWCTA算法能有效降低62.4%的总业务完成时间和54.5%的平均业务计算时间。