在云计算网络中,多租户环境下的网络拥塞问题一直是一个重要挑战,而软件定义网络(software defined network,简称SDN)提供了一种灵活、高效的网络管理方式,使得多租户共享网络资源成为可能。本文研究了一种基于软件定义网络的拥塞控制方...在云计算网络中,多租户环境下的网络拥塞问题一直是一个重要挑战,而软件定义网络(software defined network,简称SDN)提供了一种灵活、高效的网络管理方式,使得多租户共享网络资源成为可能。本文研究了一种基于软件定义网络的拥塞控制方法,通过租户优先级的划分以及网络遥测技术实现虚拟网络层面的拥塞控制,并优化了网络资源的利用率,实现了虚拟网络层面的精细化调控,减少了网络拥塞的发生。实验结果表明,该方法在提高网络性能、确保租户服务质量方面具有显著优势。本文的研究为云网络环境下多租户环境中的拥塞控制提供了新的思路和解决方案。展开更多
文摘为解决智算中心超大规模算力集群算力可用率低、国产技术成熟度低、大规模组网效率存在瓶颈、运营运维复杂等问题,提出了一种基于云计算技术构建智算中心万卡集群的系统。采用18432块神经网络处理单元(neural processing unit,NPU)卡和优化后的基于以太网的远程直接内存访问(remote direct memory access,RDMA)网络构建云化的智算中心万卡集群,结合软件定义网络(software defined network,SDN)技术实现RDMA网络租户隔离,实现了链路负载均衡误差小于10%,集群All-Reduce带宽达35 GB/s以上。采用优化后的分布式存储协议,实现模型断点恢复时长缩短为原来的1/2。验证结果表明,经过软硬件协同优化,国产化的NPU万卡集群不仅能够满足千亿参数大模型训练的需求,未来更可以支撑万亿参数大模型训练任务。
文摘在云计算网络中,多租户环境下的网络拥塞问题一直是一个重要挑战,而软件定义网络(software defined network,简称SDN)提供了一种灵活、高效的网络管理方式,使得多租户共享网络资源成为可能。本文研究了一种基于软件定义网络的拥塞控制方法,通过租户优先级的划分以及网络遥测技术实现虚拟网络层面的拥塞控制,并优化了网络资源的利用率,实现了虚拟网络层面的精细化调控,减少了网络拥塞的发生。实验结果表明,该方法在提高网络性能、确保租户服务质量方面具有显著优势。本文的研究为云网络环境下多租户环境中的拥塞控制提供了新的思路和解决方案。