算力供给的代际异构性与供应链安全需求,促使异构算力成为AI基础设施的新趋势。然而,在异构混合训练场景中,基于融合以太网的RDMA版本2(RDMA over converged Ethernet version 2,RoCEv2)方案存在负载均衡与拥塞控制缺陷,在模型训练的并...算力供给的代际异构性与供应链安全需求,促使异构算力成为AI基础设施的新趋势。然而,在异构混合训练场景中,基于融合以太网的RDMA版本2(RDMA over converged Ethernet version 2,RoCEv2)方案存在负载均衡与拥塞控制缺陷,在模型训练的并行通信中性能欠佳;而现有高性能同构智算网络方案因设备异构与集合通信库(collective communication library,CCL)闭源难以部署。为此,提出了面向异构算力场景的高性能智算网络解决方案——智能控制以太网(intelligent control Ethernet,ICE)。该方案基于RoCEv2协议体系,在避免对设备、CCL进行深度定制的前提下,将异构通信库信息采集、集中控制器与端侧自主控制相结合,实现全局最优路径规划及全局主动拥塞控制,显著提升异构并行通信性能。真实物理环境实验表明,ICE可提升集合通信性能最高达47%。ICE为异构智算网络建设提供了开创性、易部署的解决方案。展开更多
云网资源与视频任务的高效调度是保障视频物联网(video Internet of things,VIoT)应用性能的关键.然而,目前运营化VIoT所用调度算法对差异化的任务需求和高度动态的云网资源变化适应能力不足,导致VIoT应用性能不佳.针对上述问题,提出了...云网资源与视频任务的高效调度是保障视频物联网(video Internet of things,VIoT)应用性能的关键.然而,目前运营化VIoT所用调度算法对差异化的任务需求和高度动态的云网资源变化适应能力不足,导致VIoT应用性能不佳.针对上述问题,提出了一种基于连续学习的视频物联网任务需求理解与调度方法(continuous learning-based task demand understanding and scheduling method for VIoT,CLTUS).与传统启发式或机器学习驱动的调度算法不同,将连续学习引入云网资源与视频任务需求的匹配中.首先,基于通用的连续学习框架实现各类视频任务需求的准确理解;其次,依据视频任务之间的需求依赖关系,实现任务与服务器的适配,以精细化调度云网资源;最后,将所提方法部署于软件定义的VIoT实验平台上.与传统方法相比,CLTUS不仅将视频任务的平均处理效率提高了127.73%,还将云网资源利用均衡率提高至67.2%,有效增强了VIoT应用性能.展开更多
文摘算力供给的代际异构性与供应链安全需求,促使异构算力成为AI基础设施的新趋势。然而,在异构混合训练场景中,基于融合以太网的RDMA版本2(RDMA over converged Ethernet version 2,RoCEv2)方案存在负载均衡与拥塞控制缺陷,在模型训练的并行通信中性能欠佳;而现有高性能同构智算网络方案因设备异构与集合通信库(collective communication library,CCL)闭源难以部署。为此,提出了面向异构算力场景的高性能智算网络解决方案——智能控制以太网(intelligent control Ethernet,ICE)。该方案基于RoCEv2协议体系,在避免对设备、CCL进行深度定制的前提下,将异构通信库信息采集、集中控制器与端侧自主控制相结合,实现全局最优路径规划及全局主动拥塞控制,显著提升异构并行通信性能。真实物理环境实验表明,ICE可提升集合通信性能最高达47%。ICE为异构智算网络建设提供了开创性、易部署的解决方案。
文摘云网资源与视频任务的高效调度是保障视频物联网(video Internet of things,VIoT)应用性能的关键.然而,目前运营化VIoT所用调度算法对差异化的任务需求和高度动态的云网资源变化适应能力不足,导致VIoT应用性能不佳.针对上述问题,提出了一种基于连续学习的视频物联网任务需求理解与调度方法(continuous learning-based task demand understanding and scheduling method for VIoT,CLTUS).与传统启发式或机器学习驱动的调度算法不同,将连续学习引入云网资源与视频任务需求的匹配中.首先,基于通用的连续学习框架实现各类视频任务需求的准确理解;其次,依据视频任务之间的需求依赖关系,实现任务与服务器的适配,以精细化调度云网资源;最后,将所提方法部署于软件定义的VIoT实验平台上.与传统方法相比,CLTUS不仅将视频任务的平均处理效率提高了127.73%,还将云网资源利用均衡率提高至67.2%,有效增强了VIoT应用性能.