Large latency of applications will bring revenue loss to cloud infrastructure providers in the cloud data center. The existing controllers of software-defined networking architecture can fetch and process traffic info...Large latency of applications will bring revenue loss to cloud infrastructure providers in the cloud data center. The existing controllers of software-defined networking architecture can fetch and process traffic information in the network. Therefore, the controllers can only optimize the network latency of applications. However, the serving latency of applications is also an important factor in delivered user-experience for arrival requests. Unintelligent request routing will cause large serving latency if arrival requests are allocated to overloaded virtual machines. To deal with the request routing problem, this paper proposes the workload-aware software-defined networking controller architecture. Then, request routing algorithms are proposed to minimize the total round trip time for every type of request by considering the congestion in the network and the workload in virtual machines(VMs). This paper finally provides the evaluation of the proposed algorithms in a simulated prototype. The simulation results show that the proposed methodology is efficient compared with the existing approaches.展开更多
目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处...目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处理器功能卸载等思想,能够高带宽、低延迟地读写远端主机内存数据.兼容以太网的RDMA技术正在数据中心领域展开应用,以太网RDMA网卡作为主要功能承载设备,对其部署发挥重要作用.综述从架构、优化和实现评估3个方面进行分析:1)对以太网RDMA网卡的通用架构进行了总结,并对其关键功能部件进行了介绍;2)重点阐述了存储资源、可靠传输和应用相关3方面的优化技术,包括面向网卡缓存资源的连接可扩展性和面向主机内存资源的注册访问优化,面向有损以太网实现可靠传输的拥塞控制、流量控制和重传机制优化,面向分布式存储中不同存储类型、数据库系统、云存储系统以及面向数据中心应用的多租户性能隔离、安全性、可编程性等方面的优化工作;3)调研了不同实现方式、评估方式.最后,给出总结和展望.展开更多
在当前数字化时代,互联网数据中心(internet data center,IDC)(以下简称“数据中心”)作为大型的电力消耗者已经成为电力网络中的重要组成部分。首先采用数据中心余热回收技术建立了数据中心等值热参数模型,并将其融入到微能源网中以实...在当前数字化时代,互联网数据中心(internet data center,IDC)(以下简称“数据中心”)作为大型的电力消耗者已经成为电力网络中的重要组成部分。首先采用数据中心余热回收技术建立了数据中心等值热参数模型,并将其融入到微能源网中以实现冷热电多能互补。其次对数据中心运行过程中所需制冷量与余热之间的复杂关系进行了深入分析,采用溴化锂吸收式制冷机和电制冷机来满足数据中心的冷负荷需求。为了更有效地应对批处理负荷在时间维度上的变化特性,制定了高度灵活的数据负荷分配策略,并建立了双层规划模型。使用场景削减的典型日选择方法以应对源荷不确定性,并引入基于Tent映射的灰狼优化算法(Tent mapping grey wolf optimization algorithm,TMGWO)和CPLEX进行联合求解。最后,通过对某含数据中心的微能源网系统进行仿真分析,数值计算结果表明所提出的方法能够有效提高系统的经济性和环保性。展开更多
为解决数据中心在电力-算力联合市场与低碳配电网协同规划中的问题,提出了一种多目标区间-随机优化方法。通过引入算力租赁机制,优化了资源利用效率与经济效益,同时降低了运营成本与碳排放。针对协同规划中的多目标优化与高维不确定性问...为解决数据中心在电力-算力联合市场与低碳配电网协同规划中的问题,提出了一种多目标区间-随机优化方法。通过引入算力租赁机制,优化了资源利用效率与经济效益,同时降低了运营成本与碳排放。针对协同规划中的多目标优化与高维不确定性问题,设计了一种基于分解的自适应约束处理区间多目标进化算法—采用两种交叉策略(adaptive constraint-handling interval multi-objective evolutionary algorithm based on decomposition with two crossover strategies,ACIMOEA/D-TCS)。该算法能够高效求解帕累托前沿,提供鲁棒性和可行性兼具的优化方案。结果表明,数据中心参与算力市场显著提高了资源利用效率和经济效益,同时有效降低了碳排放。通过对算力资源租赁与配电系统运行的优化,所提模型在经济和环境效益方面取得显著提升,为电力-算力联合市场下的协同规划问题提供了新的理论方法与解决方案。展开更多
拥有千亿级别参数的大语言模型(large language model,LLM)已为今天的人工智能和云服务带来了巨大的技术和商业变革.然而,大模型训练与传统的通用云计算(例如,亚马逊EC2弹性计算服务)之间存在较多根本性的网络行为差异,从而带来了很多...拥有千亿级别参数的大语言模型(large language model,LLM)已为今天的人工智能和云服务带来了巨大的技术和商业变革.然而,大模型训练与传统的通用云计算(例如,亚马逊EC2弹性计算服务)之间存在较多根本性的网络行为差异,从而带来了很多新的挑战,主要包括流量模式差异造成负载难均衡(挑战1)、多训练任务通信竞争影响GPU利用率(挑战2),以及对网络故障的高敏感性(挑战3)等.因此,为通用云计算设计的数据中心网络技术(例如,网络架构、选路方法、流量调度,以及可靠性保障方法等)已不适合今天的大模型训练,这要求专门为大模型训练设计新型的数据中心网络以及配套的技术方案.介绍了阿里云专门为大模型训练设计的数据中心网络HPN以及多任务通信调度方法Crux解决上述3个挑战.HPN通过引入了一种2层、双平面(dual-plane)的网络架构,不但能够在一个Pod内高速互联15000个GPU,还能做到适用大模型训练的精准选路(解决挑战1).此外,HPN提出了一种新型的去堆叠双ToR(top-of-rack)设计来替代传统数据中心网络的单ToR交换机连接方式,根本性地避免了单点失效可靠性风险(部分解决挑战3).针对挑战2,Crux通过对GPU利用率优化问题的建模与证明,将该NP完全问题近似成GPU强度相关的流量调度问题.随后,Crux提出了一个方法优先处理具有高GPU计算强度的任务流,从而极大降低了多任务的通信竞争,优化了GPU利用率.与相关工作对比,Crux可以将GPU利用率提高多达23个百分点.HPN和Crux均已在阿里云生产环境规模化部署超过8个月,后续会持续演进迭代.在此基础上,进一步展望了大模型训练与推理领域可能的研究方向,为后续工作提供指导性建议.展开更多
随着网络技术的不断发展,基于Fat-Tree的网络拓扑结构分布式网络控制模式逐渐显露出其局限性,软件定义数据中心网络(software-defined data center network,SDCN)技术作为Fat-Tree网络拓扑的改进技术,受到越来越多研究者的关注。首先搭...随着网络技术的不断发展,基于Fat-Tree的网络拓扑结构分布式网络控制模式逐渐显露出其局限性,软件定义数据中心网络(software-defined data center network,SDCN)技术作为Fat-Tree网络拓扑的改进技术,受到越来越多研究者的关注。首先搭建了一个SDCN中的边缘计算架构和基于移动边缘计算(mobileedge computing,MEC)平台三层服务架构的任务卸载模型,结合移动边缘计算平台的实际应用场景,利用同策略经验回放和熵正则改进传统的深度Q网络(deep Q-leaning network,DQN)算法,优化了MEC平台的任务卸载策略,并设计了实验对基于同策略经验回放和熵正则的改进深度Q网络算法(improved DQN algorithm based on same strategy empirical playback and entropy regularization,RSS2E-DQN)和其他3种算法在负载均衡、能耗、时延、网络使用量几个方面进行对比分析,验证了改进算法在上述4个方面具有更优越的性能。展开更多
基金supported by the National Postdoctoral Science Foundation of China(2014M550068)
文摘Large latency of applications will bring revenue loss to cloud infrastructure providers in the cloud data center. The existing controllers of software-defined networking architecture can fetch and process traffic information in the network. Therefore, the controllers can only optimize the network latency of applications. However, the serving latency of applications is also an important factor in delivered user-experience for arrival requests. Unintelligent request routing will cause large serving latency if arrival requests are allocated to overloaded virtual machines. To deal with the request routing problem, this paper proposes the workload-aware software-defined networking controller architecture. Then, request routing algorithms are proposed to minimize the total round trip time for every type of request by considering the congestion in the network and the workload in virtual machines(VMs). This paper finally provides the evaluation of the proposed algorithms in a simulated prototype. The simulation results show that the proposed methodology is efficient compared with the existing approaches.
文摘目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处理器功能卸载等思想,能够高带宽、低延迟地读写远端主机内存数据.兼容以太网的RDMA技术正在数据中心领域展开应用,以太网RDMA网卡作为主要功能承载设备,对其部署发挥重要作用.综述从架构、优化和实现评估3个方面进行分析:1)对以太网RDMA网卡的通用架构进行了总结,并对其关键功能部件进行了介绍;2)重点阐述了存储资源、可靠传输和应用相关3方面的优化技术,包括面向网卡缓存资源的连接可扩展性和面向主机内存资源的注册访问优化,面向有损以太网实现可靠传输的拥塞控制、流量控制和重传机制优化,面向分布式存储中不同存储类型、数据库系统、云存储系统以及面向数据中心应用的多租户性能隔离、安全性、可编程性等方面的优化工作;3)调研了不同实现方式、评估方式.最后,给出总结和展望.
文摘在当前数字化时代,互联网数据中心(internet data center,IDC)(以下简称“数据中心”)作为大型的电力消耗者已经成为电力网络中的重要组成部分。首先采用数据中心余热回收技术建立了数据中心等值热参数模型,并将其融入到微能源网中以实现冷热电多能互补。其次对数据中心运行过程中所需制冷量与余热之间的复杂关系进行了深入分析,采用溴化锂吸收式制冷机和电制冷机来满足数据中心的冷负荷需求。为了更有效地应对批处理负荷在时间维度上的变化特性,制定了高度灵活的数据负荷分配策略,并建立了双层规划模型。使用场景削减的典型日选择方法以应对源荷不确定性,并引入基于Tent映射的灰狼优化算法(Tent mapping grey wolf optimization algorithm,TMGWO)和CPLEX进行联合求解。最后,通过对某含数据中心的微能源网系统进行仿真分析,数值计算结果表明所提出的方法能够有效提高系统的经济性和环保性。
文摘为解决数据中心在电力-算力联合市场与低碳配电网协同规划中的问题,提出了一种多目标区间-随机优化方法。通过引入算力租赁机制,优化了资源利用效率与经济效益,同时降低了运营成本与碳排放。针对协同规划中的多目标优化与高维不确定性问题,设计了一种基于分解的自适应约束处理区间多目标进化算法—采用两种交叉策略(adaptive constraint-handling interval multi-objective evolutionary algorithm based on decomposition with two crossover strategies,ACIMOEA/D-TCS)。该算法能够高效求解帕累托前沿,提供鲁棒性和可行性兼具的优化方案。结果表明,数据中心参与算力市场显著提高了资源利用效率和经济效益,同时有效降低了碳排放。通过对算力资源租赁与配电系统运行的优化,所提模型在经济和环境效益方面取得显著提升,为电力-算力联合市场下的协同规划问题提供了新的理论方法与解决方案。
文摘拥有千亿级别参数的大语言模型(large language model,LLM)已为今天的人工智能和云服务带来了巨大的技术和商业变革.然而,大模型训练与传统的通用云计算(例如,亚马逊EC2弹性计算服务)之间存在较多根本性的网络行为差异,从而带来了很多新的挑战,主要包括流量模式差异造成负载难均衡(挑战1)、多训练任务通信竞争影响GPU利用率(挑战2),以及对网络故障的高敏感性(挑战3)等.因此,为通用云计算设计的数据中心网络技术(例如,网络架构、选路方法、流量调度,以及可靠性保障方法等)已不适合今天的大模型训练,这要求专门为大模型训练设计新型的数据中心网络以及配套的技术方案.介绍了阿里云专门为大模型训练设计的数据中心网络HPN以及多任务通信调度方法Crux解决上述3个挑战.HPN通过引入了一种2层、双平面(dual-plane)的网络架构,不但能够在一个Pod内高速互联15000个GPU,还能做到适用大模型训练的精准选路(解决挑战1).此外,HPN提出了一种新型的去堆叠双ToR(top-of-rack)设计来替代传统数据中心网络的单ToR交换机连接方式,根本性地避免了单点失效可靠性风险(部分解决挑战3).针对挑战2,Crux通过对GPU利用率优化问题的建模与证明,将该NP完全问题近似成GPU强度相关的流量调度问题.随后,Crux提出了一个方法优先处理具有高GPU计算强度的任务流,从而极大降低了多任务的通信竞争,优化了GPU利用率.与相关工作对比,Crux可以将GPU利用率提高多达23个百分点.HPN和Crux均已在阿里云生产环境规模化部署超过8个月,后续会持续演进迭代.在此基础上,进一步展望了大模型训练与推理领域可能的研究方向,为后续工作提供指导性建议.
文摘随着网络技术的不断发展,基于Fat-Tree的网络拓扑结构分布式网络控制模式逐渐显露出其局限性,软件定义数据中心网络(software-defined data center network,SDCN)技术作为Fat-Tree网络拓扑的改进技术,受到越来越多研究者的关注。首先搭建了一个SDCN中的边缘计算架构和基于移动边缘计算(mobileedge computing,MEC)平台三层服务架构的任务卸载模型,结合移动边缘计算平台的实际应用场景,利用同策略经验回放和熵正则改进传统的深度Q网络(deep Q-leaning network,DQN)算法,优化了MEC平台的任务卸载策略,并设计了实验对基于同策略经验回放和熵正则的改进深度Q网络算法(improved DQN algorithm based on same strategy empirical playback and entropy regularization,RSS2E-DQN)和其他3种算法在负载均衡、能耗、时延、网络使用量几个方面进行对比分析,验证了改进算法在上述4个方面具有更优越的性能。