期刊文献+
共找到274篇文章
< 1 2 14 >
每页显示 20 50 100
Workload-aware request routing in cloud data center using software-defined networking
1
作者 Haitao Yuan Jing Bi Bohu Li 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2015年第1期151-160,共10页
Large latency of applications will bring revenue loss to cloud infrastructure providers in the cloud data center. The existing controllers of software-defined networking architecture can fetch and process traffic info... Large latency of applications will bring revenue loss to cloud infrastructure providers in the cloud data center. The existing controllers of software-defined networking architecture can fetch and process traffic information in the network. Therefore, the controllers can only optimize the network latency of applications. However, the serving latency of applications is also an important factor in delivered user-experience for arrival requests. Unintelligent request routing will cause large serving latency if arrival requests are allocated to overloaded virtual machines. To deal with the request routing problem, this paper proposes the workload-aware software-defined networking controller architecture. Then, request routing algorithms are proposed to minimize the total round trip time for every type of request by considering the congestion in the network and the workload in virtual machines(VMs). This paper finally provides the evaluation of the proposed algorithms in a simulated prototype. The simulation results show that the proposed methodology is efficient compared with the existing approaches. 展开更多
关键词 cloud data center(CDC) software-defined networking request routing resource allocation network latency optimization
在线阅读 下载PDF
大规模智算中心光电交换网络架构演化综述 被引量:1
2
作者 叶通 胡卫生 《电信科学》 北大核心 2025年第4期32-43,2,共13页
随着智算中心规模向百万卡级演进,以“数据中心光互联(data center optical interconnection,DCI)+电分组交换(electrical packet switching,EPS)”为特征的传统智算中心网络面临功耗高、时延高、可靠性不足的挑战。近几年工业界开始探... 随着智算中心规模向百万卡级演进,以“数据中心光互联(data center optical interconnection,DCI)+电分组交换(electrical packet switching,EPS)”为特征的传统智算中心网络面临功耗高、时延高、可靠性不足的挑战。近几年工业界开始探索引入光子技术的方案,以降低智算中心网络的功耗并增强其扩展性、灵活性和可靠性。回顾了工业界研究的“DCI+EPS+光线路交换(optical circuit switching,OCS)”和“DCI+光分组交换(fast optical switching,FOS)”两类智算中心网络架构。结合工业界头部企业的实际案例及科研机构的相关探索,探讨了两种架构的技术路径、性能优势及待研究问题,为未来智算中心网络的设计提供参考。 展开更多
关键词 智算中心 光电交换网络 算力集群
在线阅读 下载PDF
面向智算中心间互联的光网络关键技术研究 被引量:2
3
作者 李韫瑄 杨亚萍 +2 位作者 涂佳一 顾仁涛 纪越峰 《电信科学》 北大核心 2025年第4期3-19,2,共18页
智算中心作为大模型应用的关键算力基础设施,其高效运行依赖于高性能的光网络传输底座。然而,智算中心间光网络面临包括高实时性、高突发性和高可靠性的三重互联需求带来的诸多技术挑战。基于此,需要以高实时资源分配技术,助力智算光网... 智算中心作为大模型应用的关键算力基础设施,其高效运行依赖于高性能的光网络传输底座。然而,智算中心间光网络面临包括高实时性、高突发性和高可靠性的三重互联需求带来的诸多技术挑战。基于此,需要以高实时资源分配技术,助力智算光网络资源分配突破局部调度限制,以应对业务传输与调度时延挑战;以自适应协同优化技术,引导网络从被动调整向主动协同持续发展,以应对业务动态高突发性挑战;以前摄性故障恢复技术,推动网络从被动恢复故障向主动干预有序演进,以应对智算光网络的高可靠性挑战。展望未来,高实时大规模调度技术、算网深度协同技术和智算数字孪生技术,将为智算中心间互联的进一步发展提供新的机遇。 展开更多
关键词 智算中心 资源分配 网络优化 故障恢复
在线阅读 下载PDF
以太网RDMA网卡综述
4
作者 黄曼蒂 李韬 +3 位作者 杨惠 李成龙 张毓涛 孙志刚 《计算机研究与发展》 北大核心 2025年第5期1262-1289,共28页
目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处... 目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处理器功能卸载等思想,能够高带宽、低延迟地读写远端主机内存数据.兼容以太网的RDMA技术正在数据中心领域展开应用,以太网RDMA网卡作为主要功能承载设备,对其部署发挥重要作用.综述从架构、优化和实现评估3个方面进行分析:1)对以太网RDMA网卡的通用架构进行了总结,并对其关键功能部件进行了介绍;2)重点阐述了存储资源、可靠传输和应用相关3方面的优化技术,包括面向网卡缓存资源的连接可扩展性和面向主机内存资源的注册访问优化,面向有损以太网实现可靠传输的拥塞控制、流量控制和重传机制优化,面向分布式存储中不同存储类型、数据库系统、云存储系统以及面向数据中心应用的多租户性能隔离、安全性、可编程性等方面的优化工作;3)调研了不同实现方式、评估方式.最后,给出总结和展望. 展开更多
关键词 远程直接内存访问 以太网RDMA网卡 RoCEv2 网卡架构 网卡优化 数据中心网络
在线阅读 下载PDF
不平衡数据集下的数据中心网络流量异常检测
5
作者 王光明 李冬青 蒋从锋 《计算机工程》 北大核心 2025年第8期227-237,共11页
数据中心作为信息化时代的重要基础设施,承载着各类关键信息服务。目前,数据中心是网络攻击的主要攻击目标。为了提高网络安全,提出数据中心网络流量异常检测方法。研究内容包括特征选择、不平衡数据集分类和异常流量检测。首先,提出了... 数据中心作为信息化时代的重要基础设施,承载着各类关键信息服务。目前,数据中心是网络攻击的主要攻击目标。为了提高网络安全,提出数据中心网络流量异常检测方法。研究内容包括特征选择、不平衡数据集分类和异常流量检测。首先,提出了一种处理不平衡数据集的分类方法,通过基于集成的特征选择和混合采样算法提高分类性能;其次,引入基于随机森林(RF)和LightGBM的流量异常检测方法,充分利用它们在处理不平衡数据和噪声抵抗方面的优势。在CSE-CIC-IDS2018公开数据集上进行验证,实验结果表明,所提方法具有较高的精确率和召回率,在15种流量类型中有9种类型的分类精确率都高于90%,并且有13种类型的分类精确率都在74%以上,对提高数据中心安全、保障服务质量和改善网络流量异常检测具有重要意义。 展开更多
关键词 数据中心 网络流量 异常检测 不平衡数据集 集成学习
在线阅读 下载PDF
风-水-风系统的数据中心冷却系统水侧大温差方案
6
作者 井洋 谢晓云 江亿 《制冷学报》 北大核心 2025年第3期113-122,共10页
数据中心冷却系统节能是提高数据中心能效的主要方式。通过对常见的风-水-风冷却系统进行热学分析,发现机房空调的风侧与水侧存在极大的流量不匹配损失,因此提出水侧大温差系统形式。相比于小温差方案,大温差冷却系统可大幅增加全年自... 数据中心冷却系统节能是提高数据中心能效的主要方式。通过对常见的风-水-风冷却系统进行热学分析,发现机房空调的风侧与水侧存在极大的流量不匹配损失,因此提出水侧大温差系统形式。相比于小温差方案,大温差冷却系统可大幅增加全年自然冷却比例,降低输配能耗,冷却系统总能耗可减少约20%~30%。水侧大温差方案会增加机房空调的传热面积和成本,但冷却塔、制冷机、循环水泵、蓄冷罐、管路和阀门的投资均会降低,冷却系统总投资能够降低15%~25%。大温差冷却系统可以简化运行调节,全年无需调节阀门,使室外温度变化和IT负载变化调控方式解耦,减少运维工作量。 展开更多
关键词 数据中心 串联换热网络 流量匹配 大温差
在线阅读 下载PDF
考虑互联网数据中心综合供能的微能源网容量优化配置方法
7
作者 孙岩 范宏 +2 位作者 王迪威 鲁尔奇 贾庆山 《南方电网技术》 北大核心 2025年第4期39-50,共12页
在当前数字化时代,互联网数据中心(internet data center,IDC)(以下简称“数据中心”)作为大型的电力消耗者已经成为电力网络中的重要组成部分。首先采用数据中心余热回收技术建立了数据中心等值热参数模型,并将其融入到微能源网中以实... 在当前数字化时代,互联网数据中心(internet data center,IDC)(以下简称“数据中心”)作为大型的电力消耗者已经成为电力网络中的重要组成部分。首先采用数据中心余热回收技术建立了数据中心等值热参数模型,并将其融入到微能源网中以实现冷热电多能互补。其次对数据中心运行过程中所需制冷量与余热之间的复杂关系进行了深入分析,采用溴化锂吸收式制冷机和电制冷机来满足数据中心的冷负荷需求。为了更有效地应对批处理负荷在时间维度上的变化特性,制定了高度灵活的数据负荷分配策略,并建立了双层规划模型。使用场景削减的典型日选择方法以应对源荷不确定性,并引入基于Tent映射的灰狼优化算法(Tent mapping grey wolf optimization algorithm,TMGWO)和CPLEX进行联合求解。最后,通过对某含数据中心的微能源网系统进行仿真分析,数值计算结果表明所提出的方法能够有效提高系统的经济性和环保性。 展开更多
关键词 互联网数据中心(IDC) 微能源网 余热回收 负荷时空分配 热-电耦合
在线阅读 下载PDF
数据处理单元赋能的智算中心网络拥塞控制机制 被引量:3
8
作者 陈锦前 郭少勇 +2 位作者 刘畅 亓峰 邱雪松 《通信学报》 北大核心 2025年第2期1-17,共17页
针对智算中心集群间交互频繁造成网络拥塞频发导致智能业务实时性难以保障的问题,以数据处理单元(DPU)为核心载体构建了深度强化学习算法驱动的拥塞控制模型,利用剪枝与量化融合的方式对模型进行压缩,并通过知识蒸馏方法生成高效梯度增... 针对智算中心集群间交互频繁造成网络拥塞频发导致智能业务实时性难以保障的问题,以数据处理单元(DPU)为核心载体构建了深度强化学习算法驱动的拥塞控制模型,利用剪枝与量化融合的方式对模型进行压缩,并通过知识蒸馏方法生成高效梯度增强决策树,实现调速动作与网络实时状态的精准匹配。仿真结果表明,所提机制在泛化能力和控制效果方面均优于现有方法,在多个压力测试场景中提升网络有效吞吐率与公平性指标JAIN10.8%和8.9%以上,降低P99端到端时延与丢包率17.31%和11.47%以上,降低并行计算场景下数据流传输任务完成时间11.23%以上,且具备应对网络状态突变的快速响应能力。 展开更多
关键词 拥塞控制 多智能体深度强化学习 智算中心网络 远程直接内存访问网络 数据处理单元
在线阅读 下载PDF
算力-电力联合市场下数据中心与配电网集成规划:一种多目标区间-随机优化方法
9
作者 梁晨 曾博 +3 位作者 雷乐意 王涵 王源 张家祎 《电力系统保护与控制》 北大核心 2025年第16期120-135,共16页
为解决数据中心在电力-算力联合市场与低碳配电网协同规划中的问题,提出了一种多目标区间-随机优化方法。通过引入算力租赁机制,优化了资源利用效率与经济效益,同时降低了运营成本与碳排放。针对协同规划中的多目标优化与高维不确定性问... 为解决数据中心在电力-算力联合市场与低碳配电网协同规划中的问题,提出了一种多目标区间-随机优化方法。通过引入算力租赁机制,优化了资源利用效率与经济效益,同时降低了运营成本与碳排放。针对协同规划中的多目标优化与高维不确定性问题,设计了一种基于分解的自适应约束处理区间多目标进化算法—采用两种交叉策略(adaptive constraint-handling interval multi-objective evolutionary algorithm based on decomposition with two crossover strategies,ACIMOEA/D-TCS)。该算法能够高效求解帕累托前沿,提供鲁棒性和可行性兼具的优化方案。结果表明,数据中心参与算力市场显著提高了资源利用效率和经济效益,同时有效降低了碳排放。通过对算力资源租赁与配电系统运行的优化,所提模型在经济和环境效益方面取得显著提升,为电力-算力联合市场下的协同规划问题提供了新的理论方法与解决方案。 展开更多
关键词 数据中心 算力市场 低碳配电网 多目标优化 区间-随机优化 可再生能源
在线阅读 下载PDF
量子通信技术在城市轨道交通中的适用场景探索
10
作者 蒋运平 缪亚军 +2 位作者 李剑剑 辛华 甘建文 《都市快轨交通》 北大核心 2025年第2期68-74,共7页
我国城市轨道交通的信息化发展迅速,针对城市轨道交通信息系统的安全现状以及潜在的安全风险,研究量子通信技术在城市轨道交通建设过程中的应用场景。在现有城市轨道交通信息系统架构及建设方案的基础上,结合量子密钥分发网络在密码应... 我国城市轨道交通的信息化发展迅速,针对城市轨道交通信息系统的安全现状以及潜在的安全风险,研究量子通信技术在城市轨道交通建设过程中的应用场景。在现有城市轨道交通信息系统架构及建设方案的基础上,结合量子密钥分发网络在密码应用、数据安全保护等方面的优势,提出在安全计算环境、安全数据存储、安全数据流转等多个维度的融合创新思路,重点论述量子通信技术在数据的计算环境、安全传输、安全存储等环节发挥的数据安全流转保护作用,为后续量子通信技术在城市轨道交通信息化建设领域的深化应用提供参考。 展开更多
关键词 城市轨道交通 清分及多线路中心系统 量子通信技术 量子密钥分发网络 数据安全
在线阅读 下载PDF
网络拥塞控制方法综述 被引量:8
11
作者 蒋万春 李昊阳 +3 位作者 陈晗瑜 王洁 王建新 阮昌 《软件学报》 EI CSCD 北大核心 2024年第8期3952-3979,共28页
网络拥塞控制方法是决定网络传输性能的关键因素.近几年,网络不断普及、网络带宽不断增长、用户对网络性能的需求不断提升,为拥塞控制算法的设计带来挑战.为适应不同的网络环境,近期不少新颖的拥塞控制算法被研究者们提出来,极大地提升... 网络拥塞控制方法是决定网络传输性能的关键因素.近几年,网络不断普及、网络带宽不断增长、用户对网络性能的需求不断提升,为拥塞控制算法的设计带来挑战.为适应不同的网络环境,近期不少新颖的拥塞控制算法被研究者们提出来,极大地提升网络的传输性能,改善用户体验.综述最新拥塞控制算法设计思想,将其分为预约调度式、直接测量式、基于机器学习式以及迭代探测式4大类,分别介绍相应的代表性拥塞控制算法,并进一步对各种拥塞控制思想方法的优缺点进行对比和分析,最后展望拥塞控制的未来发展方向,以启发该领域的研究. 展开更多
关键词 拥塞控制 网络环境 吞吐量 延时 数据中心
在线阅读 下载PDF
递归型数据中心网络上g-额外连通度及容错单播算法研究
12
作者 伊雯雯 王喜 张书奎 《计算机应用与软件》 北大核心 2024年第1期261-268,290,共9页
数据中心网络的研究是近几年兴起的热点。与传统的树型数据中心网络相比,递归型数据中心网络具有更好的容错性和可扩展性。部署于n-口交换机上的k-维递归型完全图网络可以表示为Xk,n,σ表示图中任意顶点与同维度其他子图相连接的边数。... 数据中心网络的研究是近几年兴起的热点。与传统的树型数据中心网络相比,递归型数据中心网络具有更好的容错性和可扩展性。部署于n-口交换机上的k-维递归型完全图网络可以表示为Xk,n,σ表示图中任意顶点与同维度其他子图相连接的边数。在实际情况中,网络的额外连通度相较于传统的连通度能够更准确地衡量一个网络的容错性。证明当k≥3,n≥3,σ∈{1,n-1}且0≤g≤2时,Xk,n的g-额外连通度为(g+1)(kσ-1)+n,这一结果接近于其连通度的g+1倍。进一步,提出基于该情形下的容错单播算法,并证明了该算法的时间复杂度和在最坏情况下Xk,n中任意两点间构造出路径长度的上界。通过模拟仿真实验,验证了该算法在执行效率上优于广度优先和深度优先搜索算法,且算法具有较好的容错性。 展开更多
关键词 递归型数据中心网络 容错性 额外连通度 容错单播算法 算法分析
在线阅读 下载PDF
国家材料腐蚀与防护科学数据中心建设历程与发展现状 被引量:2
13
作者 吴伟同 徐迪 +2 位作者 程学群 张达威 李晓刚 《材料导报》 EI CAS CSCD 北大核心 2024年第23期193-200,共8页
对国家材料腐蚀与防护科学数据中心的建设历程、特征以及现状进行了综述。在国家科委、国家自然科学基金组等平台的领导下,以及国际上各行业的分布式国家科学数据中心建设经验的支持下建设了国家材料腐蚀与防护科学数据中心。数据中心... 对国家材料腐蚀与防护科学数据中心的建设历程、特征以及现状进行了综述。在国家科委、国家自然科学基金组等平台的领导下,以及国际上各行业的分布式国家科学数据中心建设经验的支持下建设了国家材料腐蚀与防护科学数据中心。数据中心通过自主研发设计的适应不同环境下的腐蚀监测传感器获取实时连续的腐蚀大数据,通过数据中心建立的协作平台,研究人员从高通量的数据中挖掘有效的信息,对腐蚀过程进行计算、模拟与仿真建模,推动材料腐蚀领域的发展。国家材料腐蚀与防护科学数据中心作为20个国家科学数据中心之一,在推动材料腐蚀与防护领域科学数据共享工作的进展方面起到了引领作用,数据中心的项目经验也为科技驱动型企业提供了宝贵的发展方向,并在全球材料腐蚀领域产生了重大影响。 展开更多
关键词 国家数据中心 分布式 联网观测 腐蚀传感器 大数据
在线阅读 下载PDF
基于深度神经网络的数据中心光互连网络资源分配方法 被引量:6
14
作者 吕莹楠 尹奇龙 赵健 《激光杂志》 CAS 北大核心 2024年第2期181-186,共6页
在人工智能环境下为了提高数据中心光互联网络组件和软件的安全性,需要构建优化的资源分配模型,提出基于深度神经网络的数据中心光互连网络资源分配方法。采用用户关联和功率谱分配联合优化方法构建数据中心光互连网络资源调度模型,结... 在人工智能环境下为了提高数据中心光互联网络组件和软件的安全性,需要构建优化的资源分配模型,提出基于深度神经网络的数据中心光互连网络资源分配方法。采用用户关联和功率谱分配联合优化方法构建数据中心光互连网络资源调度模型,结合对网络资源粒度的服务请求QoS资源配置实现对不同种类资源的融合和聚类处理,提取数据中心光互连网络资源的空间、时间、频谱等多维网格抽象模型参数,通过深度神经网络学习方法实现对网络资源分配过程中的多种资源粒度融合和收敛性寻优控制,建立用户之间分配数据中心光互连网络资源的信道模型,通过传输链路均衡配置方案实现对网络资源的优化分配和均衡配置。仿真结果表明,本方法的资源分配传输比特率为18 bit/s,延时较小,资源分配阻塞率低,为0.05%,且资源持有度较高,可始终维持在100%,说明本方法具有对较强的资源均衡配置能力。 展开更多
关键词 人工智能 软件安全 深度神经网络 数据中心光互连网络 资源分配
在线阅读 下载PDF
基于蚁群算法的SDN数据中心负载均衡流调度 被引量:1
15
作者 陈永聪 陈秋莲 王成栋 《计算机工程与设计》 北大核心 2024年第8期2241-2247,共7页
软件定义网络(SDN)中大小流共存,难以保障不同数据流对网络服务质量的不同约束要求。为此提出一种基于蚁群算法(ACO)的SDN数据中心网络动态流量调度机制,根据SDN网络的状态信息,建立链路综合评价机制,改进蚁群算法的信息素更新方式,实... 软件定义网络(SDN)中大小流共存,难以保障不同数据流对网络服务质量的不同约束要求。为此提出一种基于蚁群算法(ACO)的SDN数据中心网络动态流量调度机制,根据SDN网络的状态信息,建立链路综合评价机制,改进蚁群算法的信息素更新方式,实现大象流和老鼠流差异化调度。实验结果表明,算法增强了对突发大流量的应对能力,保障了不同类型流量的公平传输。应用于银行业,有效保障了数据中心网络的平稳运行。 展开更多
关键词 软件定义网络 数据中心 蚁群算法 网络状态 链路综合评价 路由算法 差异化调度
在线阅读 下载PDF
光互连数据中心网络架构与业务路由技术研究 被引量:1
16
作者 王金涛 刘逢清 《光通信研究》 北大核心 2024年第5期92-97,共6页
【目的】目前已提出的数据中心光互连网络结构中,大多将光网络用于交换机间的机架间通信,而机架内服务器之间的通信则通过电以太网交换机实现。由于电以太网交换机功率较大且数量众多,目前所提出的数据中心光互连网络存在能耗高、带宽... 【目的】目前已提出的数据中心光互连网络结构中,大多将光网络用于交换机间的机架间通信,而机架内服务器之间的通信则通过电以太网交换机实现。由于电以太网交换机功率较大且数量众多,目前所提出的数据中心光互连网络存在能耗高、带宽低和分组时延大等问题。为了进一步改善数据中心光互连网络的性能,文章提出了一种基于可重排无阻塞三级Clos网络的机架内光互连网络结构。【方法】在此结构中,机架内服务器通过1个三级Clos网络实现相互连接,同时结合文章所提的多波长路由算法可实现机架内服务器间的无阻塞通信。【结果】文章使用OMNET++软件进行了仿真验证,结果显示,文章所提结构的吞吐量在同等条件下比传统机架内电交换提高20%,端到端平均时延减少90%,能耗减少67%。【结论】通过仿真对比可知,文章所提结构可以改善数据中心光互连网络的带宽利用、分组时延及能耗等性能。 展开更多
关键词 光互连 数据中心网络 架内通信 多级交换 波长路由
在线阅读 下载PDF
基于带宽匹配的软件定义数据中心网络流量节能调度方案 被引量:3
17
作者 张朝辉 周嘉琦 《系统工程与电子技术》 EI CSCD 北大核心 2024年第11期3901-3911,共11页
针对数据中心网络的流调度优化问题,选用经典的Fat-Tree拓扑结构,利用软件定义网络集中控制的优势,提出一种基于带宽匹配的节能路由算法(energy efficient routing algorithm,EERA)。EERA首先对需要传输的数据流按照其截止时间进行排序... 针对数据中心网络的流调度优化问题,选用经典的Fat-Tree拓扑结构,利用软件定义网络集中控制的优势,提出一种基于带宽匹配的节能路由算法(energy efficient routing algorithm,EERA)。EERA首先对需要传输的数据流按照其截止时间进行排序,然后对拓扑中的链路权值按照每个排序后的数据流需要传输的数据量进行更新,删除可用带宽不满足传输数据量的链路,得到新的拓扑图。在重新定义的拓扑图中,EERA计算源节点和目标节点之间所有可用链路,从这些可用链路中选取与流传输数据量所需带宽最匹配的链路进行路由。仿真实验表明,在不增加额外存储开销的前提下,EERA为即将到来的数据流预留了足够的带宽,减少了网络链路拥塞,在节省网络能耗的同时实现了网络负载均衡。 展开更多
关键词 数据中心网络 软件定义网络 流量调度 负载均衡 节能路由
在线阅读 下载PDF
面向大模型时代的网络基础设施研究:挑战、阶段成果与展望 被引量:3
18
作者 翟恩南 操佳敏 +1 位作者 钱坤 关宇 《计算机研究与发展》 EI CSCD 北大核心 2024年第11期3664-3677,共14页
拥有千亿级别参数的大语言模型(large language model,LLM)已为今天的人工智能和云服务带来了巨大的技术和商业变革.然而,大模型训练与传统的通用云计算(例如,亚马逊EC2弹性计算服务)之间存在较多根本性的网络行为差异,从而带来了很多... 拥有千亿级别参数的大语言模型(large language model,LLM)已为今天的人工智能和云服务带来了巨大的技术和商业变革.然而,大模型训练与传统的通用云计算(例如,亚马逊EC2弹性计算服务)之间存在较多根本性的网络行为差异,从而带来了很多新的挑战,主要包括流量模式差异造成负载难均衡(挑战1)、多训练任务通信竞争影响GPU利用率(挑战2),以及对网络故障的高敏感性(挑战3)等.因此,为通用云计算设计的数据中心网络技术(例如,网络架构、选路方法、流量调度,以及可靠性保障方法等)已不适合今天的大模型训练,这要求专门为大模型训练设计新型的数据中心网络以及配套的技术方案.介绍了阿里云专门为大模型训练设计的数据中心网络HPN以及多任务通信调度方法Crux解决上述3个挑战.HPN通过引入了一种2层、双平面(dual-plane)的网络架构,不但能够在一个Pod内高速互联15000个GPU,还能做到适用大模型训练的精准选路(解决挑战1).此外,HPN提出了一种新型的去堆叠双ToR(top-of-rack)设计来替代传统数据中心网络的单ToR交换机连接方式,根本性地避免了单点失效可靠性风险(部分解决挑战3).针对挑战2,Crux通过对GPU利用率优化问题的建模与证明,将该NP完全问题近似成GPU强度相关的流量调度问题.随后,Crux提出了一个方法优先处理具有高GPU计算强度的任务流,从而极大降低了多任务的通信竞争,优化了GPU利用率.与相关工作对比,Crux可以将GPU利用率提高多达23个百分点.HPN和Crux均已在阿里云生产环境规模化部署超过8个月,后续会持续演进迭代.在此基础上,进一步展望了大模型训练与推理领域可能的研究方向,为后续工作提供指导性建议. 展开更多
关键词 AI基础设施 大语言模型 大模型 模型训练 数据中心网络 集合通信 通信调度
在线阅读 下载PDF
SDCN中基于深度强化学习的移动边缘计算任务卸载算法研究 被引量:3
19
作者 蒋守花 王以伍 《电信科学》 北大核心 2024年第2期96-106,共11页
随着网络技术的不断发展,基于Fat-Tree的网络拓扑结构分布式网络控制模式逐渐显露出其局限性,软件定义数据中心网络(software-defined data center network,SDCN)技术作为Fat-Tree网络拓扑的改进技术,受到越来越多研究者的关注。首先搭... 随着网络技术的不断发展,基于Fat-Tree的网络拓扑结构分布式网络控制模式逐渐显露出其局限性,软件定义数据中心网络(software-defined data center network,SDCN)技术作为Fat-Tree网络拓扑的改进技术,受到越来越多研究者的关注。首先搭建了一个SDCN中的边缘计算架构和基于移动边缘计算(mobileedge computing,MEC)平台三层服务架构的任务卸载模型,结合移动边缘计算平台的实际应用场景,利用同策略经验回放和熵正则改进传统的深度Q网络(deep Q-leaning network,DQN)算法,优化了MEC平台的任务卸载策略,并设计了实验对基于同策略经验回放和熵正则的改进深度Q网络算法(improved DQN algorithm based on same strategy empirical playback and entropy regularization,RSS2E-DQN)和其他3种算法在负载均衡、能耗、时延、网络使用量几个方面进行对比分析,验证了改进算法在上述4个方面具有更优越的性能。 展开更多
关键词 软件定义数据中心网络 深度强化学习 边缘计算任务卸载 同策略经验回放 熵正则
在线阅读 下载PDF
面向人工智能的数据通信网络发展 被引量:1
20
作者 高巍 高静 杨哲 《中兴通讯技术》 北大核心 2024年第6期3-9,共7页
基于人工智能技术与业务对数据通信网络的需求,分析现有网络面向数据入算、智算中心互联、大规模AI训练3类场景时存在的问题,阐述“入算”“算内”“算间”网络关键技术创新情况,包括入算网络的业务创新探索,算内网络围绕架构以太网技... 基于人工智能技术与业务对数据通信网络的需求,分析现有网络面向数据入算、智算中心互联、大规模AI训练3类场景时存在的问题,阐述“入算”“算内”“算间”网络关键技术创新情况,包括入算网络的业务创新探索,算内网络围绕架构以太网技术等多方面的革新,以及算间网络从IT、IP、光层开展的技术改进,并提出包含运营层、网络管控层、业务连接层、物理网络层的4层网络架构以优化数据通信网络。认为合理推动产业发展需有序规划标准化研究工作,递进式开展关键技术试点验证。 展开更多
关键词 人工智能 数据通信网络 入算网络 算间网络 算内网络
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部