-
题名面向跨智算集群互联的新型HIC-OTN技术
- 1
-
-
作者
张德朝
孙将
曹珊
左铭青
王东
李晗
-
机构
中国移动通信有限公司研究院
-
出处
《电信科学》
北大核心
2025年第4期53-60,共8页
-
基金
国家重点研发计划项目(No.2024YFB2908305)。
-
文摘
随着全球AI产业蓬勃发展,大模型技术对算力需求越来越高,国内外大型科技公司正积极投建超万卡/超十万卡集群。超十万卡集群的发展受限于水电供应、建设投入等因素,而通过高速全光网构建多集群互联的基础网络底座,实现跨集群高效协同训练是重要的潜在解决方案。为满足跨智算集群互联超大带宽、超低时延、超高可靠需求,提出了无损智算光传送网(hitless intelligent computing optical transport network,HIC-OTN)的技术架构及关键技术方案,并基于HIC-OTN完成了首个104 km跨智算集群流水线并行(pipeline parallelism,PP)拉远训练现网技术试验,探索和验证了百公里级跨集群PP训练的可行性。基于800 Gbit/s HIC-OTN互联在52 km和104 km两个智算集群场景下,HIC-OTN完成了等同单节点训练效率98%以上的高效协同训练,并实现了光网络保护倒换对训练效率的无损和无感知。
-
关键词
跨集群训练
HIC-OTN
无损保护
超大带宽
超低时延
-
Keywords
cross-cluster training
HIC-OTN
non-destructive protection
ultra-large bandwidth
ultra low latency
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-