期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向AI算力场景的多元异构混合训练系统研究
1
作者 李攀攀 牛红韦华 +6 位作者 赵万龙 马华伟 王艳辉 江伟 张雯欣 陆一鸣 赵峰 《电信科学》 北大核心 2025年第7期133-144,共12页
大语言模型训练是人工智能(artificial intelligence,AI)发展的核心场景,在算力多元化和异构化趋势下,跨生态异构算力协同能力将成为十万卡级训练的关键支撑。基于此背景,设计了一套异构AI算力混合训练系统,该系统能够主动检测、适配异... 大语言模型训练是人工智能(artificial intelligence,AI)发展的核心场景,在算力多元化和异构化趋势下,跨生态异构算力协同能力将成为十万卡级训练的关键支撑。基于此背景,设计了一套异构AI算力混合训练系统,该系统能够主动检测、适配异构AI芯片,实现异构算力间的集合通信。基于该原型系统,在一个由3种异构算力组成的RoCEv2网络互通集群实现了多种异构算力组合的混训。在异构流水线并行(pipeline parallelism,PP)混训场景下,英伟达与壁仞的最优混训效率达到99.77%,英伟达、天数智芯、壁仞的最优混训效率可达99.03%。在异构数据并行(data parallelism,DP)混训场景下,英伟达与壁仞的最优混训效率达到92.88%。 展开更多
关键词 大语言模型 集合通信 异构并行 异构混合训练
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部