期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于国产NPU的超万卡智算集群大模型训练调优实践
1
作者 娄涛 牛红韦华 +8 位作者 张鹏飞 董江帆 李攀攀 李道通 许伟栋 姚成辉 薛连浩 唐婷 向洁 《电信科学》 北大核心 2025年第7期120-132,共13页
为解决超万卡智算集群模型训练算效利用率低、稳定性差、调优难度高、国产技术生态差等问题,提出一种基于全国产化超万卡智算集群的大模型训练调优方案。通过自动分布式策略推荐、流水线并行优化、overlap优化和全链路profiling等技术,... 为解决超万卡智算集群模型训练算效利用率低、稳定性差、调优难度高、国产技术生态差等问题,提出一种基于全国产化超万卡智算集群的大模型训练调优方案。通过自动分布式策略推荐、流水线并行优化、overlap优化和全链路profiling等技术,在16 384个国产NPU加速卡上实现了405B参数大模型的预训练,模型算力利用率(model FLOPS utilization,MFU)达到了45.13%,较基准性能提升了10%以上。同时,在模型训练全流程中构建稳定性保障机制,实现训前和训中关键指标的实时监控和训练任务秒级故障诊断。实验结果表明,提出的国产超万卡智算集群大模型训练方案能有效提升算力利用率,对未来国产智算集群建设与大模型训练有重要指导意义。 展开更多
关键词 超万卡智算集群 国产NPU加速 模型训练调优
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部