期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向大模型场景的异构算力分布式并行训练方法
1
作者 黄蕾 王升 +5 位作者 班有容 张昊 张晓光 狄新凯 许思 黄子潇 《通信学报》 北大核心 2025年第10期309-325,共17页
当前,不同类型AI加速器之间存在“资源墙”,难以聚合异构智算资源集群成池,以支持更大规模模型的训练孵化。基于此,设计了异构混合并行训练总体技术架构,并针对计算任务拆解及优化、分布式策略性能预测与生成、异构芯片间统一通信库三... 当前,不同类型AI加速器之间存在“资源墙”,难以聚合异构智算资源集群成池,以支持更大规模模型的训练孵化。基于此,设计了异构混合并行训练总体技术架构,并针对计算任务拆解及优化、分布式策略性能预测与生成、异构芯片间统一通信库三大关键技术方向提出了解决方案。其中,异构混合训练非均匀计算任务切分算法通过计算负载均衡依据算力大小和计算特性为多厂商智算集群分配计算任务;分布式策略性能预测及生成工具通过构建策略搜索空间模拟计算不同并行策略性能数据,输出最优非均匀并行切分策略;多厂商互识的统一异构通信库通过统一通信组件、异构通信组件、设备适配器实现通信拓扑管理、通信域管理等,解决异构AI加速器间数据无法互通问题。研发了基于异构混训技术的原型系统,在Nvidia GPU、天数智芯、壁仞组成的异构混合集群上进行了实验。实验结果表明,异构芯片集群的交叉混合训练加速比均超过90%,混合训练技术方案可行,且能够有效优化集群训练性能指标。 展开更多
关键词 大模型 分布式训练 异构混合训练 深度学习框架 集合通信
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部