期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向大模型场景的异构算力分布式并行训练方法
1
作者
黄蕾
王升
+5 位作者
班有容
张昊
张晓光
狄新凯
许思
黄子潇
《通信学报》
北大核心
2025年第10期309-325,共17页
当前,不同类型AI加速器之间存在“资源墙”,难以聚合异构智算资源集群成池,以支持更大规模模型的训练孵化。基于此,设计了异构混合并行训练总体技术架构,并针对计算任务拆解及优化、分布式策略性能预测与生成、异构芯片间统一通信库三...
当前,不同类型AI加速器之间存在“资源墙”,难以聚合异构智算资源集群成池,以支持更大规模模型的训练孵化。基于此,设计了异构混合并行训练总体技术架构,并针对计算任务拆解及优化、分布式策略性能预测与生成、异构芯片间统一通信库三大关键技术方向提出了解决方案。其中,异构混合训练非均匀计算任务切分算法通过计算负载均衡依据算力大小和计算特性为多厂商智算集群分配计算任务;分布式策略性能预测及生成工具通过构建策略搜索空间模拟计算不同并行策略性能数据,输出最优非均匀并行切分策略;多厂商互识的统一异构通信库通过统一通信组件、异构通信组件、设备适配器实现通信拓扑管理、通信域管理等,解决异构AI加速器间数据无法互通问题。研发了基于异构混训技术的原型系统,在Nvidia GPU、天数智芯、壁仞组成的异构混合集群上进行了实验。实验结果表明,异构芯片集群的交叉混合训练加速比均超过90%,混合训练技术方案可行,且能够有效优化集群训练性能指标。
展开更多
关键词
大模型
分布式训练
异构混合训练
深度学习框架
集合通信
在线阅读
下载PDF
职称材料
题名
面向大模型场景的异构算力分布式并行训练方法
1
作者
黄蕾
王升
班有容
张昊
张晓光
狄新凯
许思
黄子潇
机构
中国移动研究院
上海无问芯穹智能科技有限公司
出处
《通信学报》
北大核心
2025年第10期309-325,共17页
基金
国家自然科学基金资助项目(No.U24B6012)。
文摘
当前,不同类型AI加速器之间存在“资源墙”,难以聚合异构智算资源集群成池,以支持更大规模模型的训练孵化。基于此,设计了异构混合并行训练总体技术架构,并针对计算任务拆解及优化、分布式策略性能预测与生成、异构芯片间统一通信库三大关键技术方向提出了解决方案。其中,异构混合训练非均匀计算任务切分算法通过计算负载均衡依据算力大小和计算特性为多厂商智算集群分配计算任务;分布式策略性能预测及生成工具通过构建策略搜索空间模拟计算不同并行策略性能数据,输出最优非均匀并行切分策略;多厂商互识的统一异构通信库通过统一通信组件、异构通信组件、设备适配器实现通信拓扑管理、通信域管理等,解决异构AI加速器间数据无法互通问题。研发了基于异构混训技术的原型系统,在Nvidia GPU、天数智芯、壁仞组成的异构混合集群上进行了实验。实验结果表明,异构芯片集群的交叉混合训练加速比均超过90%,混合训练技术方案可行,且能够有效优化集群训练性能指标。
关键词
大模型
分布式训练
异构混合训练
深度学习框架
集合通信
Keywords
large-scale model
distributed training
heterogeneous hybrid training
deep learning framework
collective communication
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向大模型场景的异构算力分布式并行训练方法
黄蕾
王升
班有容
张昊
张晓光
狄新凯
许思
黄子潇
《通信学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部