期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Resilio:一种大模型弹性训练容错系统
1
作者
李焱
杨偲乐
+9 位作者
刘成春
王林梅
田瑶琳
张信航
朱昱
李莼蒲
孙磊
颜深根
肖利民
张伟丰
《计算机研究与发展》
北大核心
2025年第6期1380-1395,共16页
具备千亿级参数的大型语言模型正在引领当今人工智能与异构计算的技术革新及商业模式的深刻转变.然而,大模型训练任务需要长时间占用大量的硬件资源,软硬件故障发生的频率高且类型较多,并且故障原因难定位导致训练中断时间较长.针对大...
具备千亿级参数的大型语言模型正在引领当今人工智能与异构计算的技术革新及商业模式的深刻转变.然而,大模型训练任务需要长时间占用大量的硬件资源,软硬件故障发生的频率高且类型较多,并且故障原因难定位导致训练中断时间较长.针对大模型训练过程中面临的网络中断、节点宕机、进程崩溃等多种典型故障,提出一种大模型弹性容错系统Resilio来提供高效自动的恢复机制.基于模型训练的并行策略与硬件的存储层次特点,Resilio通过多层次优化检查点读写操作和即时检查点保存机制,对于千亿规模参数模型,可以将端到端故障恢复时间缩短至10min以内,模型中断后的重新训练时间缩短至单次训练迭代时间.当集群资源弹性变化时,Resilio能够快速准确地获取大模型训练最优并行策略配置,与容错调度组件共同确保系统的自适应能力,弹性调度训练资源用以提升作业的训练效率和集群GPU资源利用率.
展开更多
关键词
大模型训练
深度学习
容错
故障检测
弹性训练
自动并行
在线阅读
下载PDF
职称材料
题名
Resilio:一种大模型弹性训练容错系统
1
作者
李焱
杨偲乐
刘成春
王林梅
田瑶琳
张信航
朱昱
李莼蒲
孙磊
颜深根
肖利民
张伟丰
机构
联想研究院
纳米
集成电路
与系统
实验室
(
清华大学
)
出处
《计算机研究与发展》
北大核心
2025年第6期1380-1395,共16页
基金
国家重点研发计划项目(2024YFB4505703)。
文摘
具备千亿级参数的大型语言模型正在引领当今人工智能与异构计算的技术革新及商业模式的深刻转变.然而,大模型训练任务需要长时间占用大量的硬件资源,软硬件故障发生的频率高且类型较多,并且故障原因难定位导致训练中断时间较长.针对大模型训练过程中面临的网络中断、节点宕机、进程崩溃等多种典型故障,提出一种大模型弹性容错系统Resilio来提供高效自动的恢复机制.基于模型训练的并行策略与硬件的存储层次特点,Resilio通过多层次优化检查点读写操作和即时检查点保存机制,对于千亿规模参数模型,可以将端到端故障恢复时间缩短至10min以内,模型中断后的重新训练时间缩短至单次训练迭代时间.当集群资源弹性变化时,Resilio能够快速准确地获取大模型训练最优并行策略配置,与容错调度组件共同确保系统的自适应能力,弹性调度训练资源用以提升作业的训练效率和集群GPU资源利用率.
关键词
大模型训练
深度学习
容错
故障检测
弹性训练
自动并行
Keywords
large-scale model training
deep learning
fault tolerance
failure detection
elastic training
automatic parallelization
分类号
TP319 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Resilio:一种大模型弹性训练容错系统
李焱
杨偲乐
刘成春
王林梅
田瑶琳
张信航
朱昱
李莼蒲
孙磊
颜深根
肖利民
张伟丰
《计算机研究与发展》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部