期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
Resilio:一种大模型弹性训练容错系统
1
作者 李焱 杨偲乐 +9 位作者 刘成春 王林梅 田瑶琳 张信航 朱昱 李莼蒲 孙磊 颜深根 肖利民 张伟丰 《计算机研究与发展》 北大核心 2025年第6期1380-1395,共16页
具备千亿级参数的大型语言模型正在引领当今人工智能与异构计算的技术革新及商业模式的深刻转变.然而,大模型训练任务需要长时间占用大量的硬件资源,软硬件故障发生的频率高且类型较多,并且故障原因难定位导致训练中断时间较长.针对大... 具备千亿级参数的大型语言模型正在引领当今人工智能与异构计算的技术革新及商业模式的深刻转变.然而,大模型训练任务需要长时间占用大量的硬件资源,软硬件故障发生的频率高且类型较多,并且故障原因难定位导致训练中断时间较长.针对大模型训练过程中面临的网络中断、节点宕机、进程崩溃等多种典型故障,提出一种大模型弹性容错系统Resilio来提供高效自动的恢复机制.基于模型训练的并行策略与硬件的存储层次特点,Resilio通过多层次优化检查点读写操作和即时检查点保存机制,对于千亿规模参数模型,可以将端到端故障恢复时间缩短至10min以内,模型中断后的重新训练时间缩短至单次训练迭代时间.当集群资源弹性变化时,Resilio能够快速准确地获取大模型训练最优并行策略配置,与容错调度组件共同确保系统的自适应能力,弹性调度训练资源用以提升作业的训练效率和集群GPU资源利用率. 展开更多
关键词 大模型训练 深度学习 容错 故障检测 弹性训练 自动并行
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部