期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
SIC:面向大语言模型训练的增量检查点技术
1
作者 王志强 朱文喆 +1 位作者 闫超美 李永坤 《计算机应用研究》 北大核心 2025年第11期3397-3404,共8页
大语言模型训练过程会频繁产生各种软硬件故障,造成训练延长和资源浪费。检查点技术作为关键容错机制在保障训练持续性方面发挥重要作用,但传统的全量检查点方法限制了检查点频率并消耗大量存储资源。为此,提出了一种重要性感知增量检... 大语言模型训练过程会频繁产生各种软硬件故障,造成训练延长和资源浪费。检查点技术作为关键容错机制在保障训练持续性方面发挥重要作用,但传统的全量检查点方法限制了检查点频率并消耗大量存储资源。为此,提出了一种重要性感知增量检查点方法(SIC)。该方法设计了分层感知的参数更新过滤算法,有效识别每层网络的重要参数更新;此外,通过动态阈值调节机制,在训练过程中实时调节参数变化阈值,确保不丢失关键更新;最后,从理论上证明了SIC对训练收敛性的影响可控。实验表明,单次迭代保存2%的数据足以保证模型的精度和收敛性;相比于最先进的全量检查点方法,在相同开销约束下SIC检查点频率提升了9~17倍,存储开销仅为3%。因此,SIC兼具了高执行效率、低存储开销的优势。 展开更多
关键词 大语言模型 容错训练 检查点技术 增量检查点
在线阅读 下载PDF
采用增量检查点技术改进Condor检查点机制的研究 被引量:3
2
作者 张光辉 王丽娟 陈姗 《河南农业大学学报》 CAS CSCD 北大核心 2010年第6期718-721,共4页
分析了集群作业系统Condor中的检查点机制的实现原理,针对其在执行检查点操作时存在的对计算资源和存储资源的利用的不足,提出了使用增量检查点技术对其进行优化的方案,使得每次进行检查点操作时,只需要保存同上次检查点操作相比改变了... 分析了集群作业系统Condor中的检查点机制的实现原理,针对其在执行检查点操作时存在的对计算资源和存储资源的利用的不足,提出了使用增量检查点技术对其进行优化的方案,使得每次进行检查点操作时,只需要保存同上次检查点操作相比改变了的数据,这样可以大大降低检查点操作的空间开销和时间开销,最后通过1个矩阵运算的实例验证了改进方案的可行性. 展开更多
关键词 机群 CONDOR 高吞吐量计算 增量检查点技术
在线阅读 下载PDF
面向多样计算场景的检查点技术综述
3
作者 陈筱琳 张亚强 史宏志 《计算机应用》 北大核心 2025年第6期1922-1933,共12页
检查点技术是一种在计算系统中保存当前计算任务和系统状态的方法,可应用于系统故障恢复、作业迁移和作业抢占等诸多场景。随着技术的发展,计算场景更多元,计算规模更大,计算系统的结构层次更复杂,且计算环境更多变,这些会导致故障发生... 检查点技术是一种在计算系统中保存当前计算任务和系统状态的方法,可应用于系统故障恢复、作业迁移和作业抢占等诸多场景。随着技术的发展,计算场景更多元,计算规模更大,计算系统的结构层次更复杂,且计算环境更多变,这些会导致故障发生的概率增加。同时,平均故障间隔时间(MTBT)从[6.50 h,40.00 h]缩短至1.25 h。因此,作为典型容错手段的检查点技术显得越来越重要。首先,介绍多样计算场景的检查点技术近年来的发展概况,并基于现有技术的特点对它们进行分类;其次,回顾包括增量检查点、多级异步检查点、最优检查点间隔和基于故障感知的检查点这4个方向在内的最新研究进展,并总结检查点技术在面向多样计算场景时的发展趋势——动态化、智能化和主动化,以及该技术面临的挑战;最后,通过梳理优化检查点策略的主要思路和最新方法,帮助研究人员快速掌握检查点技术的现状和未来发展趋势。 展开更多
关键词 增量检查点 多级异步检查点 最优检查点间隔 动态检查点 基于故障感知的检查点
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部