期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
SIC:面向大语言模型训练的增量检查点技术
1
作者
王志强
朱文喆
+1 位作者
闫超美
李永坤
《计算机应用研究》
北大核心
2025年第11期3397-3404,共8页
大语言模型训练过程会频繁产生各种软硬件故障,造成训练延长和资源浪费。检查点技术作为关键容错机制在保障训练持续性方面发挥重要作用,但传统的全量检查点方法限制了检查点频率并消耗大量存储资源。为此,提出了一种重要性感知增量检...
大语言模型训练过程会频繁产生各种软硬件故障,造成训练延长和资源浪费。检查点技术作为关键容错机制在保障训练持续性方面发挥重要作用,但传统的全量检查点方法限制了检查点频率并消耗大量存储资源。为此,提出了一种重要性感知增量检查点方法(SIC)。该方法设计了分层感知的参数更新过滤算法,有效识别每层网络的重要参数更新;此外,通过动态阈值调节机制,在训练过程中实时调节参数变化阈值,确保不丢失关键更新;最后,从理论上证明了SIC对训练收敛性的影响可控。实验表明,单次迭代保存2%的数据足以保证模型的精度和收敛性;相比于最先进的全量检查点方法,在相同开销约束下SIC检查点频率提升了9~17倍,存储开销仅为3%。因此,SIC兼具了高执行效率、低存储开销的优势。
展开更多
关键词
大语言模型
容错训练
检查点
技术
增量检查点
在线阅读
下载PDF
职称材料
采用增量检查点技术改进Condor检查点机制的研究
被引量:
3
2
作者
张光辉
王丽娟
陈姗
《河南农业大学学报》
CAS
CSCD
北大核心
2010年第6期718-721,共4页
分析了集群作业系统Condor中的检查点机制的实现原理,针对其在执行检查点操作时存在的对计算资源和存储资源的利用的不足,提出了使用增量检查点技术对其进行优化的方案,使得每次进行检查点操作时,只需要保存同上次检查点操作相比改变了...
分析了集群作业系统Condor中的检查点机制的实现原理,针对其在执行检查点操作时存在的对计算资源和存储资源的利用的不足,提出了使用增量检查点技术对其进行优化的方案,使得每次进行检查点操作时,只需要保存同上次检查点操作相比改变了的数据,这样可以大大降低检查点操作的空间开销和时间开销,最后通过1个矩阵运算的实例验证了改进方案的可行性.
展开更多
关键词
机群
CONDOR
高吞吐量计算
增量检查点
技术
在线阅读
下载PDF
职称材料
面向多样计算场景的检查点技术综述
3
作者
陈筱琳
张亚强
史宏志
《计算机应用》
北大核心
2025年第6期1922-1933,共12页
检查点技术是一种在计算系统中保存当前计算任务和系统状态的方法,可应用于系统故障恢复、作业迁移和作业抢占等诸多场景。随着技术的发展,计算场景更多元,计算规模更大,计算系统的结构层次更复杂,且计算环境更多变,这些会导致故障发生...
检查点技术是一种在计算系统中保存当前计算任务和系统状态的方法,可应用于系统故障恢复、作业迁移和作业抢占等诸多场景。随着技术的发展,计算场景更多元,计算规模更大,计算系统的结构层次更复杂,且计算环境更多变,这些会导致故障发生的概率增加。同时,平均故障间隔时间(MTBT)从[6.50 h,40.00 h]缩短至1.25 h。因此,作为典型容错手段的检查点技术显得越来越重要。首先,介绍多样计算场景的检查点技术近年来的发展概况,并基于现有技术的特点对它们进行分类;其次,回顾包括增量检查点、多级异步检查点、最优检查点间隔和基于故障感知的检查点这4个方向在内的最新研究进展,并总结检查点技术在面向多样计算场景时的发展趋势——动态化、智能化和主动化,以及该技术面临的挑战;最后,通过梳理优化检查点策略的主要思路和最新方法,帮助研究人员快速掌握检查点技术的现状和未来发展趋势。
展开更多
关键词
增量检查点
多级异步
检查点
最优
检查点
间隔
动态
检查点
基于故障感知的
检查点
在线阅读
下载PDF
职称材料
题名
SIC:面向大语言模型训练的增量检查点技术
1
作者
王志强
朱文喆
闫超美
李永坤
机构
中国科学技术大学计算机科学与技术学院
中国科学技术大学安徽省高性能计算重点实验室
出处
《计算机应用研究》
北大核心
2025年第11期3397-3404,共8页
基金
国家自然科学基金面上项目(62472392)。
文摘
大语言模型训练过程会频繁产生各种软硬件故障,造成训练延长和资源浪费。检查点技术作为关键容错机制在保障训练持续性方面发挥重要作用,但传统的全量检查点方法限制了检查点频率并消耗大量存储资源。为此,提出了一种重要性感知增量检查点方法(SIC)。该方法设计了分层感知的参数更新过滤算法,有效识别每层网络的重要参数更新;此外,通过动态阈值调节机制,在训练过程中实时调节参数变化阈值,确保不丢失关键更新;最后,从理论上证明了SIC对训练收敛性的影响可控。实验表明,单次迭代保存2%的数据足以保证模型的精度和收敛性;相比于最先进的全量检查点方法,在相同开销约束下SIC检查点频率提升了9~17倍,存储开销仅为3%。因此,SIC兼具了高执行效率、低存储开销的优势。
关键词
大语言模型
容错训练
检查点
技术
增量检查点
Keywords
large language model
fault-tolerant training
checkpointing
incremental checkpointing
分类号
TP301 [自动化与计算机技术—计算机系统结构]
TP333.1 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
采用增量检查点技术改进Condor检查点机制的研究
被引量:
3
2
作者
张光辉
王丽娟
陈姗
机构
河南农业大学信息与管理科学学院
出处
《河南农业大学学报》
CAS
CSCD
北大核心
2010年第6期718-721,共4页
基金
河南省科技攻关项目(2008A520011)
文摘
分析了集群作业系统Condor中的检查点机制的实现原理,针对其在执行检查点操作时存在的对计算资源和存储资源的利用的不足,提出了使用增量检查点技术对其进行优化的方案,使得每次进行检查点操作时,只需要保存同上次检查点操作相比改变了的数据,这样可以大大降低检查点操作的空间开销和时间开销,最后通过1个矩阵运算的实例验证了改进方案的可行性.
关键词
机群
CONDOR
高吞吐量计算
增量检查点
技术
Keywords
machine cluster
Condor
high throughput computing
incremental checkpoint technique
分类号
TP393.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
面向多样计算场景的检查点技术综述
3
作者
陈筱琳
张亚强
史宏志
机构
山东海量信息技术研究院
出处
《计算机应用》
北大核心
2025年第6期1922-1933,共12页
基金
山东省自然科学基金资助项目(ZR2021QF104)。
文摘
检查点技术是一种在计算系统中保存当前计算任务和系统状态的方法,可应用于系统故障恢复、作业迁移和作业抢占等诸多场景。随着技术的发展,计算场景更多元,计算规模更大,计算系统的结构层次更复杂,且计算环境更多变,这些会导致故障发生的概率增加。同时,平均故障间隔时间(MTBT)从[6.50 h,40.00 h]缩短至1.25 h。因此,作为典型容错手段的检查点技术显得越来越重要。首先,介绍多样计算场景的检查点技术近年来的发展概况,并基于现有技术的特点对它们进行分类;其次,回顾包括增量检查点、多级异步检查点、最优检查点间隔和基于故障感知的检查点这4个方向在内的最新研究进展,并总结检查点技术在面向多样计算场景时的发展趋势——动态化、智能化和主动化,以及该技术面临的挑战;最后,通过梳理优化检查点策略的主要思路和最新方法,帮助研究人员快速掌握检查点技术的现状和未来发展趋势。
关键词
增量检查点
多级异步
检查点
最优
检查点
间隔
动态
检查点
基于故障感知的
检查点
Keywords
incremental checkpoint
multi-level asynchronous checkpoint
optimal checkpoint interval
dynamic checkpoint
fault perception-based checkpoint
分类号
TP302.8 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
SIC:面向大语言模型训练的增量检查点技术
王志强
朱文喆
闫超美
李永坤
《计算机应用研究》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
采用增量检查点技术改进Condor检查点机制的研究
张光辉
王丽娟
陈姗
《河南农业大学学报》
CAS
CSCD
北大核心
2010
3
在线阅读
下载PDF
职称材料
3
面向多样计算场景的检查点技术综述
陈筱琳
张亚强
史宏志
《计算机应用》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部