期刊文献+
共找到77篇文章
< 1 2 4 >
每页显示 20 50 100
SIC:面向大语言模型训练的增量检查点技术
1
作者 王志强 朱文喆 +1 位作者 闫超美 李永坤 《计算机应用研究》 北大核心 2025年第11期3397-3404,共8页
大语言模型训练过程会频繁产生各种软硬件故障,造成训练延长和资源浪费。检查点技术作为关键容错机制在保障训练持续性方面发挥重要作用,但传统的全量检查点方法限制了检查点频率并消耗大量存储资源。为此,提出了一种重要性感知增量检... 大语言模型训练过程会频繁产生各种软硬件故障,造成训练延长和资源浪费。检查点技术作为关键容错机制在保障训练持续性方面发挥重要作用,但传统的全量检查点方法限制了检查点频率并消耗大量存储资源。为此,提出了一种重要性感知增量检查点方法(SIC)。该方法设计了分层感知的参数更新过滤算法,有效识别每层网络的重要参数更新;此外,通过动态阈值调节机制,在训练过程中实时调节参数变化阈值,确保不丢失关键更新;最后,从理论上证明了SIC对训练收敛性的影响可控。实验表明,单次迭代保存2%的数据足以保证模型的精度和收敛性;相比于最先进的全量检查点方法,在相同开销约束下SIC检查点频率提升了9~17倍,存储开销仅为3%。因此,SIC兼具了高执行效率、低存储开销的优势。 展开更多
关键词 大语言模型 容错训练 检查点技术 增量检查点
在线阅读 下载PDF
面向多样计算场景的检查点技术综述
2
作者 陈筱琳 张亚强 史宏志 《计算机应用》 北大核心 2025年第6期1922-1933,共12页
检查点技术是一种在计算系统中保存当前计算任务和系统状态的方法,可应用于系统故障恢复、作业迁移和作业抢占等诸多场景。随着技术的发展,计算场景更多元,计算规模更大,计算系统的结构层次更复杂,且计算环境更多变,这些会导致故障发生... 检查点技术是一种在计算系统中保存当前计算任务和系统状态的方法,可应用于系统故障恢复、作业迁移和作业抢占等诸多场景。随着技术的发展,计算场景更多元,计算规模更大,计算系统的结构层次更复杂,且计算环境更多变,这些会导致故障发生的概率增加。同时,平均故障间隔时间(MTBT)从[6.50 h,40.00 h]缩短至1.25 h。因此,作为典型容错手段的检查点技术显得越来越重要。首先,介绍多样计算场景的检查点技术近年来的发展概况,并基于现有技术的特点对它们进行分类;其次,回顾包括增量检查点、多级异步检查点、最优检查点间隔和基于故障感知的检查点这4个方向在内的最新研究进展,并总结检查点技术在面向多样计算场景时的发展趋势——动态化、智能化和主动化,以及该技术面临的挑战;最后,通过梳理优化检查点策略的主要思路和最新方法,帮助研究人员快速掌握检查点技术的现状和未来发展趋势。 展开更多
关键词 增量检查点 多级异步检查点 最优检查点间隔 动态检查点 基于故障感知的检查点
在线阅读 下载PDF
基于CRIU的高性能计算容器检查点技术研究 被引量:1
3
作者 陈轶阳 王小宁 +4 位作者 闫晓婷 李冠龙 赵一宁 卢莎莎 肖海力 《计算机科学》 CSCD 北大核心 2024年第9期40-50,共11页
容错一直是高性能计算领域的热点和难点问题。检查点是解决容错问题的一种常用技术手段,它能够将运行进程的状态转储成文件并恢复。容器具有较强的资源隔离能力,可以为检查点技术提供更理想的运行环境与载体,避免迁移后任务在节点变更... 容错一直是高性能计算领域的热点和难点问题。检查点是解决容错问题的一种常用技术手段,它能够将运行进程的状态转储成文件并恢复。容器具有较强的资源隔离能力,可以为检查点技术提供更理想的运行环境与载体,避免迁移后任务在节点变更的情况下由于环境与资源变化而出现异常。因此,容器和检查点相结合能够更好地支撑任务迁移的研究与实现。文中围绕基于CRIU(Checkpoint/Restore In Userspace)的Singularity容器检查点方案的设计和优化展开,根据检查点技术在高性能计算容器应用中的特点,在CRIU安全使用、迁移性能优化、保持网络状态方面给出了有效的解决方案,基于这些方案拓展了Singularity容器检查点功能,并且实现了原型工具Migrator来验证容器迁移性能。期望本工作能为后续实现高性能计算任务迁移提供有效的支撑。 展开更多
关键词 容器 检查点 高性能计算 热迁移 容错
在线阅读 下载PDF
高性能计算检查点技术发展与应用综述 被引量:1
4
作者 闫晓婷 王小宁 +2 位作者 董盛 赵一宁 肖海力 《计算机科学》 CSCD 北大核心 2024年第9期1-14,共14页
随着高性能计算系统的规模不断扩大,复杂度不断提升,应用的容错能力成为E级计算面临的重要挑战之一。检查点技术是实现应用程序的容错能力的主要手段之一,通过定期保存应用的执行状态来实现故障恢复。文中针对高性能计算检查点技术的发... 随着高性能计算系统的规模不断扩大,复杂度不断提升,应用的容错能力成为E级计算面临的重要挑战之一。检查点技术是实现应用程序的容错能力的主要手段之一,通过定期保存应用的执行状态来实现故障恢复。文中针对高性能计算检查点技术的发展和应用情况展开综述。首先,整理了高性能计算领域中检查点技术的发展;其次,根据运行层次的不同,分别阐述了系统层检查点和应用层检查点的工作,包括主流的工具软件、可用的检查点技术、使用的应用场景等;然后,讨论了检查点技术在并行计算的容错与弹性、HPC的调度与迁移、FPGA的调试、深度学习中的容错与忠实重放这4个方面的应用;最后,对检查点技术在高性能计算领域的下一步研究方向进行了展望。 展开更多
关键词 检查点 高性能计算 容错 调度 作业迁移
在线阅读 下载PDF
基于内存缓存的异步检查点容错技术 被引量:8
5
作者 易会战 王锋 +3 位作者 左克 杨灿群 杜云飞 马亚青 《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1229-1239,共11页
高性能计算机系统规模越来越大,系统可靠性问题越来越严重.检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题.针对当前计算机系统计算和存储资源丰富,而并行文... 高性能计算机系统规模越来越大,系统可靠性问题越来越严重.检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题.针对当前计算机系统计算和存储资源丰富,而并行文件系统写带宽提高相对滞后的特点,提出了基于内存缓存的异步检查点容错技术,传统的检查点技术被划分为两步:检查点文件首先被缓存在计算结点的局部内存,然后使用一个独立的帮助任务将数据拷贝到并行文件系统.利用局部内存带宽高以及帮助任务和计算任务并行执行的特点,新方法极大减小了检查点容错引入的时间开销,模拟和实际程序测试验证了异步检查点容错技术的有效性. 展开更多
关键词 内存缓存 异步 检查点 容错 JASMIN
在线阅读 下载PDF
可扩展的多周期检查点设置 被引量:7
6
作者 慈轶为 张展 +2 位作者 左德承 吴智博 杨孝宗 《软件学报》 EI CSCD 北大核心 2010年第2期218-230,共13页
提出了一种多周期检查点设置方法.它允许各个进程采用不同周期进行检查点设置.为了保证一致全局检查点的向前推进,检查点周期可以根据一个P模式进行调整.在所提出的方法中,进程可以进行组划分处理,从而用于检查点周期调整的依赖跟踪可... 提出了一种多周期检查点设置方法.它允许各个进程采用不同周期进行检查点设置.为了保证一致全局检查点的向前推进,检查点周期可以根据一个P模式进行调整.在所提出的方法中,进程可以进行组划分处理,从而用于检查点周期调整的依赖跟踪可被限定在组内,同时也将使基于时间的多周期检查点设置具有较好的可扩展性. 展开更多
关键词 容错 检查点 依赖跟踪
在线阅读 下载PDF
一种面向CPU-GPU异构系统的容错方法 被引量:6
7
作者 徐新海 杨学军 +2 位作者 林宇斐 林一松 唐滔 《软件学报》 EI CSCD 北大核心 2011年第10期2538-2552,共15页
近年来,为了缓解日益严重的功耗问题,异构并行体系结构已成为超级计算机发展的一个重要趋势.图形处理器(graphics processing unit,简称GPU)凭借其超高的计算性能和性能功耗比,作为一种高效的加速部件已被广泛应用于高性能计算领域.但是... 近年来,为了缓解日益严重的功耗问题,异构并行体系结构已成为超级计算机发展的一个重要趋势.图形处理器(graphics processing unit,简称GPU)凭借其超高的计算性能和性能功耗比,作为一种高效的加速部件已被广泛应用于高性能计算领域.但是,GPU先天的可靠性缺陷势必加剧超级计算机的可靠性问题.目前,国际上关于CPU-GPU异构系统容错技术的研究工作主要将GPU从异构系统中独立出来,以每次调用为粒度对其进行容错处理.设计了一种面向CPU-GPU异构系统的Lazy容错方法,给出了基于编译指导命令的容错框架及其约束,并讨论了相关的编译实现和优化方法,最后通过实验验证了该方法的正确性.实验结果表明,与现有的容错方法相比,利用所设计的LazyFT容错方法对GPGPU(general purpose computation on graphics hardware)程序进行容错处理,可以明显降低容错代价. 展开更多
关键词 GPGPU 异构系统 容错 Lazy策略 检查点
在线阅读 下载PDF
VxWorks中任务恢复机制的设计与实现 被引量:7
8
作者 胡延苏 南秦博 +1 位作者 高昂 慕德俊 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2013年第5期48-52,共5页
软件容错技术是保证系统高可靠性及高可信性的有力工具。设计并实现了一种在VxWorks系统下基于检查点的任务恢复机制。通过对VxWorks系统下检查点文件内容的分析,采用3种方法来解决检查点的任务恢复问题:基于内存预先分配的主动内存管理... 软件容错技术是保证系统高可靠性及高可信性的有力工具。设计并实现了一种在VxWorks系统下基于检查点的任务恢复机制。通过对VxWorks系统下检查点文件内容的分析,采用3种方法来解决检查点的任务恢复问题:基于内存预先分配的主动内存管理,解决任务恢复时数据内存地址变化的问题;建立系统内核对象池,实现支持多任务之间同步和通信的内核对象的恢复;设计用户层任务恢复中间件,实现用户级检查点设置和任务恢复。最后设计基于VxWorks和PowerPC的计算平台原理样机,通过对单任务、多个单任务、多任务通讯、以及多任务协调工作4个测试用例的分析表明,所设计的基于检查点的任务恢复实现方案能正确保存任务关键信息及保证任务恢复的正确性和一致性。 展开更多
关键词 VXWORKS 软件容错 检查点 任务恢复
在线阅读 下载PDF
一种基于扩展数据流分析的OpenMP程序应用级检查点机制 被引量:7
9
作者 富弘毅 丁滟 +1 位作者 宋伟 杨学军 《计算机学报》 EI CSCD 北大核心 2010年第10期1809-1822,共14页
随着多核处理器体系结构在高性能计算领域日益广泛的应用,面向共享存储并行程序的容错问题成为研究的热点.近年来,检查点技术已经成为该领域占主导地位的容错机制.目前已有一些针对OpenMP程序检查点技术的研究工作,但其中绝大多数解决... 随着多核处理器体系结构在高性能计算领域日益广泛的应用,面向共享存储并行程序的容错问题成为研究的热点.近年来,检查点技术已经成为该领域占主导地位的容错机制.目前已有一些针对OpenMP程序检查点技术的研究工作,但其中绝大多数解决方案都依赖于特殊的运行时库或硬件平台.该文提出一种编译辅助的OpenMP应用级检查点,它是一种平台无关的方案,通过面向OpenMP的扩展数据流分析选择那些"必需"的变量保存到检查点映像,从而降低容错的开销,同时通过运行一种非阻塞式的协议维护检查点的全局一致性.文章讨论了该机制的各个关键问题,并通过实验评测以及与同类工作的比较,表明了该文所提出的检查点机制在容错性能方面的优势. 展开更多
关键词 容错 共享存储 OPENMP 应用级检查点 数据流分析
在线阅读 下载PDF
基于Lustre文件系统的MPI检查点系统实现技术与性能测试 被引量:4
10
作者 谢旻 卢宇彤 +2 位作者 周恩强 曹宏嘉 杨学军 《计算机研究与发展》 EI CSCD 北大核心 2007年第10期1709-1716,共8页
基于协同式检查点的回卷恢复是在大规模并行计算机系统中得到采用的一项重要容错技术,其性能开销主要为协同协议和检查点映像存储所决定.描述了一个在MPICH2中实现的应用透明的并行检查点系统,相比已有的技术,该系统有以下特点:1)协同... 基于协同式检查点的回卷恢复是在大规模并行计算机系统中得到采用的一项重要容错技术,其性能开销主要为协同协议和检查点映像存储所决定.描述了一个在MPICH2中实现的应用透明的并行检查点系统,相比已有的技术,该系统有以下特点:1)协同协议操作利用了并行应用的近邻通信特性,通过虚连接方法减少协议的处理开销;2)采用Lustre文件系统简化检查点映像文件管理的复杂性;3)通过并行I/O操作提高性能,优化检查点映像的存储过程.实际应用的测试表明,该检查点系统具有较小的运行时间开销和良好的可扩展性. 展开更多
关键词 容错技术 MPICH2 回卷恢复 协同式检查点 LUSTRE文件系统
在线阅读 下载PDF
双机容错系统FTDC的设计与实现 被引量:3
11
作者 李凯原 左德承 +1 位作者 崔刚 杨孝宗 《计算机工程》 CAS CSCD 北大核心 1999年第8期61-62,71,共3页
给出了一种利用现有计算机和少量必要的硬件,以容错管理软件为主要手段实现的低成本双机容错系统,主要介绍了该机的容错设计、容错管理软件的实现以及关键技术等问题。
关键词 容错 双机系统 FTDC 设计
在线阅读 下载PDF
实时多任务并行计算系统的容错技术 被引量:5
12
作者 徐晓东 赵建亭 许春雷 《计算机工程与应用》 CSCD 2013年第9期33-36,101,共5页
容错技术是实时多任务并行计算系统设计中必须解决的一个关键难点。针对实时多任务并行计算系统的高可靠性和高效性的要求,介绍了计算机系统可靠性和容错技术的基本概念、基本方法和基本思想,在检查点技术和卷回技术的基础上,提出了进... 容错技术是实时多任务并行计算系统设计中必须解决的一个关键难点。针对实时多任务并行计算系统的高可靠性和高效性的要求,介绍了计算机系统可靠性和容错技术的基本概念、基本方法和基本思想,在检查点技术和卷回技术的基础上,提出了进行多层次、多角度的并行容错计算机系统设计和解决中途消息和孤立消息的相关方案,给出了相应的模型和技术评估,通过仿真实验证明了该模型的有效性。 展开更多
关键词 实时多任务 容错 检查点 多层次
在线阅读 下载PDF
面向云应用系统的容错即服务优化提供方法 被引量:6
13
作者 杨娜 刘靖 《软件学报》 EI CSCD 北大核心 2019年第4期1191-1202,共12页
通过提供高效且持续可用的容错服务以保障云应用系统的可靠运行是至关重要的.采用容错即服务的模式,提出了一种优化的云容错服务动态提供方法,从云应用组件的可靠性及响应时间等方面描述云应用容错需求,以常用的复制、检查点和NVP(N-ver... 通过提供高效且持续可用的容错服务以保障云应用系统的可靠运行是至关重要的.采用容错即服务的模式,提出了一种优化的云容错服务动态提供方法,从云应用组件的可靠性及响应时间等方面描述云应用容错需求,以常用的复制、检查点和NVP(N-version programming)等容错技术为基础,充分考虑容错服务动态切换开销,分别针对支撑容错服务的底层云资源是否足够的场景,给出可用容错即服务提供方案的最优化求解方法.实验结果表明,所提方法降低了云应用系统支付的容错服务费用及支撑容错服务的底层云资源的开销,提高了容错服务提供商为多个云应用实施高效、可靠容错即服务的能力. 展开更多
关键词 云计算 容错即服务 复制容错 检查点容错 最优化
在线阅读 下载PDF
双机容错系统中最佳检查点间隔的分析 被引量:3
14
作者 鄢喜爱 杨金民 田华 《计算机工程》 CAS CSCD 北大核心 2007年第5期283-284,F0003,共3页
设置检查点是容错计算机系统进行故障恢复的重要手段。因为检查点间隔选择过大或过小都将使系统性能受到影响,所以检查点间隔的适当选定是系统性能优化的一个重要指标。该文针对双机容错系统,采用检查点设置与回卷恢复的方法提出了一种... 设置检查点是容错计算机系统进行故障恢复的重要手段。因为检查点间隔选择过大或过小都将使系统性能受到影响,所以检查点间隔的适当选定是系统性能优化的一个重要指标。该文针对双机容错系统,采用检查点设置与回卷恢复的方法提出了一种系统模型,利用马尔科夫链得到了最佳检查点间隔的求解等式,通过实验证实了求解等式的正确性。 展开更多
关键词 双机容错 回卷恢复 检查点间隔
在线阅读 下载PDF
大规模计算系统故障特征及容错机制分析 被引量:3
15
作者 武林平 罗红兵 刘勇鹏 《计算机工程与科学》 CSCD 北大核心 2009年第A01期237-240,共4页
本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系... 本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系统容错机制的挑战及可能的解决方案。 展开更多
关键词 大规模计算系统 故障 容错 断点续算
在线阅读 下载PDF
高可用集群计算 被引量:5
16
作者 汪东升 郑纬民 《小型微型计算机系统》 EI CSCD 北大核心 2000年第11期1126-1129,共4页
根据集群计算的特点 ,论述高可用集群计算系统检查点设置与卷回恢复、检查点镜像、进程迁移以及系统动态重构等关键技术 .最后 ,论文对我们自行研制的 Cha RM系统进行了介绍 ,并与同类系统进行了比较 .
关键词 检查点 进程迁移 系统重构 高可用性 容错
在线阅读 下载PDF
提高用任务重复的检查点方案的性能 被引量:4
17
作者 李凯原 杨孝宗 《电子学报》 EI CAS CSCD 北大核心 2000年第5期33-35,28,共4页
设置检查点是减少程序在故障条件下执行时间的一种常用技术 .将检查点与任务重复技术相结合 ,不仅能够完成有效的故障恢复 ,而且还能进行完善的故障检测 .上述系统的开销主要来自两方面 :其一是每个检查点的比较和保存开销 ,其二是因故... 设置检查点是减少程序在故障条件下执行时间的一种常用技术 .将检查点与任务重复技术相结合 ,不仅能够完成有效的故障恢复 ,而且还能进行完善的故障检测 .上述系统的开销主要来自两方面 :其一是每个检查点的比较和保存开销 ,其二是因故障而引起的卷回 .本文利用增量检查点对Ziv和Bruck提出的方法进行了改进 ,改进后的方法不仅能够有效地减少比较、保存检查点的开销 ,而且还能够避免潜伏故障引起的卷回 .分析表明改进后的方法与Ziv和Bruck的方法相比表现出更好的性能 . 展开更多
关键词 容错 检查点 卷回恢复 任务重复 程序
在线阅读 下载PDF
基于检测点设置依赖图和属性表的卷回恢复算法 被引量:2
18
作者 张宇 洪炳熔 《计算机研究与发展》 EI CSCD 北大核心 2001年第2期246-251,共6页
为了解决检测点设置过程中的 Dom ino效应问题及卷回恢复过程中的活锁问题 ,并最大限度地减小时间开销 ,提出了基于检测点设置依赖图和属性表的卷回恢复算法 .同以前的算法相比较 ,该算法一方面节省了用于进程之间同步的时间开销 ,另一... 为了解决检测点设置过程中的 Dom ino效应问题及卷回恢复过程中的活锁问题 ,并最大限度地减小时间开销 ,提出了基于检测点设置依赖图和属性表的卷回恢复算法 .同以前的算法相比较 ,该算法一方面节省了用于进程之间同步的时间开销 ,另一方面检测点设置及卷回过程中只涉及少量的相关进程 . 展开更多
关键词 检测点 依赖图 属性表 软件容错 卷回恢复算法 计算机
在线阅读 下载PDF
融合容错需求和资源约束的云容错服务适配方法 被引量:4
19
作者 杨娜 刘靖 《计算机科学》 CSCD 北大核心 2017年第7期61-67,97,共8页
云计算环境下,失效成为一种常态行为,可靠性保障能力不足不仅成为云计算应用推广的主要障碍,而且还促使云计算环境下的容错服务研究成为一个亟待解决的问题。针对目前云计算容错服务研究中存在的用户容错需求定义无法直接反映用户关心... 云计算环境下,失效成为一种常态行为,可靠性保障能力不足不仅成为云计算应用推广的主要障碍,而且还促使云计算环境下的容错服务研究成为一个亟待解决的问题。针对目前云计算容错服务研究中存在的用户容错需求定义无法直接反映用户关心的可靠性问题,以及云容错服务供应商资源得不到灵活利用等问题,提出了一种融合容错需求和资源约束的云容错服务适配方法。从用户的角度,以组件为单位,基于可靠性对用户的容错需求进行定义。从云容错服务供应商的角度,分别在其资源充足和资源不足的情况下研究最佳的容错服务适配方法,并使用最优化理论求解该适配方法下的容错服务。实验结果表明,所提出的容错服务适配方法生成的容错服务能更好地满足用户和云容错服务供应商的需求。 展开更多
关键词 云计算 容错即服务 副本容错 检查点容错 最优化
在线阅读 下载PDF
基于防危核(壳)的安全关键硬实时系统响应时间的分析 被引量:3
20
作者 黎忠文 陈亮 熊光泽 《电子学报》 EI CAS CSCD 北大核心 2006年第4期647-652,共6页
基于响应时间的可调度分析是设计硬实时系统的基础.防危核(壳)是安全关键硬实时系统的一种新防危措施,现有的普适响应时间分析方法不能适用于这类系统.本文的贡献在于采用检测点时间冗余容错和优先级提升思想,通过分析内/外错误、隐/显... 基于响应时间的可调度分析是设计硬实时系统的基础.防危核(壳)是安全关键硬实时系统的一种新防危措施,现有的普适响应时间分析方法不能适用于这类系统.本文的贡献在于采用检测点时间冗余容错和优先级提升思想,通过分析内/外错误、隐/显错误,提出了一种合适的响应时间分析方法,从而为这类系统提供有效的离线可调度分析工具,同时也为这类系统设计了一种基于检测点的容错方案.本方法稍作修改也可为其它安全关键系统服务.最后通过仿真实验验证了本方法的有效性和优越性. 展开更多
关键词 防危核(壳) 安全关键系统 容错 检测点 响应时间分析
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部