期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
静态分析面向异构系统的应用级Checkpoint设置问题 被引量:2
1
作者 贾佳 杨学军 马亚青 《软件学报》 EI CSCD 北大核心 2013年第6期1361-1375,共15页
应用级checkpointing是一种在大规模科学计算领域中备受关注的容错技术,该技术由用户程序员选择在适当的地方保存关键数据,从而降低了容错开销.选择合适的checkpointing位置、减小全局checkpoint保存数据量是优化应用级checkpointing技... 应用级checkpointing是一种在大规模科学计算领域中备受关注的容错技术,该技术由用户程序员选择在适当的地方保存关键数据,从而降低了容错开销.选择合适的checkpointing位置、减小全局checkpoint保存数据量是优化应用级checkpointing技术的关键问题.对于近年来推出的带有通用GPU的异构系统上的应用级checkpointing技术,也同样面临上述问题.针对异构系统体系结构和程序特征,对面向异构系统的应用级checkpointing技术的检查点设置进行了静态分析,提出两套不同机制的检查点设置方法:同步及异步检查点设置方法,并分别就checkpointing优化设置问题对其进行数学建模和求解.最后,通过实验验证并评估了所提出的两种方法的性能. 展开更多
关键词 应用级checkpointing 异构系统 通用GPU 同步检查点设置 异步检查点设置
在线阅读 下载PDF
面向多样计算场景的检查点技术综述
2
作者 陈筱琳 张亚强 史宏志 《计算机应用》 北大核心 2025年第6期1922-1933,共12页
检查点技术是一种在计算系统中保存当前计算任务和系统状态的方法,可应用于系统故障恢复、作业迁移和作业抢占等诸多场景。随着技术的发展,计算场景更多元,计算规模更大,计算系统的结构层次更复杂,且计算环境更多变,这些会导致故障发生... 检查点技术是一种在计算系统中保存当前计算任务和系统状态的方法,可应用于系统故障恢复、作业迁移和作业抢占等诸多场景。随着技术的发展,计算场景更多元,计算规模更大,计算系统的结构层次更复杂,且计算环境更多变,这些会导致故障发生的概率增加。同时,平均故障间隔时间(MTBT)从[6.50 h,40.00 h]缩短至1.25 h。因此,作为典型容错手段的检查点技术显得越来越重要。首先,介绍多样计算场景的检查点技术近年来的发展概况,并基于现有技术的特点对它们进行分类;其次,回顾包括增量检查点、多级异步检查点、最优检查点间隔和基于故障感知的检查点这4个方向在内的最新研究进展,并总结检查点技术在面向多样计算场景时的发展趋势——动态化、智能化和主动化,以及该技术面临的挑战;最后,通过梳理优化检查点策略的主要思路和最新方法,帮助研究人员快速掌握检查点技术的现状和未来发展趋势。 展开更多
关键词 增量检查点 多级异步检查点 最优检查点间隔 动态检查点 基于故障感知的检查点
在线阅读 下载PDF
异构系统的异步应用级Checkpointing技术
3
作者 贾佳 《计算机工程与科学》 CSCD 北大核心 2011年第11期54-59,共6页
应用级checkpointing技术是同构系统上最为常用和成熟的容错技术,但在异构系统下的应用还处于起步阶段,还没有一套严谨合理的针对异构系统架构和故障模型特点的实现方案和配置方法。针对这一现况,本文基于CUDA异构系统的体系结构和编程... 应用级checkpointing技术是同构系统上最为常用和成熟的容错技术,但在异构系统下的应用还处于起步阶段,还没有一套严谨合理的针对异构系统架构和故障模型特点的实现方案和配置方法。针对这一现况,本文基于CUDA异构系统的体系结构和编程模型,对CUDA程序在CPU和GPU上的执行模式进行分析,提出了一种面向异构系统应用级checkpointing技术的异步执行机制,并基于这一机制对异构系统的检查点优化设置问题进行讨论,设计了一套优化方案。最后在CUDA平台下通过三个实例验证了这一技术的可行性和实用性,并进行了性能评估。结果表明,这种面向CPU-GPU的异构系统的应用级checkpointing异步执行机制是行之有效的,相比CPU-GPU同步执行的checkpointing机制在设置上更为灵活,优化空间更大。而本文基于这一机制所提出的检查点优化设置方法也有效地减少了check-pointing的开销,从而获得了更高的容错性能。 展开更多
关键词 应用级checkpointing技术 异构系统 异步执行机制 检查点最优化设置
在线阅读 下载PDF
基于内存缓存的异步检查点容错技术 被引量:8
4
作者 易会战 王锋 +3 位作者 左克 杨灿群 杜云飞 马亚青 《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1229-1239,共11页
高性能计算机系统规模越来越大,系统可靠性问题越来越严重.检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题.针对当前计算机系统计算和存储资源丰富,而并行文... 高性能计算机系统规模越来越大,系统可靠性问题越来越严重.检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题.针对当前计算机系统计算和存储资源丰富,而并行文件系统写带宽提高相对滞后的特点,提出了基于内存缓存的异步检查点容错技术,传统的检查点技术被划分为两步:检查点文件首先被缓存在计算结点的局部内存,然后使用一个独立的帮助任务将数据拷贝到并行文件系统.利用局部内存带宽高以及帮助任务和计算任务并行执行的特点,新方法极大减小了检查点容错引入的时间开销,模拟和实际程序测试验证了异步检查点容错技术的有效性. 展开更多
关键词 内存缓存 异步 检查点 容错 JASMIN
在线阅读 下载PDF
分布式系统中的检查点算法 被引量:12
5
作者 魏晓辉 鞠九滨 《计算机学报》 EI CSCD 北大核心 1998年第4期367-375,共9页
检查点能够保存和恢复程序的运行状态.它在进程迁移、容错、卷回调试等领域都有重要的应用.本文对分布式系统中的检查点算法进行了详细的分类评述.检查点算法可分为单进程和分布式程序检查点算法,分布式程序检查点算法又可分为异步... 检查点能够保存和恢复程序的运行状态.它在进程迁移、容错、卷回调试等领域都有重要的应用.本文对分布式系统中的检查点算法进行了详细的分类评述.检查点算法可分为单进程和分布式程序检查点算法,分布式程序检查点算法又可分为异步检查点算法和一致检查点算法.同时本文系统介绍了改进检查点算法性能的典型方法.这些改进算法主要采用两个策略来减少算法的开销与延迟:一是减少检查点文件中需要存储的信息量,如增量算法等;二是提高检查点操作与目标程序运行的并行性,如主存算法等.最后,文章讨论了目前检查点算法的局限性和进一步的工作. 展开更多
关键词 检查点 检查点算法 算法 分布式系统
在线阅读 下载PDF
移动Ad Hoc网络混合检查点策略 被引量:1
6
作者 廖国琼 熊安晋 +2 位作者 狄国强 万常选 夏家莉 《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1176-1184,共9页
考虑到移动Ad Hoc网络无固定中心节点、多跳路由和资源有限等特点,基于分簇移动Ad Hoc网络结构,提出了一种结合同步和异步检查点技术的混合检查点策略,即同簇终端检查点必须保持同步,而异簇终端检查点保持独立.首先讨论了混合检查点模... 考虑到移动Ad Hoc网络无固定中心节点、多跳路由和资源有限等特点,基于分簇移动Ad Hoc网络结构,提出了一种结合同步和异步检查点技术的混合检查点策略,即同簇终端检查点必须保持同步,而异簇终端检查点保持独立.首先讨论了混合检查点模型及其正确性准则.然后,基于簇内及簇间检查点依赖图,讨论了不同类型检查点清除规则.最后,给出了相应的检查点及回滚恢复算法,并证明了回滚恢复的正确性.所提出的混合检查点策略既能避免同簇进程级联回滚所引起的资源浪费、又能避免异簇终端之间过多跨簇消息传递及减少无线通信延迟.实验结果表明,与单纯的同步及异步检查点策略相比,所提出的检查点策略是一种综合考虑移动Ad Hoc网络各种资源约束的较好折中方案,且具有恢复时间短、对簇头依赖小、灵活性好等优点. 展开更多
关键词 AD HOC网络 移动通信 混合检查点 同步检查点 异步检查点
在线阅读 下载PDF
异步检查点容错PVM 被引量:1
7
作者 余洋 陆鑫达 《计算机工程与应用》 CSCD 北大核心 1999年第11期34-37,共4页
以工作站簇为代表的计算环境是当前分布式系统和并行计算的研究重点之一,PVM所提供的消息传递机制支持了高效的异构网络计算。但标准PVM缺乏对系统容错的支持,这可以通过使用检查点的回滚恢复方式予以弥补。该文对如何在用户级... 以工作站簇为代表的计算环境是当前分布式系统和并行计算的研究重点之一,PVM所提供的消息传递机制支持了高效的异构网络计算。但标准PVM缺乏对系统容错的支持,这可以通过使用检查点的回滚恢复方式予以弥补。该文对如何在用户级实现PVM全局容错,分析其设计思想和实现技术。主要思想是使用进行消息记录的异步检查点算法,并利用PVM守护进程和全局调度进程进行控制,所有操作对应用程序都是透明的。利用该系统还可以进一步实现PVM的透明进程迁移和负载均衡。 展开更多
关键词 异步检查点 容错 工作站簇 PVM 软件系统
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部