基于RDD关键度的Spark检查点管理策略被引量：6

Criticality Checkpoint Management Strategy Based on RDD Characteristics in Spark

在线阅读下载PDF

导出

摘要 Spark默认容错机制由程序员设置检查点,并利用弹性分布式数据集(resilient distributed dataset,RDD)的血统(lineage)进行计算.在应用程序复杂度高、迭代次数多以及数据量较大时,恢复过程需要耗费大量的计算开销.同时,在执行恢复任务时,仅考虑数据本地性选择节点,并未考虑节点的计算能力,这都会导致恢复时间增加,无法最大化发挥集群的性能.因此,在建立Spark执行模型、检查点模型和RDD关键度模型的基础上,提出一种基于关键度的检查点管理(criticality checkpoint management,CCM)策略,其中包括检查点设置算法、失效恢复算法和清理算法.其中检查点设置算法通过分析作业中RDD的属性以及对作业恢复时间的影响,选择关键度大的RDD作为检查点存储;恢复算法根据各节点的计算能力做出决策,选择合适的节点执行恢复任务;清理算法在磁盘空间不足时,清除关键度较低的检查点.实验结果表明:该策略在略增加执行时间的情况下,能够选择有备份价值的RDD作为检查点,在节点失效时能够有效地降低恢复开销,提高节点的磁盘有效利用率. The default fault tolerance mechanism of Spark is setting the checkpoint by programmer.When facing data loss,Spark recomputes the tasks based on the RDD lineage to recovery the data.Meanwhile,in the circumstance of complicated application with multiple iterations and large amount of input data,the recovery process may cost a lot of computation time.In addition,the recompute task only considers the data locality by default regardless the computing capabilities of nodes,which increases the length of recovery time.To reduce recovery cost,we establish and demonstrate the Spark execution model,the checkpoint model and the RDD critically model.Based on the theory,the criticality checkpoint management(CCM)strategy is proposed,which includes the checkpoint algorithm,the failure recovery algorithm and the cleaning algorithm.The checkpoint algorithm is used to analyze the RDD charactersitics and its influence on the recovery time,and selects valuable RDDs as checkpoints.The failure recovery algorithm is used to choose the appropriate nodes to recompute the lost RDDs,and cleaning algorithm cleans checkpoints when the disk space becomes insufficient.Experimental results show that:the strategy can reduce the recovery overhead efficiently,select valuable RDDs as checkpoints,and increase the efficiency of disk usage on the nodes with sacrificing the execution time slightly.

作者英昌甜于炯卞琛王维庆鲁亮钱育蓉 Ying Changtian;Yu Jiong;Bian Chen;Wang Weiqing;Lu Liang;Qian Yurong(Postdoctoral Research Station of Electrical Engineering, Xinjiang University, Urumqi 830046;School of Software, Xinjiang University, Urumqi 830008;School of Electrical Engineering, Xinjiang University, Urumqi 830046)

机构地区新疆大学电气工程博士后科研流动站新疆大学软件学院新疆大学电气工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2017年第12期2849-2863,共15页 Journal of Computer Research and Development

基金国家自然科学基金项目(61262088 61462079 61363083 61562086 51667020) 新疆维吾尔自治区自然科学基金项目(2017D01A20) 新疆维吾尔自治区高校科研计划(XJEDU2016S106)~~

关键词内存计算 SPARK 检查点管理失效恢复 RDD属性 memory computing Spark checkpoint management failure recovery RDD characteristics

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

作者简介 yingct@xju.edu.com.Ying Changtian, born in 1989. PhD in Xinjiang University. Student member of CCF. Her main research interests include parallel computing, distributed system, and memory computing, etc.;通信作者:于炯(yujiong@xju.edu.cn).Yu Jiong, born in 1964. Professor and PhD supervisor. Senior member of CCF. His main research interests include grid computing, parallel computing, etc.;Bian Chen, born in 1981. Associate professor and PhD. Senior member of CCF. His main research interests include parallel computing, distributed system, etc.;Wang Weiqing, born in 1959. Professor and PhD supervisor. His main research interests include power system relay protection, wind power generation control and grid connection technology (wwq59@xju.edu.cn).;Lu Liang, born in 1990. PhD candidate in Xinjiang University. Student member of CCF. His main research interests include flow processing, real time computing.;Qian Yurong, born in 1981. Professor and master supervisor. Senior member of CCF. Her main research interests include data mining.

引文网络
相关文献

参考文献4

1孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2406
2周恩强,卢宇彤,沈志宇.一个适合大规模集群并行计算的检查点系统[J].计算机研究与发展,2005,42(6):987-992. 被引量：12
3易会战,王锋,左克,杨灿群,杜云飞,马亚青.基于内存缓存的异步检查点容错技术[J].计算机研究与发展,2014,51(6):1229-1239. 被引量：8
4万虎,徐远超,闫俊峰,孙凤芸,张伟功.通过非易失存储和检查点优化缓解日志开销[J].计算机研究与发展,2015,52(6):1351-1361. 被引量：6

二级参考文献194

1E.N. Elnozahy, D. B. Johnson. A survey of rollback-recovery protocols in message passing systems. School of Computer Science, Carnegie Mellon University, Tech Rep: CMU-CS-96-181, 1996
2Pierre Lemarinier, Aurelien Bouteiller. Improved message logging versus improved coordinated checkpointing for fault tolerant MPI.IEEE Int'l Conf. Cluster Computing (Cluster 2003), Hong Kong, 2003
3Chandy K M, Lamport L. Distributed snapshots: Determining global states of distributed systems. ACM Trans. Computer Systems, 1985, 3(1): 63～75
4谢旻邢座程.NICHAL通信软件接口设计与实现[J].计算机研究与发展,2002,39:189-203.
5Nature. Big Data [EB/OL]. [2012-10-02]. http,//www. nature, com/news/specials/bigdata/index, html.
6Bryant R E, Katz R H, Lazowska E D. Big-Data computing : Creating revolutionary breakthroughs in commerce, science, and society [R]. [2012-10-02]. http:// www. cra. org/ccc/docs/init/Big_Data, pdf.
7Science. Special online collection: Dealing with data [EB/OL]. [2012-10-02]. http://www, sciencemag, org/site/ special/data/, 2011.
8Agrawal D, Bernstein P, Bertino E, et al. Challenges and opportunities with big data A community white paper developed by leading researchers across the United States [R/OL]. [2012-10-02]. http://cra, org/ccc/docs/init/bigdata whitepaper, pdf.
9Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, competition, and productivity [R/OL]. [ 2012-10-02 ]. http://www, mekinsey, corn/ Insights]MGI[Research/Teehnology _ and _ Innovation]Big _ data The next frontier for innovation.
10World Economic Forum. Big data, big impact: New possibilities for international development [R/OL]. [2012- 10-02]. http://www3, weforum, org/docs/WEF TC MFS BigDataBigImpact_Briefing 2012. pdf.

共引文献2426

1韩莹莹,钟专,褚月娇,康春阳,李东霓,王志佳,刘晓阳,张白羽.基于大数据智能化背景下神经病学实践教学体系构建的探索[J].中国实验诊断学,2023,27(8):1006-1009. 被引量：2
2李坪.大数据赋权正当性证成[J].中山大学法律评论,2020(1):3-21. 被引量：1
3孙昊鹏.大数据在新冠肺炎疫情中的应用和缺失[J].郑州师范教育,2020,9(3):91-96. 被引量：1
4闫妍.刍议大数据时代背景下全面预算管理对提升项目储备精益化管理水平的价值[J].质量与市场,2020,0(1):19-21. 被引量：7
5叶青.违法立案的检察监督机制研究[J].国家检察官学院学报,2024,32(1):53-68. 被引量：2
6刘厚营.大数据在安保工作情报分析中的应用[J].工程技术研究,2018,3(1):243-244. 被引量：1
7肖楠,陈红梅.从融媒体到智媒体:一种技术驱动下的传媒经济发展路径[J].新闻知识,2020(9):19-22. 被引量：3
8杨东,郑清洋.从TikTok事件看数字人民币的路径选择:从流量入口到金融优势的转化[J].新疆师范大学学报（哲学社会科学版）,2021,42(4):126-135. 被引量：8
9刘生龙,张晓明,杨竺松.互联网使用对农村居民收入的影响[J].数量经济技术经济研究,2021,38(4):103-119. 被引量：78
10李跃先,殷传涛,魏亿钢.基于本体与中间件的科技资源数据集成方法[J].标准科学,2021(5):21-28. 被引量：4

同被引文献36

1董渊,任恺,王生原,张素琴.字节码虚拟机的构造和验证[J].软件学报,2010,21(2):305-317. 被引量：2
2钱晓雯.MQ消息中间件通用框架研究及设计开发[J].科技与生活,2010(23):35-35. 被引量：1
3彭宇,姜红兰,杨智明,乔立岩,刘旺.基于DSP和FPGA的通用数字信号处理系统设计[J].国外电子测量技术,2013,32(1):17-21. 被引量：91
4倪亚路,周晓方.一种基于伪LRU的新型共享Cache划分机制[J].电子学报,2013,41(4):681-684. 被引量：3
5朱建生,汪健雄,张军锋.基于NoSQL数据库的大数据查询技术的研究与应用[J].中国铁道科学,2014,35(1):135-141. 被引量：29
6孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：315
7徐雨明,朱宁波,欧阳艾嘉,李肯立.异构系统中DAG任务调度的双螺旋结构遗传算法[J].计算机研究与发展,2014,51(6):1240-1252. 被引量：9
8孔晨燕,赵建民,朱信忠,徐慧英.HDFS平台下基于纠删码的一种数据放置策略[J].浙江师范大学学报（自然科学版）,2015,38(1):89-94. 被引量：1
9高壮良,吕雁飞,张鸿.基于Graphlab的网络图关键节点发现算法研究[J].通信学报,2016,37(3):182-189. 被引量：2
10马学娟.基于快速傅里叶变换(FFT)和小波变换的大型风机机械振动故障的分析[J].科技与创新,2016(11):121-121. 被引量：3

引证文献6

1乔昕,刘峰,于碧辉.基于Spark的分布式数字信号处理算法库设计[J].计算机系统应用,2018,27(8):214-218. 被引量：2
2吴天雄,陈兴蜀,罗永刚.大数据平台下应用程序保护机制的研究与实现[J].信息网络安全,2019(1):68-75. 被引量：5
3陈天宇,张龙信,李肯立,周立前.Spark框架中RDD缓存替换策略优化[J].小型微型计算机系统,2019,40(6):1248-1253. 被引量：9
4包文瑞.基于Spark GraphX的异构网络社区检测[J].信息技术,2019,43(8):62-65. 被引量：1
5蒲勇霖,于炯,鲁亮,李梓杨,卞琛,廖彬.Storm平台下的线程重分配与数据迁移节能策略[J].软件学报,2021,32(8):2557-2579. 被引量：10
6张桉,彭奕铭.党政机关综合办公平台设计与应用[J].中国科技成果,2025,26(4):23-25.

二级引证文献27

1邱军,左锋,胡冰.基于“互联网+”的医院网络的安全规划与建设[J].信息网络安全,2020(S02):78-81. 被引量：4
2谢碧英.大数据时代下机房管理与运维工作优化和改进[J].信息网络安全,2020(S02):70-73. 被引量：5
3黄东,陈光,李海滨,杨朔.Spark个性化地点推荐系统[J].辽宁工程技术大学学报（自然科学版）,2020(6):533-540. 被引量：1
4王玉.Spark大数据处理平台的构建及应用[J].大众标准化,2019,0(18):28-29. 被引量：2
5廖方圆,陈剑锋,甘植旺.人工智能驱动的关键信息基础设施防御研究综述[J].计算机工程,2019,45(7):181-187. 被引量：13
6张婷.基于Apache Spark的移动APP用户访问路径分析[J].海南大学学报（自然科学版）,2019,37(3):209-218. 被引量：1
7张龙信,王兰,肖满生,文志华,李肯立.异构云系统中预算成本约束下高效的工作流调度算法[J].小型微型计算机系统,2020,41(6):1182-1187. 被引量：5
8刘文静,王洪彬.GraphX图模型智能软件死码发现机制[J].福建电脑,2020,36(6):87-89.
9蒋楠.基于Spark大数据处理框架的逆时偏移成像技术研究[J].石油物探,2020,59(4):564-571. 被引量：8
10魏赟,丁宇琛.Spark中一种高效RDD自主缓存替换策略研究[J].计算机应用研究,2020,37(10):3043-3047. 被引量：4

1刘琪琛,雷景生,郝珈玮,黄燕刚,李强,罗海波.基于Spark平台和并行随机森林回归算法的短期电力负荷预测[J].电力建设,2017,38(10):84-92. 被引量：31
2吴国庆.构造“圆和圆外一定点”模型求线段最值[J].中学生数学（初中版）,2017,0(12):37-38. 被引量：1
3郭丽娜.协同护理模式联合心理干预对卵巢囊肿术后患者自我效能及负性情绪的影响[J].中国民康医学,2017,29(19):110-111. 被引量：7
4胡延坤.领导者发挥容错机制正向功能的艺术[J].领导科学,2017(23):40-42. 被引量：2
5杜红光,雷州,陈圣波.共享集群基于HDFS的数据块密度调度策略[J].计算机科学,2017,44(B11):510-515. 被引量：2
6xun-he huang,gui-mei li,xing chen,ya-jiang wu,wei-na li,fu-sheng zhong,wen-zhi wang,zhao-li ding.Identification of a novel mtDNA lineage B3 in chicken (Gallus gallus domesticus)[J].Zoological Research,2017,38(4):208-210.
7刘元波.浅谈如何提高企业会计管理的实效性[J].纳税,2017,11(35):39-40.
8扎西.察汗诺门罕转世系统产生的缘由考辩[J].西藏大学学报（藏文版）,2017(3):75-90.
9梁开盟.Event Risk Management[J].环球市场信息导报,2017(49):39-39.
10唐雪,郭霞.儿童Ph-like急性淋巴细胞白血病的研究进展[J].中国当代儿科杂志,2017,19(11):1213-1218. 被引量：2

计算机研究与发展

2017年第12期

浏览历史

内容加载中请稍等...

基于RDD关键度的Spark检查点管理策略被引量：6

参考文献4

二级参考文献194

共引文献2426

同被引文献36

引证文献6

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于RDD关键度的Spark检查点管理策略 被引量：6

参考文献4

二级参考文献194

共引文献2426

同被引文献36

引证文献6

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于RDD关键度的Spark检查点管理策略被引量：6