-
题名基于RDD重用度的Spark自适应缓存优化策略
- 1
-
-
作者
潘顺杰
于俊洋
王龙葛
李涵
翟锐
-
机构
河南大学软件学院
-
出处
《计算机工程》
北大核心
2025年第7期190-198,共9页
-
基金
河南省科技攻关项目(232102210029,232102210031)。
-
文摘
基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素被移动到顶部并优先被删除,且造成数据重算。针对Spark使用的LRU缓存替换算法造成的高频访问但当前未被使用的热点数据被替换出缓存的问题,提出一种基于弹性分布式数据集(RDD)重用度的Spark自适应缓存优化策略(LCRD),该策略包括自动缓存算法和缓存自动清理算法。首先,自动缓存算法在作业执行前对Spark的有向无环图(DAG)进行分析,计算RDD的重用频率、RDD的算子复杂度等数据,并对影响执行效率的相关因素进行量化,根据重用度模型进行计算,在作业执行中,应用程序将重用度较高的数据块进行缓存;其次,在发生内存瓶颈或RDD缓存无效时,缓存自动清理算法遍历缓存队列,并对低频访问的数据块进行清理。实验结果表明,在选取amazon0302、email-EuAll、web-Google、wiki-Talk等4种公开数据集执行PageRank迭代作业时,与LRU相比,LCRD的执行效率平均分别提升10.7%、8.6%、17.9%和10.6%,内存利用率平均分别提升3%、4%、3%和5%。所提策略能够有效提高Spark的执行效率,同时提升内存利用率。
-
关键词
并行计算
Spark框架
缓存替换
最近最少使用算法
大数据
-
Keywords
parallel computing
Spark framework
cache replacement
least recently used(lru)algorithm
big data
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名LRU页面置换算法的改进与实现
被引量:4
- 2
-
-
作者
赵俊化
胡金霞
-
机构
中山大学信息科学与技术学院
广州科技贸易职业学院计算机系
-
出处
《计算机工程》
CAS
CSCD
2012年第17期24-27,共4页
-
文摘
为简化嵌入式虚拟内存的实现,改善嵌入式虚拟内存的性能,在对常见页面置换算法进行对比分析的基础上,提出一种改进的最久未使用页面置换算法。该算法基于内存管理单元、跨页访问计数器、访问次序寄存器、溢出中断处理等软硬件相结合的技术。实验结果表明,该算法能提高嵌入式系统的页面置换效率,提升系统的整体性能,可广泛应用于各种物联网系统和嵌入式系统。
-
关键词
物联网
页面置换算法
最久未使用
改进型Clock算法
溢出中断
跨页访问
内存管理单元
-
Keywords
Internet of Things(loT)
page replacement algorithm
least recently used(lru)
improved Clock algorithm
overflow interruption
cross page access
Memory Manage Unit(MMU)
-
分类号
TP368.1
[自动化与计算机技术—计算机系统结构]
-
-
题名多级缓存模式下的数据块替换优化算法
被引量:3
- 3
-
-
作者
兰丽
-
机构
兰州交通大学电子与信息工程学院
-
出处
《计算机工程》
CAS
CSCD
2013年第4期78-81,共4页
-
文摘
多数处理器中采用多级包含的cache存储层次,现有的末级cache块替换算法带来的性能开销较大。针对该问题,提出一种优化的末级cache块替换算法PLI,在选择丢弃块时考虑其在上级cache的访问频率,以较小的代价选出最优的LLC替换块。在时钟精确模拟器上的评测结果表明,该算法较原算法性能平均提升7%。
-
关键词
cache替换算法
lru算法
PLI算法
多级cache
末级cache
包容cache
-
Keywords
cache replacement algorithm
least recently used(lru) algorithm
PLI algorithm
multi-level cache
Last-levelCache(LLC)
inclusive-cache
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名聚类的逻辑文件复制服务机制研究
- 4
-
-
作者
蒋晶
-
机构
南京邮电大学通达学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第4期84-86,108,共4页
-
文摘
网格环境下资源的管理和调度是一个非常复杂且具有挑战性的问题。在数据密集型应用中,数据文件的读取延迟时间是至关重要的。提出了一种基于聚类预处理的数据文件复制算法(CBR),将传输带宽满足一定条件的网格结点通过聚类方法构成一个"逻辑区域";并介绍了一种改进的LRU算法,考虑了其他计算任务需要的数据文件请求,避免删除未来将使用的数据文件。通过实验证明,该算法得到的计算任务完成时间优于其他两种算法。
-
关键词
聚类
数据密集型
调度
最近最少使用(lru)算法
-
Keywords
cluster
data intensive
scheduling
least recently used(lru) algorithm
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-