-
题名基于RDD重用度的Spark自适应缓存优化策略
- 1
-
-
作者
潘顺杰
于俊洋
王龙葛
李涵
翟锐
-
机构
河南大学软件学院
-
出处
《计算机工程》
北大核心
2025年第7期190-198,共9页
-
基金
河南省科技攻关项目(232102210029,232102210031)。
-
文摘
基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素被移动到顶部并优先被删除,且造成数据重算。针对Spark使用的LRU缓存替换算法造成的高频访问但当前未被使用的热点数据被替换出缓存的问题,提出一种基于弹性分布式数据集(RDD)重用度的Spark自适应缓存优化策略(LCRD),该策略包括自动缓存算法和缓存自动清理算法。首先,自动缓存算法在作业执行前对Spark的有向无环图(DAG)进行分析,计算RDD的重用频率、RDD的算子复杂度等数据,并对影响执行效率的相关因素进行量化,根据重用度模型进行计算,在作业执行中,应用程序将重用度较高的数据块进行缓存;其次,在发生内存瓶颈或RDD缓存无效时,缓存自动清理算法遍历缓存队列,并对低频访问的数据块进行清理。实验结果表明,在选取amazon0302、email-EuAll、web-Google、wiki-Talk等4种公开数据集执行PageRank迭代作业时,与LRU相比,LCRD的执行效率平均分别提升10.7%、8.6%、17.9%和10.6%,内存利用率平均分别提升3%、4%、3%和5%。所提策略能够有效提高Spark的执行效率,同时提升内存利用率。
-
关键词
并行计算
Spark框架
缓存替换
最近最少使用算法
大数据
-
Keywords
parallel computing
Spark framework
cache replacement
Least Recently Used(LRU)algorithm
big data
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名页面置换算法的Z规格说明
被引量:1
- 2
-
-
作者
张阁
朱关铭
缪淮扣
-
机构
上海大学计算机工程与科学学院
-
出处
《上海大学学报(自然科学版)》
CAS
CSCD
1999年第S1期149-155,共7页
-
基金
国家自然科学基金资助项目(69773038)
上海市教委科技发展基金资助项目(97A42)
-
文摘
虚拟存储系统中,如果使用段页式存储管理或者页式存储管理,当发生缺页,而主存中已没有空闲页架时,则需要选一页淘汰,进行页面置换.本文首先简要介绍先进先出算法(FIFO)和最近最少使用算法(LRU)的原理.接着对这两种算法用Z规格说明语言进行了比较详尽的描述.最后给出了一些操作模式的前置条件,并对系统中的一个定理进行了证明.
-
关键词
先进先出算法(FIFO)
最近最少使用算法(LRU)
规格说明
Z语言
-
Keywords
FIFO
LRU
specification
Z language
-
分类号
TP301.2
[自动化与计算机技术—计算机系统结构]
-
-
题名个性化服务用户模型研究
被引量:15
- 3
-
-
作者
陈媛
苟光磊
-
机构
重庆工学院计算机科学与工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2008年第9期2413-2416,共4页
-
文摘
以数字图书馆为研究对象,提出了一种个性化服务用户模型构架,并对实现过程中的几个关键问题,包括用户模型表示方法、用户模型的建立以及更新算法进行了详细论述,最后在个性化文本过滤算法基础上,得到在实际的数字图书馆中的验证结果。用户兴趣的提取采用支持向量机分类算法和无监督聚类算法相结合的隐式方式获得;在考虑最近到达的兴趣与用户原有兴趣序列的综合影响的基础上,用户兴趣的更新采用最近最少使用淘汰算法。实验结果表明,该模型具有隐式获取用户兴趣、用户模型更新命中率高等特点。
-
关键词
个性化服务
用户模型
最近最少使用算法
数字图书馆
隐式提取
-
Keywords
ersonalized service
user model
LRU arithmetic
digital library
implicit acquiring
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于内容的代理服务器高速缓冲器研究
- 4
-
-
作者
陈晓龙
-
机构
茂名学院计算机系
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第19期100-101,185,共3页
-
文摘
该文提出了一种新的加强代理服务器CACHE的技术。首先给出CHACE内容的标题层、逻辑层、物理层的三层模型。对其内容进行索引,以便比较、查询。并给出了考虑文件存储空间、访问时间的LRU算法,保证CACHE中内容总是最相关、使用率高的内容。提高了具有相同目的用户的访问效率。
-
关键词
高速缓冲器
层次模型
最近最少使用算法(LRU)
-
Keywords
Cache,Hierachical model,LRU algorithm
-
分类号
TP368
[自动化与计算机技术—计算机系统结构]
-
-
题名基于LRU的隐通道监测
- 5
-
-
作者
李晔锋
公备
徐达文
-
机构
北京工业大学计算机科学与技术学院
宁波工程学院电子与信息工程学院
-
出处
《东华大学学报(自然科学版)》
CAS
北大核心
2019年第5期715-719,共5页
-
基金
国家自然基金青年科学基金资助项目(61501007)
-
文摘
在多级安全系统中,隐通道能够使通信双方以违反安全策略的方式传递信息,带来不必要的安全隐患,而现有的标识和消除隐通道的方法对系统性能影响较大。深入研究隐通道的带宽特征,当不同安全级主体使用隐通道进行通信时,针对主体对共享资源属性操作频度的不同,提出了一种基于LRU(least recently used)的隐通道监测方法。该方法无需标识共享资源属性,只针对使用隐通道的主体进行处理,从空间和时间上都较大地改善了监测隐通道所带来的性能损失。
-
关键词
隐通道
最近最少使用算法
多级安全系统
频度
-
Keywords
covert channel
least recently used algorithm
multi-level security system
frequency
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名聚类的逻辑文件复制服务机制研究
- 6
-
-
作者
蒋晶
-
机构
南京邮电大学通达学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第4期84-86,108,共4页
-
文摘
网格环境下资源的管理和调度是一个非常复杂且具有挑战性的问题。在数据密集型应用中,数据文件的读取延迟时间是至关重要的。提出了一种基于聚类预处理的数据文件复制算法(CBR),将传输带宽满足一定条件的网格结点通过聚类方法构成一个"逻辑区域";并介绍了一种改进的LRU算法,考虑了其他计算任务需要的数据文件请求,避免删除未来将使用的数据文件。通过实验证明,该算法得到的计算任务完成时间优于其他两种算法。
-
关键词
聚类
数据密集型
调度
最近最少使用(LRU)算法
-
Keywords
cluster
data intensive
scheduling
Least Recently Used(LRU) algorithm
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-