-
题名并发式Spark消息分发器
- 1
-
-
作者
何玉林
林泽杰
徐毓阳
成英超
黄哲学
-
机构
人工智能与数字经济广东省实验室(深圳)
深圳大学计算机与软件学院
-
出处
《深圳大学学报(理工版)》
北大核心
2025年第3期317-325,I0012,I0013,共11页
-
基金
广东省自然科学基金资助项目(2023A1515011667)
深圳市科技重大专项资助项目(KJZD20230923114809020)
+1 种基金
深圳市基础研究资助项目(JCYJ20210324093609026)
广东省基础与应用基础研究基金粤深联合基金重点资助项目(2023B1515120020)。
-
文摘
在大数据计算框架Spark中,驱动器采用迭代式消息分发机制,会增加任务提交的时间开销,影响任务执行的启动时间,限制了任务执行的并发性,导致多个执行器处于空闲等待状态,造成计算资源的浪费.使用线程池调度策略,构建一种高效且轻量级的并发式Spark消息分发器.与迭代式Spark消息分发器不同,并发式消息分发器更加关注且更适合调度开销较大的细粒度任务作业,通过解析包含执行器重要信息的元数据,获取任务列表及各个任务对应的执行器标识,创建线程池并为每个任务启动异步计算,从而实现并发式任务分发,在保证系统稳定和任务顺利执行的前提下,最大程度地减少任务分发的时间开销.在虚拟机构建的仿真集群环境上,通过与迭代式消息分发器进行对比,证实了并发式消息分发器的良好效果.实验结果表明,在内存保持不变的前提下,并发式Spark消息分发器可减少约9%的任务执行时间,同时能提高约5%的中央处理器的利用率.并发式Spark消息分发器有效解决了迭代式消息分发机制针对细粒度任务分发的时间开销过大和计算资源浪费的问题.
-
关键词
并行处理
大数据计算
Spark通信机制
消息分发
细粒度任务
线程池调度
-
Keywords
parallel processing
big data computing
Spark communication mechanism
message distribution
fine-grained tasks
thread pool scheduling
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名基于SaaS架构的数据采集应用研究
被引量:1
- 2
-
-
作者
张丽玮
-
机构
首都经济贸易大学信息学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第S1期4-6,共3页
-
基金
北京市属高等学校人才强教深化计划基金资助项目(RHR201007117)
首都经济贸易大学基金资助重点项目(2011XJZ014)
首都经济贸易大学科研基金资助项目(00791154430107)
-
文摘
为满足不同用户进行个性化数据采集的需求,构建面向SaaS架构的数据采集系统,实现支撑数据采集系统的SaaS基础服务和核心业务服务。通过元数据服务建立检索元数据模型,支持用户根据需求定制检索入口。采用线程池调度算法,用户通过共享的方式应用系统资源,并结合云存储技术完成数据的采集和存储。应用分析表明,该系统将能降低用户研发成本,提高工作效率。
-
关键词
数据采集
软件即服务
元数据
线程池调度
数据模型
-
Keywords
data collection
Software-as-a-Service(SaaS)
metadata
thread pool schedule
data model
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-