期刊文献+
共找到2,112篇文章
< 1 2 106 >
每页显示 20 50 100
基于Q学习的Spark自动调节内存管理器
1
作者 张军 顾皓元 《计算机工程与设计》 北大核心 2025年第5期1487-1493,共7页
为有效解决Apache Spark中静态和统一内存管理器适应性差、JVM垃圾内存回收频繁等问题,提出一种基于Q学习的Spark自动调节内存管理器。采用Q学习自动调优算法,根据不同的工作负载、任务需求和系统状态,在全局范围内实现内存分配的动态... 为有效解决Apache Spark中静态和统一内存管理器适应性差、JVM垃圾内存回收频繁等问题,提出一种基于Q学习的Spark自动调节内存管理器。采用Q学习自动调优算法,根据不同的工作负载、任务需求和系统状态,在全局范围内实现内存分配的动态调整。内存分配算法结合Q学习自动调优算法的决策和空闲内存,响应块管理器和任务内存请求,确保内存高效分配与利用。实验结果表明,新的内存管理器在Spark任务执行效率上获得了较明显的性能提升。 展开更多
关键词 Apache spark 静态内存管理器 统一内存管理器 JVM垃圾内存回收 Q学习 内存分配动态调整 任务执行效率
在线阅读 下载PDF
基于RDD重用度的Spark自适应缓存优化策略
2
作者 潘顺杰 于俊洋 +2 位作者 王龙葛 李涵 翟锐 《计算机工程》 北大核心 2025年第7期190-198,共9页
基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素... 基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素被移动到顶部并优先被删除,且造成数据重算。针对Spark使用的LRU缓存替换算法造成的高频访问但当前未被使用的热点数据被替换出缓存的问题,提出一种基于弹性分布式数据集(RDD)重用度的Spark自适应缓存优化策略(LCRD),该策略包括自动缓存算法和缓存自动清理算法。首先,自动缓存算法在作业执行前对Spark的有向无环图(DAG)进行分析,计算RDD的重用频率、RDD的算子复杂度等数据,并对影响执行效率的相关因素进行量化,根据重用度模型进行计算,在作业执行中,应用程序将重用度较高的数据块进行缓存;其次,在发生内存瓶颈或RDD缓存无效时,缓存自动清理算法遍历缓存队列,并对低频访问的数据块进行清理。实验结果表明,在选取amazon0302、email-EuAll、web-Google、wiki-Talk等4种公开数据集执行PageRank迭代作业时,与LRU相比,LCRD的执行效率平均分别提升10.7%、8.6%、17.9%和10.6%,内存利用率平均分别提升3%、4%、3%和5%。所提策略能够有效提高Spark的执行效率,同时提升内存利用率。 展开更多
关键词 并行计算 spark框架 缓存替换 最近最少使用算法 大数据
在线阅读 下载PDF
Spark架构下基于改进深度聚类的用户日负荷分类方法 被引量:1
3
作者 徐寿亮 徐剑 《现代电力》 北大核心 2025年第3期411-420,共10页
负荷聚类是电力系统管理的重要技术之一,通过聚类来挖掘用户的用电模式可以帮助电力系统管理者更好地理解和优化电力系统的运行,提高其效率和经济性。目前,在负荷数据海量化与复杂化趋势下,传统的负荷聚类方法难以高效、精确地处理海量... 负荷聚类是电力系统管理的重要技术之一,通过聚类来挖掘用户的用电模式可以帮助电力系统管理者更好地理解和优化电力系统的运行,提高其效率和经济性。目前,在负荷数据海量化与复杂化趋势下,传统的负荷聚类方法难以高效、精确地处理海量高维的负荷数据。因此,提出一种Spark分布式计算架构下基于改进深度聚类的日负荷分类方法。首先,利用卷积神经网络自编码器获取用户具有代表性的特征向量,送入K-means的聚类层完成负荷聚类,接着将特征提取模型和聚类模型联合优化,组成深度聚类模型。其次,考虑了处于负荷类别边界的边缘负荷样本对神经网络的不利影响,引入自步学习技术,并设计了一个新的损失函数。最后,将大数据技术与深度聚类算法结合,利用Spark分布式计算平台实现深度聚类算法的并行计算。通过算例验证,所提算法在聚类效果和处理效率上都优于传统算法。 展开更多
关键词 居民负荷 日负荷聚类 深度聚类 spark平台 并行计算
在线阅读 下载PDF
并发式Spark消息分发器
4
作者 何玉林 林泽杰 +2 位作者 徐毓阳 成英超 黄哲学 《深圳大学学报(理工版)》 北大核心 2025年第3期317-325,I0012,I0013,共11页
在大数据计算框架Spark中,驱动器采用迭代式消息分发机制,会增加任务提交的时间开销,影响任务执行的启动时间,限制了任务执行的并发性,导致多个执行器处于空闲等待状态,造成计算资源的浪费.使用线程池调度策略,构建一种高效且轻量级的... 在大数据计算框架Spark中,驱动器采用迭代式消息分发机制,会增加任务提交的时间开销,影响任务执行的启动时间,限制了任务执行的并发性,导致多个执行器处于空闲等待状态,造成计算资源的浪费.使用线程池调度策略,构建一种高效且轻量级的并发式Spark消息分发器.与迭代式Spark消息分发器不同,并发式消息分发器更加关注且更适合调度开销较大的细粒度任务作业,通过解析包含执行器重要信息的元数据,获取任务列表及各个任务对应的执行器标识,创建线程池并为每个任务启动异步计算,从而实现并发式任务分发,在保证系统稳定和任务顺利执行的前提下,最大程度地减少任务分发的时间开销.在虚拟机构建的仿真集群环境上,通过与迭代式消息分发器进行对比,证实了并发式消息分发器的良好效果.实验结果表明,在内存保持不变的前提下,并发式Spark消息分发器可减少约9%的任务执行时间,同时能提高约5%的中央处理器的利用率.并发式Spark消息分发器有效解决了迭代式消息分发机制针对细粒度任务分发的时间开销过大和计算资源浪费的问题. 展开更多
关键词 并行处理 大数据计算 spark通信机制 消息分发 细粒度任务 线程池调度
在线阅读 下载PDF
基于Spark框架的RDD数据块增益感知缓存替换策略
5
作者 贺莎 唐小勇 《计算机科学与探索》 北大核心 2025年第9期2548-2558,共11页
缓存替换是Spark内存优化的一个研究热点和难点。然而,应用程序特征的多样性、内存资源的有限性以及缓存替换的不确定性对实现高系统执行性能构成了挑战。低效的缓存替换策略可能会导致不同的性能问题,如应用程序执行时间长,资源利用率... 缓存替换是Spark内存优化的一个研究热点和难点。然而,应用程序特征的多样性、内存资源的有限性以及缓存替换的不确定性对实现高系统执行性能构成了挑战。低效的缓存替换策略可能会导致不同的性能问题,如应用程序执行时间长,资源利用率低等。基于此,提出一种面向Spark大数据处理框架的弹性分布式数据集(RDD)数据块增益感知缓存替换策略。该策略建立了综合考虑数据块分区大小、引用计数、计算成本和资源成本影响因子的缓存价值评估模型,用于准确评估数据块的缓存价值。提出缓存增益问题模型,以形式化描述缓存管理的优化问题。提出RDD数据块增益感知缓存替换算法(CRCA),以确保内存中的RDD数据块带来的缓存增益最大化。为验证CRCA算法的有效性,基于Spark构建了一个真实的大数据集群实验平台,并采用HiBench基准测试工具中的多样化负载进行实验评估。结果表明,提出的缓存替换算法在任务执行时间和CPU利用率方面优于现有的最近最少使用算法(LRU)和最小分区权重算法(LPW)。 展开更多
关键词 RDD数据块 缓存增益 缓存替换 spark框架
在线阅读 下载PDF
基于Spark并行混合萤火虫算法的震后应急物资调度
6
作者 孙鉴 杨晓焕 +3 位作者 雷婷 武涛 吴隹伟 马宝全 《燕山大学学报》 北大核心 2025年第5期448-460,共13页
针对震后应急物资调度路径优化求解精度较低、易陷入局部最优和运行效率慢等问题,考虑受灾点灾情严重程度及其救援优先级,以物资运输车辆行驶距离和紧急度成本之和最小为目标,建立震后应急物资调度模型,提出了一种基于Spark的并行混合... 针对震后应急物资调度路径优化求解精度较低、易陷入局部最优和运行效率慢等问题,考虑受灾点灾情严重程度及其救援优先级,以物资运输车辆行驶距离和紧急度成本之和最小为目标,建立震后应急物资调度模型,提出了一种基于Spark的并行混合萤火虫算法。首先,通过扫描法获得较优初始化个体,引入顺序交叉思想以提高算法收敛精度,并设计局部更新策略避免了算法陷入局部最优;其次,结合自适应大领域搜索和2-opt优化萤火虫群的路径方案,增强最优解的局部开发能力,以提高算法性能;最后,随着受灾点数增加,运算耗时显著增加,引入集群并行处理机制,以加快算法运行效率。选取CVRPLIB部分数据集进行仿真实验,将该算法与自适应贪婪蚁群算法、改进混合萤火虫算法、自适应动态搜索蚁群算法、混合萤火虫算法、遗传算法和自适应大领域搜索在求解质量以及与改进混合萤火虫算法、混合萤火虫算法、遗传算法和自适应大领域搜索在收敛性方面进行对比。实验结果表明,基于Spark的并行混合萤火虫算法求解质量得到了很大提升,并且相较于其他算法能够快速收敛。随着计算规模的增大,该算法求解时间明显优于其他对比算法。 展开更多
关键词 应急物资调度 受灾点紧急程度 spark 混合萤火虫算法 自适应大领域搜索
在线阅读 下载PDF
基于Spark分布式框架的海量星表数据时序重构方法研究 被引量:3
7
作者 赵青 权文利 +2 位作者 陈亚瑞 崔辰州 樊东卫 《天文学进展》 CSCD 北大核心 2024年第1期86-101,共16页
时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark这类MapReduce分布式模型在执行过程中分布式集群节点间的任务比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流... 时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark这类MapReduce分布式模型在执行过程中分布式集群节点间的任务比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流程,每个分布式进程完全针对独立天区的数据进行连续处理,而分块边缘的新增天体导致的其他节点的新增证认任务延时批量追加,并且会根据各进程间的进度不同确定追加方式,保证证认计算没有遗漏,从而在提高并发效率的同时保证算法的精度。此外,对两表间的不同Join策略从理论和实验两个角度进行了研究并提出了免Join策略。最后通过基于Spark分布式框架的高效时序重构系统的设计完成了以上研究的验证。实验表明,与以往研究结果相比,该时序重构算法效率提升明显,为时域天文学中的天文时序数据分析的开展打下了良好的基础。 展开更多
关键词 时域天文学 交叉证认计算 时序重构 分布式计算 spark
在线阅读 下载PDF
基于Spark Streaming的海量GPS数据实时地图匹配算法 被引量:1
8
作者 陈艳艳 李四洋 张云超 《计算机应用研究》 CSCD 北大核心 2024年第5期1338-1342,共5页
浮动车GPS数据作为交通信息处理的基础,随着被监控车辆数量的高速增长,产生了海量GPS数据,对地图匹配提出了挑战。为了解决传统匹配方法难以满足匹配效率和精度的不足,提出一种针对海量GPS数据的实时并行地图匹配算法,能够同时保证较高... 浮动车GPS数据作为交通信息处理的基础,随着被监控车辆数量的高速增长,产生了海量GPS数据,对地图匹配提出了挑战。为了解决传统匹配方法难以满足匹配效率和精度的不足,提出一种针对海量GPS数据的实时并行地图匹配算法,能够同时保证较高匹配精度和运算效率。为构建一种面向实时数据流的高效、准确实时地图匹配算法,首先通过引入速度、方向综合权重因子对依赖历史轨迹的离线地图匹配算法进行重构,进而引入Spark Streaming分布式计算框架,实现地图匹配算法的实时、并行运算,大幅提升实时地图匹配效率。实验结果表明,该算法在复杂路段的匹配准确率较常规拓扑匹配算法提高10%以上,整体匹配准确率达到95%以上;在匹配效率方面,较同等数量的单机服务器效率可提高4倍左右。实验结果表明,该算法在由11台机器组成的计算集群上实现8000万个GPS数据点的实时地图匹配,证明了该算法可以完成城市地区的实时车辆匹配。 展开更多
关键词 海量 GPS 并行计算 地图匹配 实时计算 spark
在线阅读 下载PDF
基于Spark和NRSCA策略的并行深度森林算法
9
作者 毛伊敏 刘绍芬 《计算机应用研究》 CSCD 北大核心 2024年第1期126-133,共8页
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher ... 针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。 展开更多
关键词 并行深度森林算法 spark框架 邻域粗糙集 正弦余弦算法 多粒度扫描
在线阅读 下载PDF
基于Spark平台的并行化谱聚类算法的在线学习资源推荐 被引量:9
10
作者 刘莹 杨淑萍 张治国 《济南大学学报(自然科学版)》 CAS 北大核心 2024年第4期456-461,共6页
为了提高在线学习资源推荐的准确度,采用谱聚类用于学习资源的归类,将类别相似度高的资源推荐给用户,提出Spark平台的并行化谱聚类算法,提高资源推荐效率;首先提取在线学习资源及用户特征并初始化,建立谱聚类模型,在Spark平台上分别求... 为了提高在线学习资源推荐的准确度,采用谱聚类用于学习资源的归类,将类别相似度高的资源推荐给用户,提出Spark平台的并行化谱聚类算法,提高资源推荐效率;首先提取在线学习资源及用户特征并初始化,建立谱聚类模型,在Spark平台上分别求解无向图的顶点相似度及归一化拉普拉斯系数;然后采用归一化分割划分子集,通过归一化割集优化方式求解类别特征,并对类别特征按行输出特征点;最后采用k均值算法对特征点进行聚类,获得聚类结果。结果表明,采用谱聚类算法并借助于Spark平台的计算优势,所提推荐方法比常用的在线学习资源推荐算法的准确率和覆盖率更高,在海量学习资源的实时推荐方面具有较高适应度。 展开更多
关键词 在线学习 资源推荐 谱聚类 spark平台 图分割
在线阅读 下载PDF
Spark框架下支持差分隐私保护的K-means++聚类方法 被引量:5
11
作者 石江南 彭长根 谭伟杰 《信息安全研究》 CSCD 北大核心 2024年第8期712-718,共7页
针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初... 针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初始化中心点及迭代更新中心点的过程中,通过综合利用指数机制和拉普拉斯机制,以解决初始聚类中心敏感及隐私泄露问题,同时减少计算过程中对数据实施的扰动.根据差分隐私的特性,从理论角度对整个算法进行证明,以满足ε-差分隐私保护.实验结果证明了该方法在确保聚类结果可用性的前提下,具备出色的隐私保护能力和高效的运行效率. 展开更多
关键词 数据挖掘 聚类算法 差分隐私 spark框架 指数机制
在线阅读 下载PDF
基于优先填补策略的Spark数据均衡分区方法 被引量:2
12
作者 何玉林 吴东彤 +1 位作者 Philippe Fournier-Viger 黄哲学 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3322-3335,共14页
Spark作为基于内存计算的分布式大数据处理框架,运行速度快且通用性强.在任务计算过程中,Spark的默认分区器HashPartitioner在处理倾斜数据时,容易产生各个分区数据量不平衡的情况,导致资源利用率低且运行效率差.现存的Spark均衡分区改... Spark作为基于内存计算的分布式大数据处理框架,运行速度快且通用性强.在任务计算过程中,Spark的默认分区器HashPartitioner在处理倾斜数据时,容易产生各个分区数据量不平衡的情况,导致资源利用率低且运行效率差.现存的Spark均衡分区改进方法,例如多阶段分区、迁移分区和采样分区等,大多存在尺度把控难、通信开销成本高、对采样过度依赖等缺陷.为改善上述问题,本文提出了一种基于优先填补策略的分区方法,同时考虑了样本数据和非样本数据的分配,以便实现对全部数据的均衡分区.该方法在对数据采样并根据样本信息估算出每个键的权值后,将键按照权值大小降序排列,依次将键在满足分区容忍度的条件下分配到前面的分区中,为未被采样的键预留后面的分区空间,以获得针对样本数据的分区方案.Spark根据分区方案对样本中出现的键对应的数据进行分区,没有出现的键对应的数据则直接映射到可分配的最后一个分区中.实验结果表明,新分区方法能够有效实现Spark数据的均衡分区,在美国运输统计局发布的真实航空数据集上,基于该方法设计的优先填补分区器的总运行时间比HashPartitioner平均缩短了15.3%,比现有的均衡数据分区器和哈希键值重分配分区器分别平均缩短了38.7%和30.2%. 展开更多
关键词 均衡分区 优先填补策略 数据倾斜 spark算子 大数据
在线阅读 下载PDF
基于Spark的叠加能量寻优反射波剩余静校正算法的工程化实现 被引量:2
13
作者 袁联生 《石油物探》 CSCD 北大核心 2024年第4期807-816,共10页
叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校... 叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校正方法计算密集、通讯密集的特征,针对算法难以实现并行计算的难点,提出了基于Spark分布式内存计算模型的技术解决方案,实现了海量地震数据弹性分布式数据集的高效流转和多域数据的灵活切换,完成了叠加能量寻优反射波剩余静校正方法的多节点分布式并行计算,提高了大数据情形下方法的适应性和计算效率,提升了其在地震数据处理中的实用化程度。实际生产数据的应用结果表明,基于Spark的叠加能量寻优反射波剩余静校正的软件模块在复杂近地表地震数据的处理中取得了能满足实际生产要求的应用效果,兼具适应性强和计算效率高的特点。 展开更多
关键词 反射波剩余静校正 spark框架 工程化实现 分布式并行计算
在线阅读 下载PDF
基于Spark与优化分块的大幅面遥感影像SLIC分割方法
14
作者 谢志伟 宋光明 +2 位作者 张丰源 陈旻 彭博 《测绘通报》 CSCD 北大核心 2024年第10期84-90,共7页
针对大幅面遥感影像在分块边界特征不连续和分割效率不高等问题,本文提出了结合Spark平台及最优紧密度评估的简单线性迭代聚类超像素分割算法(SLIC)。首先,使用结合最优紧密度的SLIC超像素分割方法完成图像分块,解决分块边界精度低的问... 针对大幅面遥感影像在分块边界特征不连续和分割效率不高等问题,本文提出了结合Spark平台及最优紧密度评估的简单线性迭代聚类超像素分割算法(SLIC)。首先,使用结合最优紧密度的SLIC超像素分割方法完成图像分块,解决分块边界精度低的问题;然后,利用Spark对分块数据并行SLIC分割算法,提高运算效率;最后,将WorldView-2卫星影像和GF-2号影像作为试验数据,利用比值植被指数结合最大类间方差法改进SLIC算法以提高超像素分割精度。结果表明,改进SLIC方法在运算效率上比原方法提高了约9倍,边缘拟合精度提高了1.5%,欠分割误差提高了8.2%,边缘召回率提高了0.2%。 展开更多
关键词 大幅面遥感影像 spark平台 改进SLIC算法 并行计算 最优参数评估
在线阅读 下载PDF
基于Spark的时态查询扩展与时态索引优化研究 被引量:3
15
作者 周亮 李格非 +1 位作者 邰伟鹏 郑啸 《计算机工程》 CAS CSCD 北大核心 2017年第7期22-28,37,共8页
时空数据库和基于集群计算的时间分析工具大多基于外存,将其应用在大数据处理场景下系统性能将迅速降低。为此,基于Spark构建一个易用且高可扩展的时态大数据查询分析系统。通过扩展Spark SQL解析器,使其能够支持类SQL形式的时态操作,运... 时空数据库和基于集群计算的时间分析工具大多基于外存,将其应用在大数据处理场景下系统性能将迅速降低。为此,基于Spark构建一个易用且高可扩展的时态大数据查询分析系统。通过扩展Spark SQL解析器,使其能够支持类SQL形式的时态操作,运用SIMBA开源项目的方法,引入全局过滤和局部时态索引2种优化策略,使得系统能以高吞吐量及低延迟执行时态查询操作。基于时态查询效率的评估实验结果表明,在不同影响参数下,该系统的时态查询性能优于原生的Spark SQL查询处理方案。 展开更多
关键词 时态大数据 spark系统 spark SQL组件 时态查询 时态索引 高吞吐量 低延迟
在线阅读 下载PDF
异构Spark集群下自适应任务调度策略 被引量:20
16
作者 杨志伟 郑烇 +2 位作者 王嵩 杨坚 周乐乐 《计算机工程》 CAS CSCD 北大核心 2016年第1期31-35,40,共6页
Spark是一种基于内存的类Hadoop MapReduce高效大数据处理平台,但其默认的任务调度策略在异构Spark集群下未考虑到节点的能力差异,降低了系统性能。为此,提出一种基于异构Spark集群的自适应任务调度策略。该策略通过监测节点的负载及资... Spark是一种基于内存的类Hadoop MapReduce高效大数据处理平台,但其默认的任务调度策略在异构Spark集群下未考虑到节点的能力差异,降低了系统性能。为此,提出一种基于异构Spark集群的自适应任务调度策略。该策略通过监测节点的负载及资源利用率,分析监测得到的参数,自适应动态调整节点任务分配权值。实验结果表明,在异构节点情况下,该策略在作业完成时间、节点工作状态及资源利用率方面的性能均优于默认的任务调度策略。 展开更多
关键词 spark平台 异构集群 自适应 任务调度 监测 权值
在线阅读 下载PDF
基于Spark的LIBSVM参数优选并行化算法 被引量:21
17
作者 李坤 刘鹏 +2 位作者 吕雅洁 张国鹏 黄宜华 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第2期343-352,共10页
利用Spark集群设计LIBSVM参数优选的并行化实现.LIBSVM是一款广泛使用的SVM软件包,广泛应用于模型搭建、样本训练和结果预测等方面.在用LIBSVM训练数据集时,参数的选择对训练结果影响显著,其中以参数C和g最为重要.LIBSVM软件包中采用网... 利用Spark集群设计LIBSVM参数优选的并行化实现.LIBSVM是一款广泛使用的SVM软件包,广泛应用于模型搭建、样本训练和结果预测等方面.在用LIBSVM训练数据集时,参数的选择对训练结果影响显著,其中以参数C和g最为重要.LIBSVM软件包中采用网格搜索算法对C、g参数组合进行寻优,尽管该算法在单机上实现了并行化,但当数据量达到一定程度时,仍需要花费大量的时间.基于Spark并行计算架构,进行了LIBSVM的C、g参数网格优选并行算法的设计与实现.实验结果表明,提出的并行粗粒度网格搜索C、g参数优选算法比传统算法速度提升了近7倍,而且这一提升将随着集群规模的扩大而进一步加大.另一方面,在粗粒度网格搜索的基础上,进而提出的细粒度并行网格搜索算法又进一步提升了C、g参数组合的优选结果. 展开更多
关键词 LIBSVM 参数优选 网格搜索 并行化 spark
在线阅读 下载PDF
基于Spark和IPPSO_LSSVM的短期分布式电力负荷预测算法 被引量:49
18
作者 王保义 王冬阳 张少敏 《电力自动化设备》 EI CSCD 北大核心 2016年第1期117-122,共6页
为了提高电力负荷预测的精度,应对单机运算资源不足的挑战,提出一种改进并行化粒子群算法优化的最小二乘支持向量机短期负荷预测模型。通过引入Spark on YARN内存计算平台,将改进并行粒子群优化(IPPSO)算法部署在平台上,对最小二乘支持... 为了提高电力负荷预测的精度,应对单机运算资源不足的挑战,提出一种改进并行化粒子群算法优化的最小二乘支持向量机短期负荷预测模型。通过引入Spark on YARN内存计算平台,将改进并行粒子群优化(IPPSO)算法部署在平台上,对最小二乘支持向量机(LSSVM)的不确定参数进行算法优化,利用优化后的参数进行负荷预测。通过引入并行化和分布式的思想,提高算法预测准确率和处理海量高维数据的能力。采用EUNITE提供的真实负荷数据,在8节点的云计算集群上进行实验和分析,结果表明所提分布式电力负荷预测算法精度优于传统的泛化神经网络算法,在执行效率上优于基于Map Reduce的分布式在线序列优化学习机算法,且提出的算法具有较好的并行能力。 展开更多
关键词 spark IPPSO LSSVM 负荷预测 短期预测 支持向量机 并行处理 优化
在线阅读 下载PDF
美国SPARK项目对我国开展“阳光体育运动”的启示 被引量:27
19
作者 许之屏 金育强 +1 位作者 张琴琳 郑兴 《体育学刊》 CAS CSSCI 北大核心 2008年第10期51-54,共4页
重点介绍美国开展范围广泛、时间持久、成效显著、对学生和社会均产生深远影响的全国性的体育教育运动——SPARK项目。该项目的特点是教学内容新颖、强调终身体育、学生自主选择体育项目和实施综合性学校体育计划。SPARK项目对我国学校... 重点介绍美国开展范围广泛、时间持久、成效显著、对学生和社会均产生深远影响的全国性的体育教育运动——SPARK项目。该项目的特点是教学内容新颖、强调终身体育、学生自主选择体育项目和实施综合性学校体育计划。SPARK项目对我国学校开展"阳光体育运动"有积极借鉴作用。"阳光体育运动"重点要协调和解决的问题:运动能力早期性与持续性、整体性与个体性的关系;传统教学内容和现代教学内容的结合;体育课堂与课外体育活动的协调促进;体育理论课与实践课相辅相成;运动竞技性与健身性的协调统一。 展开更多
关键词 学校体育 阳光体育运动 spark项目 美国
在线阅读 下载PDF
基于Spark的电力设备在线监测数据可视化方法 被引量:28
20
作者 曲朝阳 熊泽宇 +2 位作者 颜佳 辛鹏 曲楠 《电工电能新技术》 CSCD 北大核心 2016年第11期72-80,共9页
大数据可视化可以实现海量电力设备在线监测数据中各种属性、运行状态等电力特征信息的图形、图像化直观呈现,为设备运行状态的及时有效监控分析提供有力保障。因此,本文提出一种基于Spark的电力设备在线监测数据可视化方法,为实现大数... 大数据可视化可以实现海量电力设备在线监测数据中各种属性、运行状态等电力特征信息的图形、图像化直观呈现,为设备运行状态的及时有效监控分析提供有力保障。因此,本文提出一种基于Spark的电力设备在线监测数据可视化方法,为实现大数据环境下的电力设备在线监测数据的状态信息快速提取,在Spark大数据计算平台上,建立了基于设备状态评估指标体系与模糊C均值聚类(FCM)的电力设备状态信息提取算法。针对数据的多维、时序特性,构建三维平行散点图的数据可视化展现形式,实现电力设备在线监测数据信息全貌的可视化展现。将该方法运用于吉林省某风电场的风电机组在线监测数据集,实验结果证明了该方法的有效性。 展开更多
关键词 spark 电力大数据 信息可视化 在线监测
在线阅读 下载PDF
上一页 1 2 106 下一页 到第
使用帮助 返回顶部