期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于分布式数据集的并行计算框架内存优化方法 被引量:9
1
作者 夏立斌 刘晓宇 +1 位作者 姜晓巍 孙功星 《计算机工程》 CAS CSCD 北大核心 2023年第4期43-51,共9页
随着科学计算和人工智能技术的快速发展,分布式环境下的并行计算已成为解决大规模理论计算和数据处理问题的重要手段。内存容量的提高以及迭代算法的广泛应用,使得以Spark为代表的内存计算技术愈发成熟。但是,当前主流的分布式内存模型... 随着科学计算和人工智能技术的快速发展,分布式环境下的并行计算已成为解决大规模理论计算和数据处理问题的重要手段。内存容量的提高以及迭代算法的广泛应用,使得以Spark为代表的内存计算技术愈发成熟。但是,当前主流的分布式内存模型和计算框架难以兼顾易用性和计算性能,并且在数据格式定义、内存分配、内存使用效率等方面存在不足。提出一种基于分布式数据集的并行计算方法,分别从模型理论和系统开销两个角度对内存计算进行优化。在理论上,通过对计算过程进行建模分析,以解决Spark在科学计算环境下表达能力不足的问题,同时给出计算框架的开销模型,为后续性能优化提供支持。在系统上,提出一种框架级的内存优化方法,该方法主要包括对跨语言分布式内存数据集的重构、分布式共享内存的管理、消息传递过程的优化等模块。实验结果表明,基于该优化方法实现的并行计算框架可以显著提升数据集的内存分配效率,减少序列化/反序列化开销,缓解内存占用压力,应用测试的执行时间相比Spark减少了69%~92%。 展开更多
关键词 内存计算 并行计算 内存优化 spark框架 消息传递接口
在线阅读 下载PDF
Spark框架下分布式K-means算法优化方法 被引量:13
2
作者 王法玉 刘志强 《计算机工程与设计》 北大核心 2019年第6期1595-1600,共6页
针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的... 针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的能力,采用Spark框架对算法进行并行化实现。在集群环境下进行测试,基于Spark框架的改进后算法能有效降低计算的时间复杂度,算法具有良好扩展性,计算效率有显著提高。 展开更多
关键词 K-MEANS算法 spark计算框架 分布式 网格 空间位置
在线阅读 下载PDF
基于大数据随机样本划分的分布式观测点分类器
3
作者 李旭 何玉林 +2 位作者 崔来中 黄哲学 PHILIPPE Fournier-Viger 《计算机应用》 CSCD 北大核心 2024年第6期1727-1733,共7页
观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数... 观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数据的随机样本划分(RSP)的分布式OPC(DOPC)。首先,在分布式计算环境下生成大数据的RSP数据块,并将它转换为弹性分布式数据集(RDD);其次,在RSP数据块上协同式地训练一组OPC,由于每个RSP数据块上的OPC独立训练,因此有高效的Spark可实现性;最后,在Spark框架下将在RSP数据块上协同训练的OPC集成为DOPC,对新样本进行类标签预测。在8个大数据集上,对Spark集群环境下实现的DOPC的可行性、合理性和有效性进行实验验证,实验结果显示,DOPC能够以更低的计算消耗获得比单机OPC更高的测试精度,同时相较于Spark框架下实现的基于RSP模型的神经网络(NN)、决策树(DT)、朴素贝叶斯(NB)和K最近邻(KNN),DOPC分类器具有更强的泛化性能。测试结果表明,DOPC是一种高效低耗的处理大数据分类问题的有监督学习算法。 展开更多
关键词 大数据分类 分布式文件系统 随机样本划分 观测点分类器 spark计算框架
在线阅读 下载PDF
面向大数据处理的基于Spark的异质内存编程框架 被引量:9
4
作者 王晨曦 吕方 +4 位作者 崔慧敏 曹婷 John Zigman 庄良吉 冯晓兵 《计算机研究与发展》 EI CSCD 北大核心 2018年第2期246-264,共19页
随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量... 随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量密度受限于工艺瓶颈,无法满足内存计算快速增长的内存需求,因此研发人员将目光逐渐移向了新型的非易失性内存(non-volatile memory,NVM).由DRAM和NVM共同构成的异质内存,具有低成本、低功耗、高容量密度等特点,但由于NVM读写性能较差,如何合理布局数据到异质内存是一个关键的研究问题.系统分析了Spark应用的访存特征,并结合OpenJDK的内存使用特点,提出了一套管理数据在DRAM和NVM之间布局的编程框架.应用开发者通过对本文提供接口的简单调用,便可将数据合理布局在异质内存之中.仅需20%~25%的DRAM和大量的NVM,便可以达到使用等量的DRAM时90%左右的性能.该框架可以通过有效利用异质内存来满足内存计算不断增长的计算规模.同时,"性能/价格"比仅用DRAM时提高了数倍. 展开更多
关键词 内存计算 spark 异质内存 非易失性内存 编程框架
在线阅读 下载PDF
分布式环境下时态大数据的连接操作研究 被引量:7
5
作者 张伟 王志杰 《计算机工程》 CAS CSCD 北大核心 2019年第3期20-25,31,共7页
目前处理时态大数据连接操作多数运用分布式系统,但现有的分布式系统尚不能支持原生的时态连接查询,无法满足时态大数据低延迟和高吞吐量的处理需求。为此,提出一个基于Spark的二级索引内存解决方案。运用全局索引进行分布式分区的剪枝... 目前处理时态大数据连接操作多数运用分布式系统,但现有的分布式系统尚不能支持原生的时态连接查询,无法满足时态大数据低延迟和高吞吐量的处理需求。为此,提出一个基于Spark的二级索引内存解决方案。运用全局索引进行分布式分区的剪枝,使用局部时态索引进行分区内查询,提高数据检索效率。针对时态数据设计分区方法,以对全局剪枝进行优化。基于真实和合成数据集的实验结果表明,与基准方案相比,该方案可明显提高时态连接操作的处理效率。 展开更多
关键词 时态大数据 分布式内存计算 时态连接 二级索引 分区方法 spark框架
在线阅读 下载PDF
Spark框架中RDD缓存替换策略优化 被引量:9
6
作者 陈天宇 张龙信 +1 位作者 李肯立 周立前 《小型微型计算机系统》 CSCD 北大核心 2019年第6期1248-1253,共6页
Spark作为分布式计算引擎,其基于内存的抽象概念弹性分布式数据集(RDD)产生了高效的数据处理能力.实际的生产环境中,任务在执行的过程中经常由于内存空间不足需要替换掉部分RDD. Spark默认的最近最少使用替换算法(LRU)仅考虑最近是否使... Spark作为分布式计算引擎,其基于内存的抽象概念弹性分布式数据集(RDD)产生了高效的数据处理能力.实际的生产环境中,任务在执行的过程中经常由于内存空间不足需要替换掉部分RDD. Spark默认的最近最少使用替换算法(LRU)仅考虑最近是否使用RDD分片而忽略其它因素.基于RDD权重值改进后的WR缓存替换策略侧重于RDD的权值替换,在此研究基础上,本文提出了缓存权重替换(CWS)策略,优化选择策略,并在替换阶段考虑了历史访问次数与计算成本.本文的实验使用斯坦福大学提供的公开网络分析项目进行测试,实验结果表明CWS策略在充足内存条件下处理较小数据的平均执行时间高于WR算法2. 4%,内存占用率相比降低36%. 展开更多
关键词 缓存策略 spark 弹性分布式数据集 内存计算
在线阅读 下载PDF
基于Spark的叠加能量寻优反射波剩余静校正算法的工程化实现 被引量:2
7
作者 袁联生 《石油物探》 CSCD 北大核心 2024年第4期807-816,共10页
叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校... 叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校正方法计算密集、通讯密集的特征,针对算法难以实现并行计算的难点,提出了基于Spark分布式内存计算模型的技术解决方案,实现了海量地震数据弹性分布式数据集的高效流转和多域数据的灵活切换,完成了叠加能量寻优反射波剩余静校正方法的多节点分布式并行计算,提高了大数据情形下方法的适应性和计算效率,提升了其在地震数据处理中的实用化程度。实际生产数据的应用结果表明,基于Spark的叠加能量寻优反射波剩余静校正的软件模块在复杂近地表地震数据的处理中取得了能满足实际生产要求的应用效果,兼具适应性强和计算效率高的特点。 展开更多
关键词 反射波剩余静校正 spark框架 工程化实现 分布式并行计算
在线阅读 下载PDF
Spark下遥感大数据特征提取的加速策略 被引量:7
8
作者 黄震 钱育蓉 +1 位作者 范迎迎 杜娇 《计算机工程与设计》 北大核心 2017年第12期3279-3283,共5页
提出一种基于Spark分布式内存计算框架的遥感大数据特征提取策略。采用Landsat8为数据源,以计算归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)为例开展实验。实验结果表明,在相同硬件环境、处理任务、数据量的条件下,Sp... 提出一种基于Spark分布式内存计算框架的遥感大数据特征提取策略。采用Landsat8为数据源,以计算归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)为例开展实验。实验结果表明,在相同硬件环境、处理任务、数据量的条件下,Spark处理遥感大数据的速度较单机模式下的处理遥感大数据提升了约2倍,基于Hadoop分布式文件系统(HDFS)处理模式较Spark-standalone处理模式处理速度提升了约1.2倍,基于Spark下的HDFS存储模式下,栅格切分遥感大数据较非栅格切分处理速度提高了约1.5倍。 展开更多
关键词 spark分布式内存计算框架 HADOOP分布式文件系统 遥感大数据 内存计算 栅格切分
在线阅读 下载PDF
基于Spark的并行FP-Growth算法优化与实现 被引量:8
9
作者 陆可 桂伟 +1 位作者 江雨燕 杜萍萍 《计算机应用与软件》 2017年第9期273-278,共6页
频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集... 频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集下频繁模式挖掘展开研究,基于Spark框架,通过对支持度计数和分组过程的优化改进了FP-Growth算法,并实现了算法的分布式计算和计算资源的动态分配。运算过程中产生的中间结果均保存在内存中,因此有效减少数据的I/O消耗,提高算法的运行效率。实验结果表明,经优化后的算法在面向大规模数据时要优于传统的FP-Growth算法。 展开更多
关键词 频繁模式挖掘 FP-GROWTH算法 分布式计算 spark框架
在线阅读 下载PDF
Spark环境下K-means初始中心点优化研究综述 被引量:9
10
作者 行艳妮 钱育蓉 +1 位作者 南方哲 赵京霞 《计算机应用研究》 CSCD 北大核心 2020年第3期641-647,共7页
为了能够及时了解Spark环境下经典聚类算法K-means的最新研究进展,把握K-means算法当前的研究热点和方向,针对K-means算法的初始中心点优化研究进行综述。首先介绍了内存计算框架Spark和K-means算法,并分析了K-means算法聚类不稳定性的... 为了能够及时了解Spark环境下经典聚类算法K-means的最新研究进展,把握K-means算法当前的研究热点和方向,针对K-means算法的初始中心点优化研究进行综述。首先介绍了内存计算框架Spark和K-means算法,并分析了K-means算法聚类不稳定性的成因和影响,其目的在于指出优化K-means算法的重要性;详细介绍了目前在Spark环境下优化K-means初始中心点的主要方法和最新研究现状,并展望了K-means初始中心点优化问题的未来研究方向。 展开更多
关键词 K-均值算法 分布式内存计算框架 算法优化 聚类算法
在线阅读 下载PDF
基于Spark的肿瘤基因混合特征选择方法 被引量:4
11
作者 汪丽丽 邓丽 +1 位作者 余玥 费敏锐 《计算机工程》 CAS CSCD 北大核心 2018年第11期1-6,共6页
为处理随微阵列技术发展而急剧增长的肿瘤基因数据,实现对肿瘤基因数据的特征选择,结合集成特征选择和混合特征选择,提出一种Spark分布式计算框架的混合特征选择方法。利用F-score特征选择方法去除无关特征,进行初步特征选择,结合F-scor... 为处理随微阵列技术发展而急剧增长的肿瘤基因数据,实现对肿瘤基因数据的特征选择,结合集成特征选择和混合特征选择,提出一种Spark分布式计算框架的混合特征选择方法。利用F-score特征选择方法去除无关特征,进行初步特征选择,结合F-score、多分类支持向量机递归消除法、基于随机森林的特征选择3种方法得到最优的特征子集,并采用支持向量机对特征子集进行分类预测。实验结果表明,该方法能通过选择较少的基因达到较高的分类准确率。 展开更多
关键词 肿瘤基因数据 spark分布式计算框架 混合特征选择 集成特征选择 分类
在线阅读 下载PDF
串行式混合类型航道船舶交通组织优化 被引量:1
12
作者 王志强 张新宇 +1 位作者 李倍莹 王婧贇 《计算机应用与软件》 北大核心 2023年第2期26-32,39,共8页
随着港口航道类型逐渐向多样化、复杂化的混合类型趋势发展,港口交通问题愈发严峻。调研国内外港口混合类型航道,抽象出一种串行式简单混合类型航道作为研究对象。分析混合航道船舶交通状况,构建以单向/混合通航模式转化、混合航道异类... 随着港口航道类型逐渐向多样化、复杂化的混合类型趋势发展,港口交通问题愈发严峻。调研国内外港口混合类型航道,抽象出一种串行式简单混合类型航道作为研究对象。分析混合航道船舶交通状况,构建以单向/混合通航模式转化、混合航道异类子航道间通航模式切换、港池连接水域船舶交通冲突消解等为约束的串行式简单混合类型航道船舶交通组织优化模型。基于Spark并行计算框架,结合NSGA-II算法遗传操作天然并行性特点,提出一种Spark分布式多目标遗传算法,将全部种群分散在多节点上并行执行算法的遗传操作。实验表明,提出的算法具有较快的收敛速度和较好的稳定性,模型求解出的优化方案合理、有效。 展开更多
关键词 混合类型航道 船舶交通组织优化 分布式多目标遗传算法 spark并行计算框架
在线阅读 下载PDF
基于并行变量预测模型的变压器故障诊断及优化研究 被引量:19
13
作者 马利洁 朱永利 郑艳艳 《电力系统保护与控制》 EI CSCD 北大核心 2019年第6期82-89,共8页
针对传统变压器故障诊断方法存在小样本问题下分类效果差、海量监测数据的识别效率低下等问题,提出基于Spark计算框架的并行化变量预测模型。首先采用HDFS作为内存式存储系统,面向行存储的Row Matrix作为分布式矩阵存储结构,利用广播变... 针对传统变压器故障诊断方法存在小样本问题下分类效果差、海量监测数据的识别效率低下等问题,提出基于Spark计算框架的并行化变量预测模型。首先采用HDFS作为内存式存储系统,面向行存储的Row Matrix作为分布式矩阵存储结构,利用广播变量、调整分区数进行并行度优化。其次训练4种数学模型获取故障类型的最佳模型及相关参数完成故障诊断。实验结果表明,并行变量预测模型识别精度高于支持向量机,计算效率优于单机环境,对高维特征向量有较好的适应性。 展开更多
关键词 故障诊断 小样本 变量预测模型 spark计算框架 内存式存储
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部