期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
基于Spark平台和多变量L_2-Boosting回归模型的分布式能源系统短期负荷预测 被引量:34
1
作者 马天男 牛东晓 +1 位作者 黄雅莉 杜振东 《电网技术》 EI CSCD 北大核心 2016年第6期1642-1649,共8页
分布式能源系统负荷预测是系统规划与经济运行的可靠前提和依据,在当前海量高维数据的背景下,有效的在线数据处理平台与精确的负荷预测方法是当前的研究重点。基于分布式能源系统负荷数据特点,在缺失数据处理、坏数据分类以及特征选择... 分布式能源系统负荷预测是系统规划与经济运行的可靠前提和依据,在当前海量高维数据的背景下,有效的在线数据处理平台与精确的负荷预测方法是当前的研究重点。基于分布式能源系统负荷数据特点,在缺失数据处理、坏数据分类以及特征选择的基础上,建立了基于Spark平台与多变量L_2-Boosting回归模型的分布式能源系统短期负荷预测方法。首先,利用Spark平台分割全部数据得到多个子数据模型,通过并行计算提高数据处理效率,采用特征提取方法得出模型需要的输入向量;其次,将得出的有效数据信息输入到多变量L_2-Boosting回归模型进行训练学习,得到训练后的多变量L_2-Boosting回归模型;最后,利用测试数据测试模型。算例结果验证了所提模型的有效性。 展开更多
关键词 短期负荷预测 多变量L2-Boosting回归模型 分布式能源系统 spark平台
在线阅读 下载PDF
基于回归模型的Spark任务性能分析方法 被引量:2
2
作者 阚忠良 李建中 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2018年第3期192-198,共7页
为解决Spark任务运行过程中的性能评估与改进问题,本文提出一种基于启发式算法和支持向量机回归模型的Spark性能评价与分析方法.本文首先提出一种启发式性能评价算法,该方法采用Ganglia收集并处理Spark任务运行时的集群资源消耗数据,根... 为解决Spark任务运行过程中的性能评估与改进问题,本文提出一种基于启发式算法和支持向量机回归模型的Spark性能评价与分析方法.本文首先提出一种启发式性能评价算法,该方法采用Ganglia收集并处理Spark任务运行时的集群资源消耗数据,根据k-means算法划分任务类型,并根据任务类型确定启发式性能评价算法的评价指标和初始权重.然后,从Spark历史服务器中收集并处理任务运行效率数据,与集群资源消耗数据一并作为Spark任务运行时的状态数据.最后,根据状态数据迭代确定启发式性能评价算法的最终权重,以此建立Spark性能评价回归模型.本文随后提出一种基于支持向量机SVM回归算法(SVR)的Spark性能分析方法.该方法对Spark配置参数与整体性能建立回归模型,然后对该回归模型进行敏感度分析,找到能够影响Spark性能的重要参数.实验结果表明,启发式性能评价算法能够量化Spark任务资源消耗和运行效率等各方面性能,比较全面地评估任务的整体性能.基于SVR的性能分析方法能够比较有效地应用于Spark任务的实际分析中,形成初步的Spark任务性能调优建议. 展开更多
关键词 spark 性能评价 回归模型 敏感度分析
在线阅读 下载PDF
Spark环境下基于SMT的分布式限界模型检测
3
作者 任胜兵 张健威 +1 位作者 吴斌 王志健 《计算机工程》 CAS CSCD 北大核心 2017年第6期19-23,29,共6页
在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布... 在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布式限界模型检测方法。将源程序的LLVM中间表示(LLVM-IR)构造为Spark内置的数据结构Pair RDD,利用MapReduce算法将Pair RDD转化为表示验证条件的弹性分布式数据集(VCs RDD),VCs RDD转化为SMT-LIB并输入SMT求解器进行验证。实验结果表明,与传统串行检测方法相比,该方法提高了验证过程中的限界深度和验证结果的正确率,并且对于复杂度较高的程序在限界相同的情况下其验证速度也有所提升。 展开更多
关键词 软件验证 限界模型检测 弹性分布式数据集 可满足性模理论求解器 spark框架
在线阅读 下载PDF
“星火计划”项目选择模型
4
作者 胡树华 《技术经济》 1988年第1期35-41,共7页
一、前言“星火计划”是中共中央和国务院委托国家科委组织实施的一项雄伟的科技普及计划,其宗旨是要把现代科学技术火花引向有八亿农民的农村、乡镇,推动地方经济的振兴。实施“星火计划”是一项复杂的系统工程。“星火”项目内容十分... 一、前言“星火计划”是中共中央和国务院委托国家科委组织实施的一项雄伟的科技普及计划,其宗旨是要把现代科学技术火花引向有八亿农民的农村、乡镇,推动地方经济的振兴。实施“星火计划”是一项复杂的系统工程。“星火”项目内容十分广泛,包括水产养殖和禽畜饲养技术开发、山区土特产综合利用、油脂深度加工及综合利用、饮料技术、毛皮加工及综合利用、农村建筑技术等十几个领域,涉及农、工、技、贸多个方面;每年投资从中央到地方达数亿元之多;动员了全国许多高等院校、科研单位和产业部门; 展开更多
关键词 “星火计划” 选择模型 饮料技术 计划期 地方经济 毛皮加工 效益指标 深度加工 科研单位 约束项
在线阅读 下载PDF
基于收益模型的Spark SQL数据重用机制 被引量:3
5
作者 申毅杰 曾丹 熊劲 《计算机研究与发展》 EI CSCD 北大核心 2020年第2期318-332,共15页
通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.Spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.Spark SQL是Spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源... 通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.Spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.Spark SQL是Spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源,而且导致查询运行效率低.但是Spark SQL无法感知查询语句之间的重复计算.为此,提出了基于收益模型的、细粒度的自动数据重用机制Criss以减少重复计算.针对混合介质,提出了感知异构I O性能的收益模型用于自动识别重用收益最大的算子计算结果,并采用Partition粒度的数据重用和缓存管理,以提高查询效率和缓存空间的利用率,充分发挥数据重用的优势.基于Spark SQL和TachyonFS,实现了Criss系统.实验结果表明:Criss的查询性能比原始Spark SQL提升了46%~68%. 展开更多
关键词 数据分析 大数据 spark SQL 重复计算 数据重用 收益模型
在线阅读 下载PDF
星火计划项目综合评价指标体系及评价模型研究
6
《科学管理研究》 CSSCI 北大核心 1991年第3期34-39,共6页
本文分析研究了星火项目的综合评价原则和确定评价指标的原则,并在此基础上提出评价星火项目的19项具体指标。报到运用AHP法建立了星火项目综合评价指标体系的层次分析模型,并给出综合评判计算公式。
关键词 综合评价指标体系 星火计划 模型研究 项目评价 层次分析模型 项目综合评价 层次分析法 计划项目 评价方法 经济效益
在线阅读 下载PDF
基于Spark的并行化组合测试用例集生成方法 被引量:24
7
作者 戚荣志 王志坚 +1 位作者 黄宜华 李水艳 《计算机学报》 EI CSCD 北大核心 2018年第6期1284-1299,共16页
软件系统的正常运行受很多因素影响,各种因素及其相互作用可能引发软件故障,需要设计测试用例检测这些故障.如果因素数量较多且取值情况较复杂,则所需测试用例的数量将非常庞大.如何设计规模较小的用例集是测试用例生成研究的一个关键问... 软件系统的正常运行受很多因素影响,各种因素及其相互作用可能引发软件故障,需要设计测试用例检测这些故障.如果因素数量较多且取值情况较复杂,则所需测试用例的数量将非常庞大.如何设计规模较小的用例集是测试用例生成研究的一个关键问题.组合测试能够从待测软件的大规模组合空间中,生成小规模的用例集,实现对各因素取值组合的充分覆盖.已有研究表明,组合测试的最小测试用例集生成问题是一个NP完全问题.目前已有一些研究尝试使用启发式搜索算法生成尽可能小的用例集.启发式搜索算法将组合测试用例集生成问题转化为搜索问题,并使用元启发式算法生成用例集.启发式搜索算法通常能够生成较小规模的用例集,但需要较长的计算时间.为了解决这个问题,文中提出了一种基于Spark的岛模型并行化遗传算法,利用Hadoop分布式文件系统实现了Spark运行节点间交换信息的方法,进而实现个体在子种群间的迁移.该算法首先从初始种群创建Spark的弹性分布式数据集;然后,将该数据集划分为多个子种群分布到集群的多个节点中;接着,各个子种群在各自的节点上计算适应度函数值和独立进化,并每隔一定的进化代数选择一些个体在各个子种群间迁移,提高了种群的多样性以及搜索最优解的有效性和性能;最后,算法返回满足覆盖准则的最优测试用例集.这种基于Spark的并行化遗传算法是大规模并行化在组合测试用例集生成方面的一个有效尝试.在实验部分,首先对文中提出的并行化算法进行系统的参数调整,给出适合组合测试用例集生成的推荐参数配置;接着将文中所提算法与串行遗传算法和独立运行遗传算法进行比较.实验结果表明,文中所提算法在生成用例集规模和消耗时间上均显著优于这两个算法.在运行所选实例时,该算法比串行算法加速约4至30倍,比独立运行遗传算法加速约2至3倍.相对于已有的组合测试用例集生成方法,文中所提算法在生成用例集规模上也具备显著优势. 展开更多
关键词 组合测试 测试用例集生成 并行化遗传算法 模型 spark
在线阅读 下载PDF
一种基于Spark的改进协同过滤算法研究 被引量:8
8
作者 许智宏 蒋新宇 +1 位作者 董永峰 赵嘉伟 《计算机应用与软件》 2017年第5期247-254,278,共9页
为提高协同过滤算法在大数据环境下的可扩展性以及在高维稀疏数据下的推荐精度,基于Spark平台实现了一种分层联合聚类协同过滤算法。利用联合聚类对数据集进行稀疏性处理并构建聚类模型,运用层次分析模型并结合评分密集度分析联合聚类... 为提高协同过滤算法在大数据环境下的可扩展性以及在高维稀疏数据下的推荐精度,基于Spark平台实现了一种分层联合聚类协同过滤算法。利用联合聚类对数据集进行稀疏性处理并构建聚类模型,运用层次分析模型并结合评分密集度分析联合聚类模型中用户和项目潜在类别权重,由此进行项目相似度计算并构建项目最近邻居集合,完成在线推荐。通过在GroupLens提供的不同规模MovieLens数据集上实验表明,改进后的算法能够明显提高推荐的准确度,并且在分布式环境下具有良好的推荐效率和可扩展性。 展开更多
关键词 协同过滤 联合聚类 层次分析模型 spark
在线阅读 下载PDF
基于大数据的IPTV视频评估模型 被引量:1
9
作者 顾军华 高星 +2 位作者 王守彬 武君艳 张素琪 《计算机应用与软件》 北大核心 2018年第8期231-237,共7页
随着网络信息技术的发展以及"三网融合"的推进,交互式网络电视IPTV成为越来越多用户的选择,成为新媒体中的一支主力军,但快速发展的同时也面临着巨大的挑战。如何有效评估供应商提供的大量视频,选择符合用户需求的视频成为IPT... 随着网络信息技术的发展以及"三网融合"的推进,交互式网络电视IPTV成为越来越多用户的选择,成为新媒体中的一支主力军,但快速发展的同时也面临着巨大的挑战。如何有效评估供应商提供的大量视频,选择符合用户需求的视频成为IPTV发展的关键问题。提出利用新媒体和传统媒体的视频大数据和IPTV历史收视大数据,在Spark平台上使用BP神经网络建立视频评估模型。基于新媒体和传统媒体从视频收视度、视频影响度和视频内容三个方面完善视频评估体系;基于IPTV历史收视大数据,建立反映IPTV受众群体喜好的视频隐式评分策略,使用BP神经网络构建视频评估模型;针对大数据的海量性,在Spark并行化平台上建立视频评估模型,实现数据的并行训练,完成模型的建立。实验结果证明,新的视频评估模型能从IPTV受众群体的角度有效评估视频,在Spark平台上进行评估模型的训练,能够有效提高大数据量的评估模型训练速度。 展开更多
关键词 大数据 IPTV视频评估模型 隐式评分 spark BP神经网络
在线阅读 下载PDF
基于Spark架构的艺术学慕课资源协同过滤推荐算法研究 被引量:3
10
作者 侯璐璐 《现代电子技术》 北大核心 2020年第3期162-164,168,共4页
传统资源协同过滤推荐算法MAE值偏高,因此提出基于Spark架构的艺术学慕课资源协同过滤推荐算法。采用分级响应形式,建立用户⁃资源评分关系模型,用户对资源的评分减掉该用户评分平均值,完成资源协同过滤相似度计算的优化,引入集成度高的S... 传统资源协同过滤推荐算法MAE值偏高,因此提出基于Spark架构的艺术学慕课资源协同过滤推荐算法。采用分级响应形式,建立用户⁃资源评分关系模型,用户对资源的评分减掉该用户评分平均值,完成资源协同过滤相似度计算的优化,引入集成度高的Spark架构,预测用户对资源的评分并生成推荐列表,实现艺术学慕课资源的精准推荐。经过与两种传统算法的对比实验结果可知,研究的算法在不同比例训练集和测试集的情况下,MAE值均低于两种传统方法,说明基于Spark架构的艺术学慕课资源协同过滤推荐算法推荐精度更高,性能更好。 展开更多
关键词 协同过滤推荐算法 spark架构 艺术学慕课资源 用户评分预测 用户⁃资源评分关系模型 相似度计算
在线阅读 下载PDF
用系统工程理论深化情报研究——兼论AHP法对星火计划的适用性 被引量:1
11
作者 刘诗章 《科学管理研究》 CSSCI 北大核心 1989年第4期31-35,共5页
随着科学的进步,人们愈来愈注重定量化的研究。目前,在工业、经济、包括管理科学在内的研究领域,对定量分析的依赖性明显加强;在一些重大决策中,数学结构模型的建立,起到了决定性的支撑作用。这种从定性到定量研究的转化,标志着研究方... 随着科学的进步,人们愈来愈注重定量化的研究。目前,在工业、经济、包括管理科学在内的研究领域,对定量分析的依赖性明显加强;在一些重大决策中,数学结构模型的建立,起到了决定性的支撑作用。这种从定性到定量研究的转化,标志着研究方法论的一个飞跃。无疑,科技情报研究正面临着新的挑战;(一)、从研究角度上讲,不能再满足于一般的定性研究,而要转入到定性与定量相结合的方法,实现定量分析。(二)、从决策角度上讲。 展开更多
关键词 情报研究工作 星火计划 理论深化 系统工程 结构模型 定量分析 适用性 层次分析法 科技情报研究 决策方法
在线阅读 下载PDF
溪-黎家坪星火项目密集区大气污染状况分析及预测
12
作者 张红旗 《地域研究与开发》 CSSCI 北大核心 1998年第1期92-96,共5页
以湖南省祁阳县浯溪-黎家坪星火密集区为例,对区内大气污染物来源、类型、排放量、季节分布,以及主要污染企业的排放状况进行了分析研究。同时,依据数学模型预测了区内主要污染物SO2和TSP的未来浓度。
关键词 星火项目密集区 数学模型 空气污染 二气化硫
在线阅读 下载PDF
基于并行变量预测模型的变压器故障诊断及优化研究 被引量:18
13
作者 马利洁 朱永利 郑艳艳 《电力系统保护与控制》 EI CSCD 北大核心 2019年第6期82-89,共8页
针对传统变压器故障诊断方法存在小样本问题下分类效果差、海量监测数据的识别效率低下等问题,提出基于Spark计算框架的并行化变量预测模型。首先采用HDFS作为内存式存储系统,面向行存储的Row Matrix作为分布式矩阵存储结构,利用广播变... 针对传统变压器故障诊断方法存在小样本问题下分类效果差、海量监测数据的识别效率低下等问题,提出基于Spark计算框架的并行化变量预测模型。首先采用HDFS作为内存式存储系统,面向行存储的Row Matrix作为分布式矩阵存储结构,利用广播变量、调整分区数进行并行度优化。其次训练4种数学模型获取故障类型的最佳模型及相关参数完成故障诊断。实验结果表明,并行变量预测模型识别精度高于支持向量机,计算效率优于单机环境,对高维特征向量有较好的适应性。 展开更多
关键词 故障诊断 小样本 变量预测模型 spark计算框架 内存式存储
在线阅读 下载PDF
Spark并行化基于物品协同过滤算法 被引量:9
14
作者 许明杰 蔚承建 沈航 《计算机工程与设计》 北大核心 2017年第7期1817-1822,共6页
针对传统的基于物品(Item-Based)协同过滤算法处理海量数据时耗时过长和效率低下问题,提出基于Hadoop分布式平台以及Spark并行计算模型的Item-Based协同过滤算法。综合考虑推荐系统的执行效率和推荐质量,通过对ItemBased协同过滤算法的... 针对传统的基于物品(Item-Based)协同过滤算法处理海量数据时耗时过长和效率低下问题,提出基于Hadoop分布式平台以及Spark并行计算模型的Item-Based协同过滤算法。综合考虑推荐系统的执行效率和推荐质量,通过对ItemBased协同过滤算法的改进,实现一个Spark并行化的音乐推荐系统。选取部分KDD Cup比赛数据集在推荐系统中进行测试,为目标用户生成音乐推荐结果和评定推荐误差,实验结果表明,改进后的算法在执行效率和推荐质量方面有了显著提高。 展开更多
关键词 协同过滤 推荐算法 分布式平台 spark模型 并行化
在线阅读 下载PDF
一种分布式用户浏览点击模型算法 被引量:8
15
作者 张浩盛伦 李翀 +1 位作者 柯勇 张士波 《计算机工程》 CAS CSCD 北大核心 2019年第3期1-6,共6页
为从海量搜索点击日志中快速挖掘用户行为,提出一种分布式用户浏览点击模型(UBM)算法。原始UBM算法求出的检验度参数E只与搜索结果文档所在排序位置以及上一文档的点击位置有关,且非常稳定,基于此特性,将EM迭代求解转换为抽样估计检验... 为从海量搜索点击日志中快速挖掘用户行为,提出一种分布式用户浏览点击模型(UBM)算法。原始UBM算法求出的检验度参数E只与搜索结果文档所在排序位置以及上一文档的点击位置有关,且非常稳定,基于此特性,将EM迭代求解转换为抽样估计检验度以求解吸引度的分布式UBM算法。在Spark数据平台上进行仿真,结果表明,与原始UBM算法相比,该算法能够解决点击日志中存在的严重数据倾斜问题,且运行效率较高。 展开更多
关键词 点击日志 点击模型 用户浏览点击模型算法 搜索引擎 spark平台
在线阅读 下载PDF
基于Pregel模型的分布式图着色算法 被引量:2
16
作者 甘瀛 王鑫 +1 位作者 冯志勇 杨雅君 《计算机科学与探索》 CSCD 北大核心 2018年第6期886-897,共12页
图着色问题一直是计算机科学和数学领域最著名和经典的研究问题之一。由于目前图数据规模的不断增加,单机图着色算法性能受到限制。现有的分布式图着色算法大多基于共享内存的消息传递模型,而无共享Pregel计算模型的提出与发展提高了大... 图着色问题一直是计算机科学和数学领域最著名和经典的研究问题之一。由于目前图数据规模的不断增加,单机图着色算法性能受到限制。现有的分布式图着色算法大多基于共享内存的消息传递模型,而无共享Pregel计算模型的提出与发展提高了大规模图数据的处理能力,其已成为现今大数据处理的主流框架之一,但尚缺少将现有的分布式图着色算法适配到Pregel模型进行算法研究与实验比较的工作。为了提高图着色算法的性能,受经典图着色算法MIS(maximal-independent-set)启发,设计了一种基于Pregel模型的分布式图着色算法MIS-Pregel。结合着色时间和所需颜色数等方面提出了两种不同的优化策略,第一种优化策略基于JP算法,第二种优化策略基于LDF算法。在实现了主流图数据处理模型Pregel的Spark Graph X框架下开发了上述MIS-Pregel算法和两种改进算法JP-Pregel和LDF-Pregel。在合成数据集和真实数据集上进行了实验,大量实验结果表明所提分布式图着色算法能够高效地完成图着色任务,且JP-Pregel算法和LDF-Pregel算法的着色时间比MIS-Pregel算法分别平均缩短了26.4%和30.9%。 展开更多
关键词 分布式图着色 Pregel模型 spark GraphX
在线阅读 下载PDF
基于Spark的并行SVM算法研究 被引量:17
17
作者 刘泽燊 潘志松 《计算机科学》 CSCD 北大核心 2016年第5期238-242,共5页
随着数据规模的不断增加,支持向量机(SVM)的并行化设计成为数据挖掘领域的一个研究热点。针对SVM算法训练大规模数据时存在寻优速度慢、内存占用大等问题,提出了一种基于Spark平台的并行支持向量机算法(SP-SVM)。该方法通过调整层叠支... 随着数据规模的不断增加,支持向量机(SVM)的并行化设计成为数据挖掘领域的一个研究热点。针对SVM算法训练大规模数据时存在寻优速度慢、内存占用大等问题,提出了一种基于Spark平台的并行支持向量机算法(SP-SVM)。该方法通过调整层叠支持向量机(Cascade SVM)的合并策略和训练结构,并利用Spark分布式计算框架实现;其次,进一步分析并行操作算子的性能,优化算法并行化实现方案,有效克服了层叠模型训练效率低的缺点。实验结果表明,新的并行训练方法在损失较小精度的前提下,在一定程度上减少了训练时间,能够很好地提高模型的学习效率。 展开更多
关键词 并行计算 支持向量机 大规模数据 层叠模型 spark
在线阅读 下载PDF
基于Spark的分布式交通流数据预测系统 被引量:19
18
作者 黄廷辉 王玉良 +1 位作者 汪振 崔更申 《计算机应用研究》 CSCD 北大核心 2018年第2期405-409,416,共6页
在大数据时代,在城市复杂交通环境中,实现实时、准确的交通流预测,是实现智能交通系统的必要前提。提出了一种在Spark平台上基于梯度优化决策树的分布式城市交通流预测模型(distributed urban traffic prediction with GBDT,DUTP-GBDT)... 在大数据时代,在城市复杂交通环境中,实现实时、准确的交通流预测,是实现智能交通系统的必要前提。提出了一种在Spark平台上基于梯度优化决策树的分布式城市交通流预测模型(distributed urban traffic prediction with GBDT,DUTP-GBDT);并提出了分布式情况下梯度优化决策树模型实现的优化方法,包括切分点抽样、特征装箱和逐层训练三种,提高了分布式情况下梯度优化决策树训练效率。基于Spark分布式计算平台高效、可靠、弹性可扩展的优势,以及梯度优化决策树模型准确率较高和时间复杂度较低的优点,利用时间特征、道路状况特征以及天气特征等特征参数,建立了DUTP-GBDT模型,实现了实时、准确的交通流预测。通过与GABP、GA-KNN、MSTAR等模型的对比,证明了利用Spark平台,DUTP-GBDT模型在分布式环境下准确率和训练速度方面均有所提高,符合城市交通流预测系统的各项要求。 展开更多
关键词 交通流预测 分布式计算 spark平台 梯度优化决策树模型
在线阅读 下载PDF
基于学习的容器环境Spark性能监控与分析 被引量:3
19
作者 皮艾迪 喻剑 周笑波 《计算机应用》 CSCD 北大核心 2017年第12期3586-3591,共6页
Spark计算框架被越来越多的企业用作大数据分析的框架,由于通常部署在分布式和云环境中因此增加了该系统的复杂性,对Spark框架的性能进行监控并查找导致性能下降的作业向来是非常困难的问题。针对此问题,提出并编写了一种针对分布式容... Spark计算框架被越来越多的企业用作大数据分析的框架,由于通常部署在分布式和云环境中因此增加了该系统的复杂性,对Spark框架的性能进行监控并查找导致性能下降的作业向来是非常困难的问题。针对此问题,提出并编写了一种针对分布式容器环境中Spark性能的实时监控与分析方法。首先,通过在Spark中植入代码和监控Docker容器中的API文件获取并整合了作业运行时资源消耗信息;然后,基于Spark作业历史信息,训练了高斯混合模型(GMM);最后,使用训练后的模型对Spark作业的运行时资源消耗信息进行分类并找出导致性能下降的作业。实验结果表明,所提方法能检测出90.2%的异常作业,且其对Spark作业性能的影响仅有4.7%。该方法能减轻查错的工作量,帮助用户更快地发现Spark的异常作业。 展开更多
关键词 spark 容器 分布式监控系统 高斯混合模型 机器学习
在线阅读 下载PDF
Spark在集成学习文本情感分析中的应用 被引量:4
20
作者 杨立月 王移芝 《计算机应用与软件》 北大核心 2020年第6期130-134,共5页
针对使用集成学习方法进行大规模文本情感分析实验中计算时间瓶颈的问题,提出基于Spark平台的集成学习模型并行化算法。使用三个数量级的文本进行集成学习的对比实验。结果表明,该算法大幅缩短了文本分类时间,F-score等相关评价指标与... 针对使用集成学习方法进行大规模文本情感分析实验中计算时间瓶颈的问题,提出基于Spark平台的集成学习模型并行化算法。使用三个数量级的文本进行集成学习的对比实验。结果表明,该算法大幅缩短了文本分类时间,F-score等相关评价指标与单机版本接近,且算法的可拓展性良好,大幅降低了模型优化和调参的时间成本。 展开更多
关键词 spark 分布式计算 模型并行化 集成学习 文本情感分析
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部