期刊文献+
共找到106篇文章
< 1 2 6 >
每页显示 20 50 100
面向结构化篇级科技文献数据治理的高性能分布式计算框架研究 被引量:4
1
作者 范萌 常志军 +1 位作者 钱力 郭丹 《情报杂志》 CSSCI 北大核心 2024年第3期182-189,121,共9页
[研究目的]为解决MapReduce、Spark等主流分布式计算框架存在的研发周期长、技术门槛高等问题,提出了一种高灵活、低门槛的高性能计算框架ArticleCF。[研究方法]ArticleCF框架吸收了主流分布式技术的优点,同时深度结合科技文献数据治理... [研究目的]为解决MapReduce、Spark等主流分布式计算框架存在的研发周期长、技术门槛高等问题,提出了一种高灵活、低门槛的高性能计算框架ArticleCF。[研究方法]ArticleCF框架吸收了主流分布式技术的优点,同时深度结合科技文献数据治理的特性,设计了Master/Slave的软件架构,在功能上针对科技文献数据特点进行多个维度的设计,重点设计了分布式任务分发策略、并行计算策略以及故障转移机制。[研究结论]通过21个指标将ArticleCF与MapReduce、Spark、Storm进行对比实验,有效验证所提方法的可行性、有效性,ArticleCF能够满足海量结构化科技文献数据的多样化处理需求。 展开更多
关键词 科技文献 数据治理 分布式计算 结构化数据 在线可视化编程 高性能计算 MAPREDUCE spark
在线阅读 下载PDF
基于Spark分布式框架的海量星表数据时序重构方法研究 被引量:3
2
作者 赵青 权文利 +2 位作者 陈亚瑞 崔辰州 樊东卫 《天文学进展》 CSCD 北大核心 2024年第1期86-101,共16页
时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark这类MapReduce分布式模型在执行过程中分布式集群节点间的任务比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流... 时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark这类MapReduce分布式模型在执行过程中分布式集群节点间的任务比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流程,每个分布式进程完全针对独立天区的数据进行连续处理,而分块边缘的新增天体导致的其他节点的新增证认任务延时批量追加,并且会根据各进程间的进度不同确定追加方式,保证证认计算没有遗漏,从而在提高并发效率的同时保证算法的精度。此外,对两表间的不同Join策略从理论和实验两个角度进行了研究并提出了免Join策略。最后通过基于Spark分布式框架的高效时序重构系统的设计完成了以上研究的验证。实验表明,与以往研究结果相比,该时序重构算法效率提升明显,为时域天文学中的天文时序数据分析的开展打下了良好的基础。 展开更多
关键词 时域天文学 交叉证认计算 时序重构 分布式计算 spark
在线阅读 下载PDF
基于分布式计算框架的风暴三维追踪方法 被引量:3
3
作者 曾沁 李永生 《计算机应用》 CSCD 北大核心 2017年第4期941-944,共4页
气象数据的增长规模已达到每小时TB级,这使得传统基于关系型数据库和文件存储系统在海量数据存储与管理方面捉襟见肘,进而使得基于大规模异构气象数据的应用无法规模化,同时,也无法满足科研人员对海量气象数据高效探索的需要。为解决这... 气象数据的增长规模已达到每小时TB级,这使得传统基于关系型数据库和文件存储系统在海量数据存储与管理方面捉襟见肘,进而使得基于大规模异构气象数据的应用无法规模化,同时,也无法满足科研人员对海量气象数据高效探索的需要。为解决这一系列问题,研究者分别基于MapReduce、HBase等分布式框架下的分布式计算和存储技术,尝试为海量气象数据的探索提供有效技术手段,然而,综合性的研究据了解还未开展。因此,利用近年来积累的海量多普勒天气雷达数据,开展了基于MapReduce和HBase相结合的风暴三维追踪方法的研究,并基于传统Rest标准化接口实现了雷达资料的点、线、面、体的多种分布式服务接口,与传统的Rest标准化单机数据存储和访问接口的性能相比,所实现方法在性能方面有100%的效率提升。最后,以2007年至2009年珠江三角洲地区三年雷达数据的风暴追踪回算为例,进一步验证了所提方法在计算和存储管理方面的性能优势。 展开更多
关键词 分布式计算框架 风暴追踪算法 长时间序列分析
在线阅读 下载PDF
Spark框架下利用分布式NBC的大数据文本分类方法 被引量:6
4
作者 臧艳辉 赵雪章 席运江 《计算机应用研究》 CSCD 北大核心 2019年第12期3705-3708,3712,共5页
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有... 针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类;进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势,最后在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了提出方法的准确性。 展开更多
关键词 文本分类 MAPREDUCE spark框架 分布式 朴素贝叶斯分类器 机器学习
在线阅读 下载PDF
人工交通系统计算实验的分布式框架研究 被引量:3
5
作者 陈松航 汤淑明 +1 位作者 朱凤华 缪青海 《系统仿真学报》 CAS CSCD 北大核心 2013年第4期605-611,共7页
人工交通系统概念的提出为智能交通系统研究开辟了新的视野,但其自底向上的交通个体建模方法和复杂的计算过程也带来了庞大的计算量与存储量,单台计算机的计算能力越来越难以满足大规模计算实验的需求。为此,提出和实现了一种混合P2P结... 人工交通系统概念的提出为智能交通系统研究开辟了新的视野,但其自底向上的交通个体建模方法和复杂的计算过程也带来了庞大的计算量与存储量,单台计算机的计算能力越来越难以满足大规模计算实验的需求。为此,提出和实现了一种混合P2P结构的分布式计算实验框架,并采用改进的同步算法和新的负载均衡方案优化了框架的性能,最后通过测试验证了该框架的高效性和可靠性。 展开更多
关键词 人工交通系统 大规模计算实验 分布式计算框架 混合P2P 性能和可靠性测试
在线阅读 下载PDF
Spark框架下分布式K-means算法优化方法 被引量:13
6
作者 王法玉 刘志强 《计算机工程与设计》 北大核心 2019年第6期1595-1600,共6页
针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的... 针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的能力,采用Spark框架对算法进行并行化实现。在集群环境下进行测试,基于Spark框架的改进后算法能有效降低计算的时间复杂度,算法具有良好扩展性,计算效率有显著提高。 展开更多
关键词 K-MEANS算法 spark计算框架 分布式 网格 空间位置
在线阅读 下载PDF
一种基于Spark的大规模语义数据分布式推理框架 被引量:2
7
作者 陈恒 《计算机科学》 CSCD 北大核心 2016年第S2期93-96,共4页
随着大规模语义数据的涌现,研究高效的并行化语义推理成为热点问题之一。现有推理框架大多存在可扩展性方面的不足,难以满足大规模语义数据的需求。针对现有推理框架的不足,提出一种基于Spark的大规模语义数据分布式推理框架。该框架主... 随着大规模语义数据的涌现,研究高效的并行化语义推理成为热点问题之一。现有推理框架大多存在可扩展性方面的不足,难以满足大规模语义数据的需求。针对现有推理框架的不足,提出一种基于Spark的大规模语义数据分布式推理框架。该框架主要包括语义建模、规则提取和基于Spark的并行推理机等3个模块。通过过程分析和推理实例验证,提出的分布式并行推理的计算性能(T(n)=O(log_(2)n))远远优于顺序式推理的计算性能(T(n)=O(n))。 展开更多
关键词 spark 并行化语义推理 分布式框架 语义大数据
在线阅读 下载PDF
基于Spark SQL的分布式全文检索框架的设计与实现 被引量:5
8
作者 崔光范 许利杰 +2 位作者 刘杰 叶丹 钟华 《计算机科学》 CSCD 北大核心 2018年第9期104-112,145,共10页
随着信息化的深入,大数据在各个领域产生了巨大的价值,海量数据的存储和快速分析成为新的挑战。传统的关系型数据库由于性能、扩展性的不足以及价格昂贵等方面的缺点,难以满足大数据的存储和分析需求。Spark SQL是基于大数据处理框架Sp... 随着信息化的深入,大数据在各个领域产生了巨大的价值,海量数据的存储和快速分析成为新的挑战。传统的关系型数据库由于性能、扩展性的不足以及价格昂贵等方面的缺点,难以满足大数据的存储和分析需求。Spark SQL是基于大数据处理框架Spark的数据分析工具,目前已支持TPC-DS基准,成为大数据背景下传统数据仓库的替代解决方案。全文检索作为一种文本搜索的有效方式,能够与一般的查询操作结合使用,提供更加丰富的查询和分析操作。目前,Spark SQL仅支持简单的查询操作,不支持全文检索。为了满足传统业务迁移和现有业务的使用需求,提出了分布式全文检索框架,涵盖了SQL文法、SQL翻译转换框架、全文检索并行化、检索优化4个模块,并在Spark SQL上进行了实现。实验结果表明相比于传统的数据库,在两种检索优化策略下,该框架的索引构建时间、查询时间分别减少到传统数据库的0.6%/0.5%和1%/10%,索引存储量减少为传统数据库的55.0%。 展开更多
关键词 spark SQL 全文检索 翻译转换框架 检索并行化 检索优化
在线阅读 下载PDF
基于分布式数据集的并行计算框架内存优化方法 被引量:9
9
作者 夏立斌 刘晓宇 +1 位作者 姜晓巍 孙功星 《计算机工程》 CAS CSCD 北大核心 2023年第4期43-51,共9页
随着科学计算和人工智能技术的快速发展,分布式环境下的并行计算已成为解决大规模理论计算和数据处理问题的重要手段。内存容量的提高以及迭代算法的广泛应用,使得以Spark为代表的内存计算技术愈发成熟。但是,当前主流的分布式内存模型... 随着科学计算和人工智能技术的快速发展,分布式环境下的并行计算已成为解决大规模理论计算和数据处理问题的重要手段。内存容量的提高以及迭代算法的广泛应用,使得以Spark为代表的内存计算技术愈发成熟。但是,当前主流的分布式内存模型和计算框架难以兼顾易用性和计算性能,并且在数据格式定义、内存分配、内存使用效率等方面存在不足。提出一种基于分布式数据集的并行计算方法,分别从模型理论和系统开销两个角度对内存计算进行优化。在理论上,通过对计算过程进行建模分析,以解决Spark在科学计算环境下表达能力不足的问题,同时给出计算框架的开销模型,为后续性能优化提供支持。在系统上,提出一种框架级的内存优化方法,该方法主要包括对跨语言分布式内存数据集的重构、分布式共享内存的管理、消息传递过程的优化等模块。实验结果表明,基于该优化方法实现的并行计算框架可以显著提升数据集的内存分配效率,减少序列化/反序列化开销,缓解内存占用压力,应用测试的执行时间相比Spark减少了69%~92%。 展开更多
关键词 内存计算 并行计算 内存优化 spark框架 消息传递接口
在线阅读 下载PDF
基于分布式计算的农机运营效率分析 被引量:3
10
作者 赵国发 刘卉 +2 位作者 肖敬 陈竞平 孟志军 《农机化研究》 北大核心 2020年第1期53-57,64,共6页
为适应深松整地作业的监管需求,国家农业智能装备工程技术研究中心研制了农机深松作业监管服务系统。针对海量的农机运动轨迹数据,搭建了基于Spark技术的分布式集群轨迹处理试验平台,研究了基于分布式计算的农机运营数据分析方法。针对... 为适应深松整地作业的监管需求,国家农业智能装备工程技术研究中心研制了农机深松作业监管服务系统。针对海量的农机运动轨迹数据,搭建了基于Spark技术的分布式集群轨迹处理试验平台,研究了基于分布式计算的农机运营数据分析方法。针对运营时间、作业时间、时间利用率及班次利用率等多项指标,对2015年8-12月期间的新疆塔城地区14台农机深松作业轨迹数据进行了农机运营效率分析。数据分析结果有助于测算和客观评价农机运营效率,为农机智能管理与科学调度研究提供数据支持。 展开更多
关键词 农机运营效率 GNSS轨迹 数据挖掘 分布式计算 spark集群
在线阅读 下载PDF
基于分布式证据学习算法的脱硫浆液品质监测模型研究 被引量:1
11
作者 徐侠 朱万进 +2 位作者 薛钧赢 苏志刚 郝勇生 《现代化工》 CAS CSCD 北大核心 2024年第S02期348-354,共7页
基于分布式计算框架与证据学习算法,对脱硫浆液品质建立了健康品质监测模型,突破了海量脱硫系统运行数据对基于传统机器学习的浆液品质监测方法所带来的计算瓶颈,并利用该模型对江苏某1000 MW电厂的浆液品质进行了在线监测。测试表明,... 基于分布式计算框架与证据学习算法,对脱硫浆液品质建立了健康品质监测模型,突破了海量脱硫系统运行数据对基于传统机器学习的浆液品质监测方法所带来的计算瓶颈,并利用该模型对江苏某1000 MW电厂的浆液品质进行了在线监测。测试表明,所建立的监测模型能够准确监测出脱硫浆液品质的恶化,与其他3类先进监测方法对比结果说明了所建立模型能够达到最优的报警及时性。将分布式计算框架结合证据理论应用于脱硫浆液品质监测是可行的,为脱硫浆液品质监测提供了一种新方法。 展开更多
关键词 脱硫浆液 状态监测 证据理论 分布式计算框架
在线阅读 下载PDF
分布式资源描述框架数据管理系统查询性能评价 被引量:2
12
作者 冯钧 王秉发 陆佳民 《计算机应用》 CSCD 北大核心 2022年第2期440-448,共9页
随着知识图谱技术的不断发展,知识图谱驱动的知识信息管理广泛应用于各个领域,因此面向知识图谱的分布式SPARQL(Simple Protocol and Resource description framework Query Language)的查询效率显得尤为重要。首先针对现有的基于Spark... 随着知识图谱技术的不断发展,知识图谱驱动的知识信息管理广泛应用于各个领域,因此面向知识图谱的分布式SPARQL(Simple Protocol and Resource description framework Query Language)的查询效率显得尤为重要。首先针对现有的基于Spark和基于主存(RAM)的分布式资源描述框架(RDF)系统进行详细调研;其次,从上述系统中选出8个具有代表性的系统进行查询性能评估,比较基于Spark和基于RAM的系统在不同查询类型、查询直径、数据集上的查询性能差异;然后,全面分析实验结果,对基于Spark和基于RAM的系统的查询性能进行评价;最后,针对现有系统在分布式SPARQL查询中存在的查询伸缩性差、查询连接复杂度高、查询编译时间长等问题,展望面向垂直应用领域的分布式SPARQL查询优化的未来研究方向。 展开更多
关键词 分布式资源描述框架 主存 spark 分布式SPARQL查询 选择性 查询效率 查询准确性
在线阅读 下载PDF
基于大数据随机样本划分的分布式观测点分类器
13
作者 李旭 何玉林 +2 位作者 崔来中 黄哲学 PHILIPPE Fournier-Viger 《计算机应用》 CSCD 北大核心 2024年第6期1727-1733,共7页
观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数... 观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数据的随机样本划分(RSP)的分布式OPC(DOPC)。首先,在分布式计算环境下生成大数据的RSP数据块,并将它转换为弹性分布式数据集(RDD);其次,在RSP数据块上协同式地训练一组OPC,由于每个RSP数据块上的OPC独立训练,因此有高效的Spark可实现性;最后,在Spark框架下将在RSP数据块上协同训练的OPC集成为DOPC,对新样本进行类标签预测。在8个大数据集上,对Spark集群环境下实现的DOPC的可行性、合理性和有效性进行实验验证,实验结果显示,DOPC能够以更低的计算消耗获得比单机OPC更高的测试精度,同时相较于Spark框架下实现的基于RSP模型的神经网络(NN)、决策树(DT)、朴素贝叶斯(NB)和K最近邻(KNN),DOPC分类器具有更强的泛化性能。测试结果表明,DOPC是一种高效低耗的处理大数据分类问题的有监督学习算法。 展开更多
关键词 大数据分类 分布式文件系统 随机样本划分 观测点分类器 spark计算框架
在线阅读 下载PDF
Spark环境下基于SMT的分布式限界模型检测
14
作者 任胜兵 张健威 +1 位作者 吴斌 王志健 《计算机工程》 CAS CSCD 北大核心 2017年第6期19-23,29,共6页
在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布... 在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布式限界模型检测方法。将源程序的LLVM中间表示(LLVM-IR)构造为Spark内置的数据结构Pair RDD,利用MapReduce算法将Pair RDD转化为表示验证条件的弹性分布式数据集(VCs RDD),VCs RDD转化为SMT-LIB并输入SMT求解器进行验证。实验结果表明,与传统串行检测方法相比,该方法提高了验证过程中的限界深度和验证结果的正确率,并且对于复杂度较高的程序在限界相同的情况下其验证速度也有所提升。 展开更多
关键词 软件验证 限界模型检测 弹性分布式数据集 可满足性模理论求解器 spark框架
在线阅读 下载PDF
基于Spark框架的RDD数据块增益感知缓存替换策略
15
作者 贺莎 唐小勇 《计算机科学与探索》 北大核心 2025年第9期2548-2558,共11页
缓存替换是Spark内存优化的一个研究热点和难点。然而,应用程序特征的多样性、内存资源的有限性以及缓存替换的不确定性对实现高系统执行性能构成了挑战。低效的缓存替换策略可能会导致不同的性能问题,如应用程序执行时间长,资源利用率... 缓存替换是Spark内存优化的一个研究热点和难点。然而,应用程序特征的多样性、内存资源的有限性以及缓存替换的不确定性对实现高系统执行性能构成了挑战。低效的缓存替换策略可能会导致不同的性能问题,如应用程序执行时间长,资源利用率低等。基于此,提出一种面向Spark大数据处理框架的弹性分布式数据集(RDD)数据块增益感知缓存替换策略。该策略建立了综合考虑数据块分区大小、引用计数、计算成本和资源成本影响因子的缓存价值评估模型,用于准确评估数据块的缓存价值。提出缓存增益问题模型,以形式化描述缓存管理的优化问题。提出RDD数据块增益感知缓存替换算法(CRCA),以确保内存中的RDD数据块带来的缓存增益最大化。为验证CRCA算法的有效性,基于Spark构建了一个真实的大数据集群实验平台,并采用HiBench基准测试工具中的多样化负载进行实验评估。结果表明,提出的缓存替换算法在任务执行时间和CPU利用率方面优于现有的最近最少使用算法(LRU)和最小分区权重算法(LPW)。 展开更多
关键词 RDD数据块 缓存增益 缓存替换 spark框架
在线阅读 下载PDF
Spark平台下的分布式函数依赖发现算法 被引量:6
16
作者 朱星宇 蔡志成 +2 位作者 刘段 徐建 李小平 《小型微型计算机系统》 CSCD 北大核心 2020年第8期1569-1575,共7页
函数依赖发现被广泛应用于分布式大数据分析,是数据清洗、质量评估和语义分析的重要手段.已有函数依赖发现算法主要针对集中式数据,不适用于分布在不同节点上的云计算数据.将分布式数据汇集到集中节点非常耗时,而使用传统集中式方法分... 函数依赖发现被广泛应用于分布式大数据分析,是数据清洗、质量评估和语义分析的重要手段.已有函数依赖发现算法主要针对集中式数据,不适用于分布在不同节点上的云计算数据.将分布式数据汇集到集中节点非常耗时,而使用传统集中式方法分别处理分布式节点上的数据会导致错误的结果.已经存在的分布式算法存在内存消耗过大的缺点.因此,本文提出一种基于云计算数据处理平台Spark的快速低内存分布式函数依赖发现算法.该算法提出了多个分布式任务分配策略和基于标识符集一致性的最大等价类元素去重策略,在保障正确性前提下,减少了集合交集运算的次数,加快了处理速度.实验结果表明,与传统集中式算法相比,本文提出的分布式算法在本实验环境下使平均执行时间降低了50%左右,去重策略进一步降低了30%左右执行时间.和已有分布式函数依赖发现算法相比,在有些实例上可以节省大约75%的内存. 展开更多
关键词 数据挖掘 函数依赖发现 Dep_Miner 分布式计算 spark
在线阅读 下载PDF
基于Spark的分布式交通流数据预测系统 被引量:20
17
作者 黄廷辉 王玉良 +1 位作者 汪振 崔更申 《计算机应用研究》 CSCD 北大核心 2018年第2期405-409,416,共6页
在大数据时代,在城市复杂交通环境中,实现实时、准确的交通流预测,是实现智能交通系统的必要前提。提出了一种在Spark平台上基于梯度优化决策树的分布式城市交通流预测模型(distributed urban traffic prediction with GBDT,DUTP-GBDT)... 在大数据时代,在城市复杂交通环境中,实现实时、准确的交通流预测,是实现智能交通系统的必要前提。提出了一种在Spark平台上基于梯度优化决策树的分布式城市交通流预测模型(distributed urban traffic prediction with GBDT,DUTP-GBDT);并提出了分布式情况下梯度优化决策树模型实现的优化方法,包括切分点抽样、特征装箱和逐层训练三种,提高了分布式情况下梯度优化决策树训练效率。基于Spark分布式计算平台高效、可靠、弹性可扩展的优势,以及梯度优化决策树模型准确率较高和时间复杂度较低的优点,利用时间特征、道路状况特征以及天气特征等特征参数,建立了DUTP-GBDT模型,实现了实时、准确的交通流预测。通过与GABP、GA-KNN、MSTAR等模型的对比,证明了利用Spark平台,DUTP-GBDT模型在分布式环境下准确率和训练速度方面均有所提高,符合城市交通流预测系统的各项要求。 展开更多
关键词 交通流预测 分布式计算 spark平台 梯度优化决策树模型
在线阅读 下载PDF
利用构件框架技术构造高度灵活的分布式中间件
18
作者 韩璐 黄刘生 +1 位作者 郑启龙 陈国良 《小型微型计算机系统》 CSCD 北大核心 2003年第1期20-25,共6页
为了构造灵活的中间件 ,本文基于现有中间件标准的计算模型和工程模型 ,从所面临的需求或挑战的来源出发 ,系统化地分析了这些挑战对于中间件实现所造成的影响和相应解决方案应该满足的特征 ,并采用构件和构件框架技术 ,提出了一个实现... 为了构造灵活的中间件 ,本文基于现有中间件标准的计算模型和工程模型 ,从所面临的需求或挑战的来源出发 ,系统化地分析了这些挑战对于中间件实现所造成的影响和相应解决方案应该满足的特征 ,并采用构件和构件框架技术 ,提出了一个实现框架 。 展开更多
关键词 分布式中间件 面向构件的编程 软件体系结构 构件框架 开放的分布式处理 分布式计算
在线阅读 下载PDF
交通信息分布式处理中的Hadoop调度算法优化 被引量:8
19
作者 孙卫真 王秀锦 徐远超 《计算机工程与设计》 CSCD 北大核心 2014年第4期1269-1273,1278,共6页
为从海量交通信息数据中有效地挖掘出为城市智能交通服务的信息,提出了在分布式环境下的改进型计算能力调度算法。根据对海量交通信息数据与分布式调度算法进行的分析与研究,指出了相关数据的特点与算法待改进的关键点,架构了在分布式... 为从海量交通信息数据中有效地挖掘出为城市智能交通服务的信息,提出了在分布式环境下的改进型计算能力调度算法。根据对海量交通信息数据与分布式调度算法进行的分析与研究,指出了相关数据的特点与算法待改进的关键点,架构了在分布式平台下公平调度与延时调度的改进模型,优化了Hadoop在对交通数据处理时的调度算法,弥补了普通调度算法实时性的不足。实验结果表明,在分布式环境下,使用优化后的调度算法处理计算密集型或I/O密集型交通信息数据,计算所花时间较小,性能较优,具有较好的实时性。 展开更多
关键词 分布式处理软件框架 映射和简化 智能交通 调度优化 分布式计算 计算机集群 并行运算
在线阅读 下载PDF
大数据下的分布式精确模糊KNN分类算法 被引量:4
20
作者 邹劲松 李芳 《计算机应用研究》 CSCD 北大核心 2019年第12期3701-3704,共4页
针对K近邻(KNN)方法处理大数据集的效率问题进行了研究,提出了一种基于Spark框架的分布式精确模糊KNN分类算法,创新性地将Spark框架分布式map和reduce过程与模糊KNN结合。首先对不同分区中训练样本类别信息进行模糊化处理,得到类别隶属... 针对K近邻(KNN)方法处理大数据集的效率问题进行了研究,提出了一种基于Spark框架的分布式精确模糊KNN分类算法,创新性地将Spark框架分布式map和reduce过程与模糊KNN结合。首先对不同分区中训练样本类别信息进行模糊化处理,得到类别隶属度,将训练集转换为添加类隶属度的模糊训练集;然后使用KNN算法对先前计算的类成员测试集计算得到k个最近邻;最后通过距离权重进行分类。针对百万级大数据集样本的实验,以及与其他算法的对比实验表明,所提算法是可行的和有效的。 展开更多
关键词 大数据 分布式spark框架 类隶属度 模糊KNN算法
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部