期刊文献+
共找到101篇文章
< 1 2 6 >
每页显示 20 50 100
面向结构化篇级科技文献数据治理的高性能分布式计算框架研究 被引量:4
1
作者 范萌 常志军 +1 位作者 钱力 郭丹 《情报杂志》 CSSCI 北大核心 2024年第3期182-189,121,共9页
[研究目的]为解决MapReduce、Spark等主流分布式计算框架存在的研发周期长、技术门槛高等问题,提出了一种高灵活、低门槛的高性能计算框架ArticleCF。[研究方法]ArticleCF框架吸收了主流分布式技术的优点,同时深度结合科技文献数据治理... [研究目的]为解决MapReduce、Spark等主流分布式计算框架存在的研发周期长、技术门槛高等问题,提出了一种高灵活、低门槛的高性能计算框架ArticleCF。[研究方法]ArticleCF框架吸收了主流分布式技术的优点,同时深度结合科技文献数据治理的特性,设计了Master/Slave的软件架构,在功能上针对科技文献数据特点进行多个维度的设计,重点设计了分布式任务分发策略、并行计算策略以及故障转移机制。[研究结论]通过21个指标将ArticleCF与MapReduce、Spark、Storm进行对比实验,有效验证所提方法的可行性、有效性,ArticleCF能够满足海量结构化科技文献数据的多样化处理需求。 展开更多
关键词 科技文献 数据治理 分布式计算 结构化数据 在线可视化编程 高性能计算 mapreduce SPARK
在线阅读 下载PDF
MapReduce框架下基于抽样的分布式K-Means聚类算法 被引量:7
2
作者 杨杰明 吴启龙 +3 位作者 曲朝阳 杨烁 阚中峰 高冶 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2017年第1期109-115,共7页
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行... 提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性. 展开更多
关键词 抽样 mapreduce 分布式计算 K-MEANS聚类算法
在线阅读 下载PDF
基于分布式计算框架的风暴三维追踪方法 被引量:3
3
作者 曾沁 李永生 《计算机应用》 CSCD 北大核心 2017年第4期941-944,共4页
气象数据的增长规模已达到每小时TB级,这使得传统基于关系型数据库和文件存储系统在海量数据存储与管理方面捉襟见肘,进而使得基于大规模异构气象数据的应用无法规模化,同时,也无法满足科研人员对海量气象数据高效探索的需要。为解决这... 气象数据的增长规模已达到每小时TB级,这使得传统基于关系型数据库和文件存储系统在海量数据存储与管理方面捉襟见肘,进而使得基于大规模异构气象数据的应用无法规模化,同时,也无法满足科研人员对海量气象数据高效探索的需要。为解决这一系列问题,研究者分别基于MapReduce、HBase等分布式框架下的分布式计算和存储技术,尝试为海量气象数据的探索提供有效技术手段,然而,综合性的研究据了解还未开展。因此,利用近年来积累的海量多普勒天气雷达数据,开展了基于MapReduce和HBase相结合的风暴三维追踪方法的研究,并基于传统Rest标准化接口实现了雷达资料的点、线、面、体的多种分布式服务接口,与传统的Rest标准化单机数据存储和访问接口的性能相比,所实现方法在性能方面有100%的效率提升。最后,以2007年至2009年珠江三角洲地区三年雷达数据的风暴追踪回算为例,进一步验证了所提方法在计算和存储管理方面的性能优势。 展开更多
关键词 分布式计算框架 风暴追踪算法 长时间序列分析
在线阅读 下载PDF
基于MapReduce的分布式近邻传播聚类算法 被引量:53
4
作者 鲁伟明 杜晨阳 +2 位作者 魏宝刚 沈春辉 叶振超 《计算机研究与发展》 EI CSCD 北大核心 2012年第8期1762-1772,共11页
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处... 随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间. 展开更多
关键词 近邻传播聚类 分布式计算 mapreduce 数据划分 聚类融合
在线阅读 下载PDF
“分布式计算与开发模式”综合设计性实验案例 被引量:5
5
作者 杨丹 张晶 +1 位作者 赵骥 王刚 《实验技术与管理》 CAS 北大核心 2019年第10期197-200,共4页
针对面向计算机专业本科生开设的"分布式计算与开发模式"专业课的特点和大纲要求,设计了该综合设计性实验.该实验在Windows系统下,使用Hadoop分布框架和Eclipse快速开发平台,实现了地震数据集的统计任务.对实验目的、任务要... 针对面向计算机专业本科生开设的"分布式计算与开发模式"专业课的特点和大纲要求,设计了该综合设计性实验.该实验在Windows系统下,使用Hadoop分布框架和Eclipse快速开发平台,实现了地震数据集的统计任务.对实验目的、任务要求、实验方法和步骤、算法流程等进行了详细介绍.实践结果表明,通过此综合设计性实验,学生的实验积极性和对分布式计算的掌握程度大大提高. 展开更多
关键词 分布式计算 综合设计性实验 HADOOP mapreduce
在线阅读 下载PDF
基于MapReduce架构的就地化分布式母线保护研究 被引量:14
6
作者 周小波 唐治国 《电力系统保护与控制》 EI CSCD 北大核心 2018年第6期128-135,共8页
为了解决目前母线保护装置就地安放时支持间隔少和部分保护性能差的现状,提出在HSR环网分布式母线保护的基础上,引入基于MapReduce架构的分布式设计方法。将保护子机分为调度节点和任务节点,对母线保护的差动保护模块根据子机的个数分... 为了解决目前母线保护装置就地安放时支持间隔少和部分保护性能差的现状,提出在HSR环网分布式母线保护的基础上,引入基于MapReduce架构的分布式设计方法。将保护子机分为调度节点和任务节点,对母线保护的差动保护模块根据子机的个数分配于不同的子机计算并进行合并,而对于各子机相关的后备保护则分配于对应子机和负责备用计算子机完成,实现母线保护的分布式计算和逻辑判断,并经过"动作三取二"逻辑出口跳闸。经过RTDS动模试验验证,此设计方案可靠性高,提高了保护装置的可用资源和性能。 展开更多
关键词 mapreduce 分布式计算 键值对:HSR 就地化 母线保护
在线阅读 下载PDF
基于MapReduce模型的分布式天文交叉证认 被引量:2
7
作者 赵青 孙济洲 +4 位作者 肖健 于策 崔辰州 刘旭 袁鳌 《计算机应用研究》 CSCD 北大核心 2010年第9期3322-3325,共4页
交叉证认是实现多波段数据融合的关键技术,目前还缺乏对其分布式算法的研究。快速增长的数据规模使该问题必须要依赖分布式并行计算技术解决。提出了一种基于MapReduce分布式模型的新方法,根据Map-Reduce的要点,尽量减少了任务间的通信... 交叉证认是实现多波段数据融合的关键技术,目前还缺乏对其分布式算法的研究。快速增长的数据规模使该问题必须要依赖分布式并行计算技术解决。提出了一种基于MapReduce分布式模型的新方法,根据Map-Reduce的要点,尽量减少了任务间的通信量,并通过合理设置划分粒度保证了效率与存储间的平衡。实验结果表明,该方法对海量数据交叉证认的效率提升明显,在大规模集群上达到了接近线性的加速比。该方法为交叉证认提供了一种快速有效的解决途径。 展开更多
关键词 天文交叉证认 mapreduce 并行计算 分布式计算
在线阅读 下载PDF
人工交通系统计算实验的分布式框架研究 被引量:3
8
作者 陈松航 汤淑明 +1 位作者 朱凤华 缪青海 《系统仿真学报》 CAS CSCD 北大核心 2013年第4期605-611,共7页
人工交通系统概念的提出为智能交通系统研究开辟了新的视野,但其自底向上的交通个体建模方法和复杂的计算过程也带来了庞大的计算量与存储量,单台计算机的计算能力越来越难以满足大规模计算实验的需求。为此,提出和实现了一种混合P2P结... 人工交通系统概念的提出为智能交通系统研究开辟了新的视野,但其自底向上的交通个体建模方法和复杂的计算过程也带来了庞大的计算量与存储量,单台计算机的计算能力越来越难以满足大规模计算实验的需求。为此,提出和实现了一种混合P2P结构的分布式计算实验框架,并采用改进的同步算法和新的负载均衡方案优化了框架的性能,最后通过测试验证了该框架的高效性和可靠性。 展开更多
关键词 人工交通系统 大规模计算实验 分布式计算框架 混合P2P 性能和可靠性测试
在线阅读 下载PDF
基于MapReduce的分布式光线跟踪的设计与实现 被引量:7
9
作者 郑欣杰 朱程荣 熊齐邦 《计算机工程》 CAS CSCD 北大核心 2007年第22期83-85,共3页
提出了基于MapReduce架构实现分布式光线跟踪渲染的方案。该方案基于Hadoop实现,利用MapReduce架构简化了分布式程序设计。使用分布式计算进行光线跟踪,充分利用了现有低端硬件设备的处理能力。实验表明,该方案通过并行计算大大加快了... 提出了基于MapReduce架构实现分布式光线跟踪渲染的方案。该方案基于Hadoop实现,利用MapReduce架构简化了分布式程序设计。使用分布式计算进行光线跟踪,充分利用了现有低端硬件设备的处理能力。实验表明,该方案通过并行计算大大加快了渲染速度。 展开更多
关键词 mapreduce HADOOP 分布式计算 光线跟踪
在线阅读 下载PDF
基于Hadoop框架的MapReduce计算模式的优化设计 被引量:12
10
作者 孙彦超 王兴芬 《计算机科学》 CSCD 北大核心 2014年第B11期333-336,共4页
对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究M... 对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究MapReduce对海量数据处理作业流程分析,提出了MapReduce分布式作业计算的优化策略,从而更好地提高了海量数据的处理效率。 展开更多
关键词 HADOOP 海量数据 mapreduce 分布式计算
在线阅读 下载PDF
Spark框架下利用分布式NBC的大数据文本分类方法 被引量:6
11
作者 臧艳辉 赵雪章 席运江 《计算机应用研究》 CSCD 北大核心 2019年第12期3705-3708,3712,共5页
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有... 针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类;进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势,最后在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了提出方法的准确性。 展开更多
关键词 文本分类 mapreduce Spark框架 分布式 朴素贝叶斯分类器 机器学习
在线阅读 下载PDF
基于分布式证据学习算法的脱硫浆液品质监测模型研究 被引量:1
12
作者 徐侠 朱万进 +2 位作者 薛钧赢 苏志刚 郝勇生 《现代化工》 CAS CSCD 北大核心 2024年第S02期348-354,共7页
基于分布式计算框架与证据学习算法,对脱硫浆液品质建立了健康品质监测模型,突破了海量脱硫系统运行数据对基于传统机器学习的浆液品质监测方法所带来的计算瓶颈,并利用该模型对江苏某1000 MW电厂的浆液品质进行了在线监测。测试表明,... 基于分布式计算框架与证据学习算法,对脱硫浆液品质建立了健康品质监测模型,突破了海量脱硫系统运行数据对基于传统机器学习的浆液品质监测方法所带来的计算瓶颈,并利用该模型对江苏某1000 MW电厂的浆液品质进行了在线监测。测试表明,所建立的监测模型能够准确监测出脱硫浆液品质的恶化,与其他3类先进监测方法对比结果说明了所建立模型能够达到最优的报警及时性。将分布式计算框架结合证据理论应用于脱硫浆液品质监测是可行的,为脱硫浆液品质监测提供了一种新方法。 展开更多
关键词 脱硫浆液 状态监测 证据理论 分布式计算框架
在线阅读 下载PDF
结合MapReduce框架的离群因子检测算法
13
作者 徐树奎 张煜 +2 位作者 李海霞 常海艳 张和伟 《火力与指挥控制》 CSCD 北大核心 2024年第11期128-132,共5页
离群因子检测目的是检测与大部分其他对象显著不同的数据对象。近年来,在某些分组计算应用场景下,数据量十分巨大,现有算法采用的欧氏距离计算开销不断增大,存在两个较有挑战性问题:1)组间数据对象数量十分巨大,计算耗时较长,开销较大;2... 离群因子检测目的是检测与大部分其他对象显著不同的数据对象。近年来,在某些分组计算应用场景下,数据量十分巨大,现有算法采用的欧氏距离计算开销不断增大,存在两个较有挑战性问题:1)组间数据对象数量十分巨大,计算耗时较长,开销较大;2)数据对象维度逐渐增多,算法时间开销大。将MapReduce计算框架与LOF算法相结合,解决上述问题。实验证明,引入了MapReduce分布式计算框架的改进算法可以有效提升大量数据中检测离群点的效率。 展开更多
关键词 离群因子检测 LOF算法 mapreduce框架 分布式计算
在线阅读 下载PDF
基于用户移动网络接入位置的高效分布式相似矩阵计算方法 被引量:1
14
作者 王源 江昊 +5 位作者 吴明 姚冬桂 张毅 羿舒文 汪海 吴静 《电信科学》 2018年第5期26-38,共13页
研究了一种基于用户移动网络接入位置的高效分布式相似矩阵计算方法,利用Hadoop生态系统中的MapReduce计算框架,依据地理位置信息对用户进行划分并进行相似度计算。实验结果表明,该方法在计算效率上相较于现有相似矩阵计算方法最大提升... 研究了一种基于用户移动网络接入位置的高效分布式相似矩阵计算方法,利用Hadoop生态系统中的MapReduce计算框架,依据地理位置信息对用户进行划分并进行相似度计算。实验结果表明,该方法在计算效率上相较于现有相似矩阵计算方法最大提升了近25倍。将相似矩阵计算结果应用于用户社区发现,该方法与现有相似矩阵计算方法得到的相似矩阵有几乎一致的社区发现结果,一致率高达99.9%。 展开更多
关键词 相似矩阵 矩阵乘法 HADOOP mapreduce 分布式计算
在线阅读 下载PDF
利用构件框架技术构造高度灵活的分布式中间件
15
作者 韩璐 黄刘生 +1 位作者 郑启龙 陈国良 《小型微型计算机系统》 CSCD 北大核心 2003年第1期20-25,共6页
为了构造灵活的中间件 ,本文基于现有中间件标准的计算模型和工程模型 ,从所面临的需求或挑战的来源出发 ,系统化地分析了这些挑战对于中间件实现所造成的影响和相应解决方案应该满足的特征 ,并采用构件和构件框架技术 ,提出了一个实现... 为了构造灵活的中间件 ,本文基于现有中间件标准的计算模型和工程模型 ,从所面临的需求或挑战的来源出发 ,系统化地分析了这些挑战对于中间件实现所造成的影响和相应解决方案应该满足的特征 ,并采用构件和构件框架技术 ,提出了一个实现框架 。 展开更多
关键词 分布式中间件 面向构件的编程 软件体系结构 构件框架 开放的分布式处理 分布式计算
在线阅读 下载PDF
一种基于密度的分布式聚类方法 被引量:14
16
作者 王岩 彭涛 +1 位作者 韩佳育 刘露 《软件学报》 EI CSCD 北大核心 2017年第11期2836-2850,共15页
聚类是数据挖掘领域中的一种重要的数据分析方法.它根据数据间的相似度,将无标注数据划分为若干聚簇.CSDP是一种基于密度的聚类算法,当数据量较大或数据维数较高时,聚类的效率相对较低.为了提高聚类算法的效率,提出了一种基于密度的分... 聚类是数据挖掘领域中的一种重要的数据分析方法.它根据数据间的相似度,将无标注数据划分为若干聚簇.CSDP是一种基于密度的聚类算法,当数据量较大或数据维数较高时,聚类的效率相对较低.为了提高聚类算法的效率,提出了一种基于密度的分布式聚类方法 MRCSDP,利用MapReduce框架对实验数据进行聚类.该方法定义了独立计算单元和独立计算块的概念.首先,将数据拆分为若干数据块,构建独立计算单元和独立计算块,在集群中分配独立计算块的任务;然后进行分布式计算,得到数据块的局部密度,将局部密度合并得到全局密度,根据全局密度计算中心值,由全局密度和中心值得到每个数据块中候选聚簇中心;最后,从候选聚簇中心选举出最终的聚簇中心.MRCSDP在充分降低时间复杂度的基础上得到较好的聚类效果.实验结果表明,分布式环境下的聚类方法MRCSDP相对于CSDP更能快速、有效地处理大规模数据,并使各节点负载均衡. 展开更多
关键词 聚类 分布式计算 mapreduce 独立计算单元 独立计算
在线阅读 下载PDF
交通信息分布式处理中的Hadoop调度算法优化 被引量:8
17
作者 孙卫真 王秀锦 徐远超 《计算机工程与设计》 CSCD 北大核心 2014年第4期1269-1273,1278,共6页
为从海量交通信息数据中有效地挖掘出为城市智能交通服务的信息,提出了在分布式环境下的改进型计算能力调度算法。根据对海量交通信息数据与分布式调度算法进行的分析与研究,指出了相关数据的特点与算法待改进的关键点,架构了在分布式... 为从海量交通信息数据中有效地挖掘出为城市智能交通服务的信息,提出了在分布式环境下的改进型计算能力调度算法。根据对海量交通信息数据与分布式调度算法进行的分析与研究,指出了相关数据的特点与算法待改进的关键点,架构了在分布式平台下公平调度与延时调度的改进模型,优化了Hadoop在对交通数据处理时的调度算法,弥补了普通调度算法实时性的不足。实验结果表明,在分布式环境下,使用优化后的调度算法处理计算密集型或I/O密集型交通信息数据,计算所花时间较小,性能较优,具有较好的实时性。 展开更多
关键词 分布式处理软件框架 映射和简化 智能交通 调度优化 分布式计算 计算机集群 并行运算
在线阅读 下载PDF
基于MapReduce框架的并行蚁群优化聚类算法 被引量:2
18
作者 凌海峰 刘超超 《计算机工程》 CAS CSCD 北大核心 2015年第8期168-173,共6页
传统蚁群优化聚类算法在处理大规模数据时存在内存不足,不能体现蚁群算法的并行优势,无法处理分布式数据等问题。为此,提出一种并行蚁群优化聚类算法。通过借鉴搜索空间复制和搜索空间分块的思想,解决大数据处理问题,逐行读取信息素和数... 传统蚁群优化聚类算法在处理大规模数据时存在内存不足,不能体现蚁群算法的并行优势,无法处理分布式数据等问题。为此,提出一种并行蚁群优化聚类算法。通过借鉴搜索空间复制和搜索空间分块的思想,解决大数据处理问题,逐行读取信息素和数据,避免当数据规模过大时,将信息素一次性读入而造成内存不足的风险。实验结果表明,该算法在处理大规模数据时具有较好的可扩展性和较高的加速比。 展开更多
关键词 大数据 mapreduce计算框架 聚类算法 蚁群 并行算法
在线阅读 下载PDF
分布式XML Twig查询处理方法 被引量:1
19
作者 何志学 廖湖声 王静 《计算机工程与设计》 北大核心 2016年第1期123-126,210,共5页
在单机环境下,难以处理半结构化XML大数据查询,为此分析Twig查询的结构匹配特征,基于MapReduce编程模型,提出TwigMRR算法对XML Twig查询进行分布式处理。对XML数据进行Dewey编码,水平切分后存储于分布式文件系统,通过执行Map-Reduce-Red... 在单机环境下,难以处理半结构化XML大数据查询,为此分析Twig查询的结构匹配特征,基于MapReduce编程模型,提出TwigMRR算法对XML Twig查询进行分布式处理。对XML数据进行Dewey编码,水平切分后存储于分布式文件系统,通过执行Map-Reduce-Reduce任务对Twig分解后的线性路径查询进行分布式并行计算以取得结果。实验结果验证了该算法的有效性和完整性,与类似算法的比较结果表明了其在处理效率方面的优势。 展开更多
关键词 分布式计算 TWIG查询 mapreduce模型 XML数据 HADOOP平台
在线阅读 下载PDF
一种分布式Twitter数据处理方案及应用 被引量:3
20
作者 张振华 吴开超 《计算机应用研究》 CSCD 北大核心 2015年第7期2073-2077,2091,共6页
针对社交媒体数据的特点及其分析的挑战性,提出了一种基于实时计算框架Storm、批处理框架Hadoop和高效可水平扩展的No SQL数据库Mongo DB的分布式社交媒体数据处理方案,并依此指导实现基于Twitter流式数据的流感疫情可视化分析系统。实... 针对社交媒体数据的特点及其分析的挑战性,提出了一种基于实时计算框架Storm、批处理框架Hadoop和高效可水平扩展的No SQL数据库Mongo DB的分布式社交媒体数据处理方案,并依此指导实现基于Twitter流式数据的流感疫情可视化分析系统。实验证明,该分布式方案能较好支持Twitter流式数据的高效处理和储存,使之满足系统的性能需求。 展开更多
关键词 社交媒体 分布式处理框架 Twitter流式数据 流感疫情侦测 分布式计算
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部