期刊文献+
共找到955篇文章
< 1 2 48 >
每页显示 20 50 100
MapReduce框架下的Skyline计算 被引量:17
1
作者 张波良 周水庚 关佶红 《计算机科学与探索》 CSCD 2011年第5期385-397,共13页
由于Skyline查询广泛应用于多目标决策、数据可视化等领域,近年来成为数据库领域的一个研究热点。针对云计算环境,在MapReduce框架下设计并实现了Skyline算法。MapReduce是一个运行在大型集群上处理海量数据的并行计算框架,其主要思想... 由于Skyline查询广泛应用于多目标决策、数据可视化等领域,近年来成为数据库领域的一个研究热点。针对云计算环境,在MapReduce框架下设计并实现了Skyline算法。MapReduce是一个运行在大型集群上处理海量数据的并行计算框架,其主要思想是任务的分解与结果的汇总。基于不同的数据划分思想,实施了三种Skyline并行算法,分别是基于MapReduce的块嵌套循环算法(MapReduce based block-nested-loops,MR-BNL)、基于MapReduce的排序过滤算法(MapReduce based sort-filter-skyline,MR-SFS)以及基于MapReduce的位图算法(MapReduce based bitmap,MR-Bitmap),并针对这三种算法进行了系统的实验比较,得出了不同数据分布、维数、缓存等因素对算法性能的影响结果。 展开更多
关键词 SKYLINE计算 计算 mapreduce 数据划分
在线阅读 下载PDF
MapReduce框架下基于超平面投影划分的Skyline计算 被引量:10
2
作者 王淑艳 杨鑫 李克秋 《计算机研究与发展》 EI CSCD 北大核心 2014年第12期2702-2710,共9页
近年来,Skyline计算在决策应用中起着越来越重要的作用.针对单机处理的研究已较为成熟.现今大数据爆炸,Skyline计算面临着大数据处理的问题.MapReduce是一个并行模型,广泛应用于数据密集型应用处理中.众所周知,MapReduce处理要求任务是... 近年来,Skyline计算在决策应用中起着越来越重要的作用.针对单机处理的研究已较为成熟.现今大数据爆炸,Skyline计算面临着大数据处理的问题.MapReduce是一个并行模型,广泛应用于数据密集型应用处理中.众所周知,MapReduce处理要求任务是可分解的.Skyline计算在MapReduce上执行时,分解任务的方法有网格划分、基于角度的划分等.网格划分仅在数据维度较低时表现良好;基于角度的划分适用于低维和高维数据,但在划分前需要一个复杂并且费时的坐标转换过程.现采用一种与基于角度的划分类似的基于超平面投影的划分来分解数据集,这种划分适用于低维和高维数据,而且其在划分前的坐标转换较为简单.根据超平面投影的划分提出了一种在MapReduce上处理Skyline计算的算法MR-HPP(MapReduce with hyperplane-projections-based partition),并在该算法的过滤阶段提出了一种有效的过滤算法PSF(presorting filter).大量基于Hadoop平台的对比实验表明该算法的准确性、高效性和稳定性. 展开更多
关键词 SKYLINE计算 大数据 mapreduce 超平面投影划分 过滤
在线阅读 下载PDF
基于Hadoop框架的MapReduce计算模式的优化设计 被引量:12
3
作者 孙彦超 王兴芬 《计算机科学》 CSCD 北大核心 2014年第B11期333-336,共4页
对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究M... 对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究MapReduce对海量数据处理作业流程分析,提出了MapReduce分布式作业计算的优化策略,从而更好地提高了海量数据的处理效率。 展开更多
关键词 HADOOP 海量数据 mapreduce 分布式计算
在线阅读 下载PDF
钴基金属有机框架锂氧电池的正极计算分析
4
作者 冯振 陈呈哲 +3 位作者 任祥睿 王伟慧 贾丰春 郑先锋 《电池》 北大核心 2025年第4期706-711,共6页
聚焦钴基金属有机框架(MOF)在锂氧电池中的反应特性,选取Co-NH MOF和Co-O MOF材料进行结构优化、稳定性验证及电子性质分析,构建Li_(4)O_(4)的生长路径,研究锂氧电池充放电循环中的氧化还原反应机理。热力学自由能计算发现,对Co-NH MOF... 聚焦钴基金属有机框架(MOF)在锂氧电池中的反应特性,选取Co-NH MOF和Co-O MOF材料进行结构优化、稳定性验证及电子性质分析,构建Li_(4)O_(4)的生长路径,研究锂氧电池充放电循环中的氧化还原反应机理。热力学自由能计算发现,对Co-NH MOF而言,最大充电电位可达2.92 V,最小放电电位为5.44 V,总过电位为2.52 V;相比之下,Co-O MOF的最大充电电位稍高,为3.14 V,最小放电电位也提高至5.82 V,总过电位达到2.68 V。鉴于Co-NH MOF的总过电位比Co-O MOF的低,在作为锂氧电池正极材料时具有更好的性能。 展开更多
关键词 锂氧电池 钴基金属有机框架(MOF) 电位 结构优化 自由能计算
在线阅读 下载PDF
结合MapReduce框架的离群因子检测算法
5
作者 徐树奎 张煜 +2 位作者 李海霞 常海艳 张和伟 《火力与指挥控制》 CSCD 北大核心 2024年第11期128-132,共5页
离群因子检测目的是检测与大部分其他对象显著不同的数据对象。近年来,在某些分组计算应用场景下,数据量十分巨大,现有算法采用的欧氏距离计算开销不断增大,存在两个较有挑战性问题:1)组间数据对象数量十分巨大,计算耗时较长,开销较大;2... 离群因子检测目的是检测与大部分其他对象显著不同的数据对象。近年来,在某些分组计算应用场景下,数据量十分巨大,现有算法采用的欧氏距离计算开销不断增大,存在两个较有挑战性问题:1)组间数据对象数量十分巨大,计算耗时较长,开销较大;2)数据对象维度逐渐增多,算法时间开销大。将MapReduce计算框架与LOF算法相结合,解决上述问题。实验证明,引入了MapReduce分布式计算框架的改进算法可以有效提升大量数据中检测离群点的效率。 展开更多
关键词 离群因子检测 LOF算法 mapreduce框架 分布式计算
在线阅读 下载PDF
基于MapReduce框架的并行蚁群优化聚类算法 被引量:2
6
作者 凌海峰 刘超超 《计算机工程》 CAS CSCD 北大核心 2015年第8期168-173,共6页
传统蚁群优化聚类算法在处理大规模数据时存在内存不足,不能体现蚁群算法的并行优势,无法处理分布式数据等问题。为此,提出一种并行蚁群优化聚类算法。通过借鉴搜索空间复制和搜索空间分块的思想,解决大数据处理问题,逐行读取信息素和数... 传统蚁群优化聚类算法在处理大规模数据时存在内存不足,不能体现蚁群算法的并行优势,无法处理分布式数据等问题。为此,提出一种并行蚁群优化聚类算法。通过借鉴搜索空间复制和搜索空间分块的思想,解决大数据处理问题,逐行读取信息素和数据,避免当数据规模过大时,将信息素一次性读入而造成内存不足的风险。实验结果表明,该算法在处理大规模数据时具有较好的可扩展性和较高的加速比。 展开更多
关键词 大数据 mapreduce计算框架 聚类算法 蚁群 并行算法
在线阅读 下载PDF
MapReduce框架下基于R-树的k-近邻连接算法 被引量:60
7
作者 刘义 景宁 +1 位作者 陈荦 熊伟 《软件学报》 EI CSCD 北大核心 2013年第8期1836-1851,共16页
针对大规模空间数据的高性能k-近邻连接查询处理,研究了MapReduce框架下基于R-树索引的k-近邻连接查询处理.首先利用无依赖并行和串行同步计算的形式化定义抽象了MapReduce并行编程模型,基于此并行计算模型抽象,分别提出了R-树索引快速... 针对大规模空间数据的高性能k-近邻连接查询处理,研究了MapReduce框架下基于R-树索引的k-近邻连接查询处理.首先利用无依赖并行和串行同步计算的形式化定义抽象了MapReduce并行编程模型,基于此并行计算模型抽象,分别提出了R-树索引快速构建算法和基于R-树的并行k-近邻连接算法.在索引构建过程中,提出一种采样算法以快速确立空间划分函数,使得索引构建符合无依赖并行和串行同步计算抽象,在MapReduce框架下非常容易进行表达.在k-近邻连接查询过程中,基于构建的分布式R-树索引,引入k-近邻扩展框限定查询范围并进行数据划分,然后利用R-树索引进行k-近邻连接查询,提高了查询效率.从理论上分析了所提出算法的通信和计算代价.实验与分析结果表明,该算法在真实数据集的查询上具有良好的效率和可扩展性能,可以很好地支持大规模空间数据的k-近邻连接查询处理,具有良好的实用价值. 展开更多
关键词 计算 mapreduce k-近邻连接 空间查询 R-树
在线阅读 下载PDF
MapReduce:新型的分布式并行计算编程模型 被引量:113
8
作者 李成华 张新访 +1 位作者 金海 向文 《计算机工程与科学》 CSCD 北大核心 2011年第3期129-135,共7页
MapReduce是Google提出的分布式并行计算编程模型,用于大规模数据的并行处理。Ma-pReduce模型受函数式编程语言的启发,将大规模数据处理作业拆分成若干个可独立运行的Map任务,分配到不同的机器上去执行,生成某种格式的中间文件,再由若干... MapReduce是Google提出的分布式并行计算编程模型,用于大规模数据的并行处理。Ma-pReduce模型受函数式编程语言的启发,将大规模数据处理作业拆分成若干个可独立运行的Map任务,分配到不同的机器上去执行,生成某种格式的中间文件,再由若干个Reduce任务合并这些中间文件获得最后的输出文件。用户在使用MapReduce模型进行大规模数据处理时,可以将主要精力放在如何编写Map和Reduce函数上,其它并行计算中的复杂问题诸如分布式文件系统、工作调度、容错、机器间通信等都交给MapReduce系统处理,在很大程度上降低了整个编程难度。MapReduce日益成为云计算平台的主流编程模型。Apache Hadoop项目提供开源的MapReduce系统还有待进一步完善。 展开更多
关键词 mapreduce 并行计算编程模型 计算
在线阅读 下载PDF
基于MapReduce计算模型的气象资料处理调优试验 被引量:8
9
作者 杨润芝 沈文海 +4 位作者 肖卫青 胡开喜 杨昕 王颖 田伟 《应用气象学报》 CSCD 北大核心 2014年第5期618-628,共11页
云计算技术使用分布式的计算技术实现了并行计算的计算能力和计算效率,解决了单机服务器计算能力低的问题。基于长序列历史资料所计算得出的气候标准值对于气象领域实时业务、准实时业务及科学研究中均具有重要的意义。由于长序列历史... 云计算技术使用分布式的计算技术实现了并行计算的计算能力和计算效率,解决了单机服务器计算能力低的问题。基于长序列历史资料所计算得出的气候标准值对于气象领域实时业务、准实时业务及科学研究中均具有重要的意义。由于长序列历史资料数据量大、运算逻辑较复杂,在传统单节点计算平台上进行整编计算耗时非常长。该文基于Hadoop分布式计算框架搭建了集群模式的云计算平台,以长序列历史资料作为源数据,基于MapReduce计算模型实现了部分整编算法,提高计算时效。同时,由于数据源本身具有文件个数多、单个文件小等特点,对数据源存储形式及数据文件大小进行改造,分别利用SequenceFile方式及文本文件合并方式对同一种场景进行计算时效对比测试,分别测试了10个文件合并、100个文件合并两种情况,使时效性得到了更大程度的提升。 展开更多
关键词 mapreduce 计算 HADOOP 历史资料整编
在线阅读 下载PDF
基于hadoop云平台的智能电网MapReduce数据计算技术研究 被引量:10
10
作者 孟祥萍 周来 +1 位作者 王晖 纪秀 《电测与仪表》 北大核心 2015年第10期66-72,共7页
为应对未来智能电网海量数据信息带来的实时计算、分析等难题,文章首先在Hadoop云计算平台基础上搭建MapReduce框架,论证了其良好的数据计算性能,并通过实验发现MapReduce在进一步提高计算效率方面的诸多问题——任务调度不均、数据偏... 为应对未来智能电网海量数据信息带来的实时计算、分析等难题,文章首先在Hadoop云计算平台基础上搭建MapReduce框架,论证了其良好的数据计算性能,并通过实验发现MapReduce在进一步提高计算效率方面的诸多问题——任务调度不均、数据偏移、异构环境下适应性差等。随后考虑MapReduce原始调度方式的弊端并给出均衡数据映射、评估节点性能的MapReduce架构改进方案,并提出了动态匹配的调度算法(DMSA——Dynamic Matching Scheduling Algorithm),最后通过在仿真平台上的集群实验,减少了系统计算资源的消耗,缩短了运行时间,显著地提高了集群性能,同时增强了数据本地性,证明了该策略提高MapReduce计算效率的可行性。 展开更多
关键词 智能电网 数据计算 HADOOP mapreduce
在线阅读 下载PDF
MapReduce框架下的优化高维索引与KNN查询 被引量:7
11
作者 梁俊杰 李凤华 +1 位作者 刘琼妮 尹利 《电子学报》 EI CAS CSCD 北大核心 2016年第8期1873-1880,共8页
针对大规模高维数据近似查询效率低下的问题,利用MapReduce编程模型在大规模集群上的数据与任务的并行计算与处理优势,提出MapReduce框架下大规模高维数据索引及KNN查询方法(i PBM),重点突破MapReduce数据块(block)的优化划分与各数据... 针对大规模高维数据近似查询效率低下的问题,利用MapReduce编程模型在大规模集群上的数据与任务的并行计算与处理优势,提出MapReduce框架下大规模高维数据索引及KNN查询方法(i PBM),重点突破MapReduce数据块(block)的优化划分与各数据块对计算的共同贡献两大难题,利用两阶段数据划分策略并依据相关性与并行性原则将数据均匀分配到各数据块中,设计分布式的双层空间索引结构与并行KNN查询算法,检索时利用全局索引、局部索引与二维位码索引实现三层数据过滤,大幅缩小搜索范围并降低高维向量计算代价,实验表明i PBM对大规模高维数据的近似查询具有准确性、高效性和扩展性. 展开更多
关键词 计算 mapreduce KNN查询 高维索引
在线阅读 下载PDF
适于进化算法的迭代式MapReduce框架 被引量:16
12
作者 金伟健 王春枝 《计算机应用》 CSCD 北大核心 2013年第12期3591-3595,共5页
MapReduce模块化的编程大大降低了分布式算法的实现难度,但同时也限制了它的应用范围。介绍了MapReduce的基本结构及其实现迭代算法的缺陷,并针对基于MapReduce进化算法效率低下的问题,在对MapReduce的计算框架进行研究的基础上提出了... MapReduce模块化的编程大大降低了分布式算法的实现难度,但同时也限制了它的应用范围。介绍了MapReduce的基本结构及其实现迭代算法的缺陷,并针对基于MapReduce进化算法效率低下的问题,在对MapReduce的计算框架进行研究的基础上提出了一种适用于进化算法的迭代式MapReduce计算框架。描述了迭代式MapReduce计算框架的实现需求及其具体实现,提出并证明了异常机制的可行性,且在公有的Hadoop云计算平台上对提出的框架进行了验证。实验结果表明,基于迭代式MapReduce计算框架的并行遗传算法在算法的加速比上与基于MapReduce的并行遗传算法相比有较大的提高。 展开更多
关键词 计算 mapreduce 进化算法 迭代 HADOOP
在线阅读 下载PDF
MapReduce框架下基于抽样的分布式K-Means聚类算法 被引量:7
13
作者 杨杰明 吴启龙 +3 位作者 曲朝阳 杨烁 阚中峰 高冶 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2017年第1期109-115,共7页
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行... 提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性. 展开更多
关键词 抽样 mapreduce 分布式计算 K-MEANS聚类算法
在线阅读 下载PDF
基于Spark的MapReduce相似度计算效率优化 被引量:3
14
作者 廖彬 张陶 +2 位作者 于炯 国冰磊 刘炎 《计算机科学》 CSCD 北大核心 2017年第8期46-53,共8页
随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法... 随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;同时,通过参数调整、内存优化等方法进一步提高算法的执行效率。通过2组数据集分别在3组不同规模的集群上的实验表明,与MapReduce相比,在Spark平台下算法的执行效率平均提高了4.715倍,平均能耗效率只有Hadoop能耗的24.86%,能耗效率提升了4倍左右。 展开更多
关键词 相似度计算 mapreduce Spark优化 能耗优化
在线阅读 下载PDF
MapReduce框架下基于字符串波形的实体识别方法 被引量:2
15
作者 刘永楠 王宏志 高宏 《计算机科学与探索》 CSCD 2011年第8期730-739,共10页
在云计算平台下需要读取大量数据进行分析,数据中大量指代同一实体的重复数据给数据的分析和处理带来了困难。基于数据记录间的相似度进行聚类分析是目前实体识别的主要方法之一,但其耗时较长,而且不适用于云计算环境。给出了一种能够... 在云计算平台下需要读取大量数据进行分析,数据中大量指代同一实体的重复数据给数据的分析和处理带来了困难。基于数据记录间的相似度进行聚类分析是目前实体识别的主要方法之一,但其耗时较长,而且不适用于云计算环境。给出了一种能够很好地利用云计算特点的基于字符串波形的实体识别方法。该方法首先统计字符频率,按照字符频率的大小生成字符串的波形,再利用基于波形的过滤性质加快相似度的计算,进行基于相似度的聚类。理论分析和通过真实数据得出的实验结果都表明了这种方法的正确性和有效性。 展开更多
关键词 计算 mapreduce 字符串波形 实体识别
在线阅读 下载PDF
MapReduce框架下基于线性回归的短期负荷预测 被引量:2
16
作者 吴丽珍 孔纯 陈伟 《兰州理工大学学报》 CAS 北大核心 2021年第1期97-104,共8页
为解决负荷预测时因数据量大、数据种类繁多带来的计算速度慢、预测精度低等问题,在MapReduce并行编程框架下,提出基于小批量随机梯度下降法的线性回归模型.首先,为清理智能配电终端产生的重复数据和不良数据,提出利用自适应近邻排序算... 为解决负荷预测时因数据量大、数据种类繁多带来的计算速度慢、预测精度低等问题,在MapReduce并行编程框架下,提出基于小批量随机梯度下降法的线性回归模型.首先,为清理智能配电终端产生的重复数据和不良数据,提出利用自适应近邻排序算法清除重复记录的数据,并利用K均值聚类的方法剔除异常数据和记录不完整的数据,然后利用F检验法来检验该数据集能否线性表征负荷,再利用T检验法检验特性向量与负荷间线性关系的显著性,并剔除与负荷线性关系较弱的特性向量.根据以上方法建立短期负荷预测模型,并将其用在甘肃武威某区域配电网短期负荷预测中.结果表明,所提出的短期负荷预测模型的平均绝对百分误差为2.043%,均方根误差为3112.62.这些预测误差满足负荷预测的要求,极大地提高了负荷计算的速度,缩短了负荷预测时间. 展开更多
关键词 大数据分析 小批量随机梯度下降 短期负荷预测 分布式并行计算 mapreduce框架
在线阅读 下载PDF
全球视角下教育者人工智能素养框架:内容架构、实践示例和应用策略 被引量:11
17
作者 兰国帅 肖琪 +3 位作者 宋帆 杜水莲 丁琳琳 蔡帆帆 《开放教育研究》 北大核心 2025年第2期55-66,共12页
提升教育者的人工智能素养已成为主动适应国家数字教育强国建设的重要议题。然而,我国对人工智能素养的研究仍处于探索阶段,且主要关注学生或区域框架。教育者人工智能素养的研究在理论层面存在框架缺失、评价指标缺乏等问题,实践层面... 提升教育者的人工智能素养已成为主动适应国家数字教育强国建设的重要议题。然而,我国对人工智能素养的研究仍处于探索阶段,且主要关注学生或区域框架。教育者人工智能素养的研究在理论层面存在框架缺失、评价指标缺乏等问题,实践层面面临监管政策缺位、应用指南短缺、评估工具匮乏等挑战。美国数字承诺组织制定的《人工智能素养:理解、评估和使用新兴技术框架》可为我国构建本土化教育者人工智能素养框架、提升教育者人工智能素养提供参考。该框架定义了人工智能素养的内涵,涵盖人工智能素养六类教育实践、两条核心原则、三种参与模式和三种使用类型,并提供了高中人工智能素养框架应用的实践示例和中小学提升人工智能素养学习体验的五种应用策略。我国应深化人工智能素养教育实践,构建系统普适的教育者人工智能素养框架;完善人工智能应用评估体系,围绕人工智能核心原则推动新兴技术发展;建立动态的人工智能监管机制,促进数智化时代新质人才教育转型;提升教育主体的人工智能素养,共筑实践导向的人工智能教学新生态;树立育人导向智能教学理念,融合教育大模型助推教育强国建设。 展开更多
关键词 人工智能素养 人工智能素养框架 计算思维 数据素养 数字素养 数字公民
在线阅读 下载PDF
面向结构化篇级科技文献数据治理的高性能分布式计算框架研究 被引量:4
18
作者 范萌 常志军 +1 位作者 钱力 郭丹 《情报杂志》 CSSCI 北大核心 2024年第3期182-189,121,共9页
[研究目的]为解决MapReduce、Spark等主流分布式计算框架存在的研发周期长、技术门槛高等问题,提出了一种高灵活、低门槛的高性能计算框架ArticleCF。[研究方法]ArticleCF框架吸收了主流分布式技术的优点,同时深度结合科技文献数据治理... [研究目的]为解决MapReduce、Spark等主流分布式计算框架存在的研发周期长、技术门槛高等问题,提出了一种高灵活、低门槛的高性能计算框架ArticleCF。[研究方法]ArticleCF框架吸收了主流分布式技术的优点,同时深度结合科技文献数据治理的特性,设计了Master/Slave的软件架构,在功能上针对科技文献数据特点进行多个维度的设计,重点设计了分布式任务分发策略、并行计算策略以及故障转移机制。[研究结论]通过21个指标将ArticleCF与MapReduce、Spark、Storm进行对比实验,有效验证所提方法的可行性、有效性,ArticleCF能够满足海量结构化科技文献数据的多样化处理需求。 展开更多
关键词 科技文献 数据治理 分布式计算 结构化数据 在线可视化编程 高性能计算 mapreduce SPARK
在线阅读 下载PDF
一种混合计算环境下的MapReduce并行模型
19
作者 唐兵 贺海武 《计算机工程与科学》 CSCD 北大核心 2013年第11期87-93,共7页
提出了一种混合计算环境下的MapReduce并行计算模型,利用该模型可以将高性能集群节点与Internet或Intranet下异构的桌面PC组成混合计算环境,在该混合环境下运行MapReduce任务进行海量数据分析处理,充分利用了大规模桌面PC的计算与存储... 提出了一种混合计算环境下的MapReduce并行计算模型,利用该模型可以将高性能集群节点与Internet或Intranet下异构的桌面PC组成混合计算环境,在该混合环境下运行MapReduce任务进行海量数据分析处理,充分利用了大规模桌面PC的计算与存储能力。与Hadoop类似,该模型分为存储层和任务层两层。对该模型及其核心的HybridDFS分布式文件系统和MapReduce算法进行了简单描述,进而设计并实现了一个原型系统,并对其进行了性能测试。测试结果表明,提出的混合计算模型不仅能够实现可靠的MapReduce计算,而且降低了计算的成本开销,具有非常大的潜力。 展开更多
关键词 混合计算环境 mapreduce 志愿计算 容错 分布式文件系统
在线阅读 下载PDF
基于MapReduce框架下K-means的改进算法 被引量:11
20
作者 阴爱英 吴运兵 +1 位作者 朱敏琛 张莹 《计算机应用研究》 CSCD 北大核心 2018年第8期2295-2298,共4页
针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获... 针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。 展开更多
关键词 mapreduce框架 K-MEANS算法 数据挖掘 聚类分析
在线阅读 下载PDF
上一页 1 2 48 下一页 到第
使用帮助 返回顶部