期刊文献+
共找到101篇文章
< 1 2 6 >
每页显示 20 50 100
MapReduce框架下支持差分隐私保护的k-means聚类方法 被引量:24
1
作者 李洪成 吴晓平 陈燕 《通信学报》 EI CSCD 北大核心 2016年第2期124-130,共7页
针对传统隐私保护方法无法应对任意背景知识下恶意分析的问题,提出了分布式环境下满足差分隐私的k-means算法。该算法利用Map Reduce计算框架,由主任务控制k-means迭代执行;指派Mapper分任务独立并行计算各数据片中每条记录与聚类中心... 针对传统隐私保护方法无法应对任意背景知识下恶意分析的问题,提出了分布式环境下满足差分隐私的k-means算法。该算法利用Map Reduce计算框架,由主任务控制k-means迭代执行;指派Mapper分任务独立并行计算各数据片中每条记录与聚类中心的距离并标记其属于的聚类;指派Reducer分任务计算同一聚类中的记录数量num和属性向量之和sum,并利用Laplace机制产生的噪声扰动num和sum,进而实现隐私保护。根据差分隐私的组合特性,从理论角度证明整个算法满足ε-差分隐私保护。实验结果证明了该方法在提高隐私性和时效性的情况下,保证了较好的可用性。 展开更多
关键词 数据挖掘 K-均值聚类 map reduce 差分隐私保护 Laplace机制
在线阅读 下载PDF
基于MapReduce的并行抽样路径K-匿名隐私保护算法 被引量:3
2
作者 刘杰 沈微微 +1 位作者 戈军 王学军 《电子技术应用》 北大核心 2017年第9期132-136,共5页
K-匿名算法及现存K-匿名改进算法大多使用牺牲时间效率降低发布数据信息损失量的方法实现数据的匿名化,但随着数据量的急剧增长,传统的数据匿名化方法已不适用于对较大数据的处理。针对K-匿名算法在单机执行过程中产生大量频繁项集和重... K-匿名算法及现存K-匿名改进算法大多使用牺牲时间效率降低发布数据信息损失量的方法实现数据的匿名化,但随着数据量的急剧增长,传统的数据匿名化方法已不适用于对较大数据的处理。针对K-匿名算法在单机执行过程中产生大量频繁项集和重复搜索数据表的缺点,将MapReduce模型引入到抽样泛化路径K-匿名算法中对其进行优化。该方法兼具MapReduce及抽样泛化算法的优点,高效分布式匿名化数据集,降低发布数据集信息损失量,提高数据的可用性。实验结果表明:当数据量较大时,该优化算法在时间效率及数据精度方面有显著提高。 展开更多
关键词 map reduce K-匿名 抽样
在线阅读 下载PDF
基于R-树索引的Map-Reduce空间连接聚集操作 被引量:5
3
作者 刘义 陈荦 +1 位作者 景宁 熊伟 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第1期136-141,共6页
空间连接聚集是一种常用并且非常耗时的空间数据库操作,特别是在面对大规模空间数据集时,单机运行环境难以满足其对时空开销的需求,如何设计高效的面向云计算环境中的分布式空间连接聚集算法越来越受到人们关注。Map-Reduce作为云计算... 空间连接聚集是一种常用并且非常耗时的空间数据库操作,特别是在面对大规模空间数据集时,单机运行环境难以满足其对时空开销的需求,如何设计高效的面向云计算环境中的分布式空间连接聚集算法越来越受到人们关注。Map-Reduce作为云计算的核心模式受限于其扁平化的串行扫描操作模型,常被用来加速非索引的空间连接操作,现有工作尚无将Map-Reduce和R-树索引结合来处理空间连接聚集。因此,提出了基于R-树索引的Map-Reduce空间连接聚集算法(RSJA-MR)来更高效地返回连接聚集结果。提出一种分布式R-树索引结构以支持大规模空间数据的索引,RSJA-MR算法利用分布式R-树生成任务集,任务集的执行满足无依赖并行计算模式,很容易在Map-Reduce框架中进行表达。文中提出一种实时缓存策略以支持索引并发访问。实验结果表明:相比非索引的Map-Reduce连接聚集算法,在空间交叠连接聚集查询上,时间性能最少提升8%,在空间包含连接聚集查询上,时间性能最少提升近35%。 展开更多
关键词 云计算 map-reduce 空间连接聚集 R-
在线阅读 下载PDF
基于关联规则的网络信息内容安全事件发现及其Map-Reduce实现 被引量:13
4
作者 葛琳 季新生 江涛 《电子与信息学报》 EI CSCD 北大核心 2014年第8期1831-1837,共7页
针对网络中信息内容安全事件的发现问题,该文提出一种基于关联规则的多维度用户行为特征关联分析法;对于存在的虚警问题,提出了基于邦弗朗尼校正的检验准则;为满足在海量数据中的应用需求,提出了一种Map-Reduce框架下的分布式幂集Aprior... 针对网络中信息内容安全事件的发现问题,该文提出一种基于关联规则的多维度用户行为特征关联分析法;对于存在的虚警问题,提出了基于邦弗朗尼校正的检验准则;为满足在海量数据中的应用需求,提出了一种Map-Reduce框架下的分布式幂集Apriori算法。实验结果表明,该文提出的方法及相应算法,并行运算能力强,在低虚警率和漏检率的情况下,具有较好的检测率,且运行时间短,收敛速度快。 展开更多
关键词 网络安全 关联规则 信息内容安全事件 APRIORI算法 邦弗朗尼校正 map-reduce
在线阅读 下载PDF
Map-Reduce应用于并行同步联合聚类学习的研究
5
作者 刘春茂 王超 《科技通报》 北大核心 2013年第10期82-84,共3页
许多数据挖掘应用中涉及的预测模型庞大并且数据集复杂。这样的应用程序急需创新的算法。该算法不仅需要有效的预测精度,而且需要有效的运行于分布式计算系统中并在合理的时间内产生结果。本文重点介绍多关系数据的预测模型,首先举例说... 许多数据挖掘应用中涉及的预测模型庞大并且数据集复杂。这样的应用程序急需创新的算法。该算法不仅需要有效的预测精度,而且需要有效的运行于分布式计算系统中并在合理的时间内产生结果。本文重点介绍多关系数据的预测模型,首先举例说明设计这些数据的应用模型,然后描述一个基于并行同步聚类(SCOAL)的总体框架,该框架适用于分而治之的方法进行数据分析。最终将论证基于并行同步聚类的框架在应用Map-Reduce的情况下可以有效的实现并行化。 展开更多
关键词 分布式数据挖掘 map—Redu(燃预测模型
在线阅读 下载PDF
探究基于MapReduce的top-k查询算法
6
作者 李海昆 《信息通信》 2015年第9期12-13,共2页
借助不断发展的互联网技术,各种数据在数量上与类型上呈现出爆炸性增长的态势。原有的数据处理已经不能满足现在的数据查询,因此在发展与现实需要的基础上出现了基于Map Reduce的top-k查询算法,这种建立在top-k查询方式的基础上联合Map ... 借助不断发展的互联网技术,各种数据在数量上与类型上呈现出爆炸性增长的态势。原有的数据处理已经不能满足现在的数据查询,因此在发展与现实需要的基础上出现了基于Map Reduce的top-k查询算法,这种建立在top-k查询方式的基础上联合Map Reduce可以大大提高查询效率。文章就以基于Map Reduce的top-k查询算法为研究重点进行展开论述,在简单阐述top-k查询算法、Map Reduce的基础上分析两者结合之后的性能。 展开更多
关键词 map reduce TOP-K 查询算法
在线阅读 下载PDF
基于Map/Reduce的海量视频图像检索系统设计 被引量:7
7
作者 杨曼 何鹏 +1 位作者 齐怀琴 安井然 《电视技术》 北大核心 2015年第4期33-36,共4页
齐齐哈尔市公安视频监控系统中每天所产生的大量视频数据对视频图像的检索、管理及安全产生了迫切的需求,视频图像的检索存在两个急需解决的问题,一是视频检索的准确度问题,二是检索效率的问题。面对海量的视频数据库,提出了基于Map/Red... 齐齐哈尔市公安视频监控系统中每天所产生的大量视频数据对视频图像的检索、管理及安全产生了迫切的需求,视频图像的检索存在两个急需解决的问题,一是视频检索的准确度问题,二是检索效率的问题。面对海量的视频数据库,提出了基于Map/Reduce分布式计算模型与关键帧算法结合的方法,既提高了检索效率,又提高了检索准确率。 展开更多
关键词 map/reduce 关键帧 视频检索
在线阅读 下载PDF
基于Map/Reduce的朴素贝叶斯数据分类算法研究 被引量:12
8
作者 崔良中 郭福亮 宋建新 《海军工程大学学报》 CAS 北大核心 2019年第4期7-10,共4页
针对目前机器学习研究领域中的数据分类问题,选择朴素贝叶斯算法作为研究对象。首先,通过对样本数据特征属性的权重进行加权调整,提高算法处理的准确率;然后,改进朴素贝叶斯算法分类器模型,使其能够利用Map/Reduce并行编程模型,采用多... 针对目前机器学习研究领域中的数据分类问题,选择朴素贝叶斯算法作为研究对象。首先,通过对样本数据特征属性的权重进行加权调整,提高算法处理的准确率;然后,改进朴素贝叶斯算法分类器模型,使其能够利用Map/Reduce并行编程模型,采用多计算资源节点并行处理,进一步提高处理速度。最后,对UCI dataset数据库进行实验验证,结果表明:改进后的算法在海量数据分类处理中具有更好的性能表现。 展开更多
关键词 map/reduce并行编程模型 数据分类算法 贝叶斯算法 海量数据处理
在线阅读 下载PDF
温度感知的MapReduce节能任务调度策略 被引量:8
9
作者 廖彬 张陶 +3 位作者 于炯 刘继 尹路通 郭刚 《通信学报》 EI CSCD 北大核心 2016年第1期61-75,共15页
现有的FIFO、Fair、Capacity、LATE及Deadline Constraint等Map Reduce任务调度器的主要区别在于队列与作业选择策略的不同,而任务选择策略基本相同,都是将数据的本地性(data-locality)作为选择的主要因素,忽略了对Task Tracker当前温... 现有的FIFO、Fair、Capacity、LATE及Deadline Constraint等Map Reduce任务调度器的主要区别在于队列与作业选择策略的不同,而任务选择策略基本相同,都是将数据的本地性(data-locality)作为选择的主要因素,忽略了对Task Tracker当前温度状态的考虑。实验表明,当Task Tracker处于高温状态时,一方面使CPU利用率变高,导致节点能耗增大,任务处理速度下降,导致任务完成时间增加;另一方面,易发的宕机现象将直接导致任务的失败,推测执行(speculative execution)机制容易使运行时任务被迫中止。继而提出温度感知的节能任务调度策略,将节点CPU温度纳入任务调度的决策信息,以避免少数高温任务执行节点对作业整体进度的影响。实验结果表明,算法能够避免任务分配到高温节点,从而有效地缩短作业完成时间,减小作业执行能耗,提高系统稳定性。 展开更多
关键词 绿色计算 mapreduce 任务调度 温度感知
在线阅读 下载PDF
基于MapReduce的SimRank算法在图聚类中的应用 被引量:3
10
作者 冷泳林 鲁富宇 《电子设计工程》 2015年第6期9-11,15,共4页
由Jeh和Widom提出的Sim Rank算法是一种普适"结构相似度"计算模型。由于Sim Rank算法采用迭代方式计算图节点间相似性,因此时间复杂度和空间复杂度都非常高。随着数据量的激增,单机运算能力不能满足大规模数据的计算要求。本... 由Jeh和Widom提出的Sim Rank算法是一种普适"结构相似度"计算模型。由于Sim Rank算法采用迭代方式计算图节点间相似性,因此时间复杂度和空间复杂度都非常高。随着数据量的激增,单机运算能力不能满足大规模数据的计算要求。本文提出了基于Map Reduce计算模型的分布式Sim Rank算法,利用该算法对RDF图进行相似度度量,然后利用分布式的AP聚类算法对图节点进行聚类分析。实验结果表明,该方法能够高效的完成图节点的相似度度量,实现图的有效聚类。 展开更多
关键词 SIM RANK map reduce RDF AP聚类
在线阅读 下载PDF
一种基于MapReduce的知识聚类与统计机制 被引量:1
11
作者 徐小龙 李永萍 《电子与信息学报》 EI CSCD 北大核心 2016年第1期202-208,共7页
网络文献知识库中的海量资源及其分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航和知识过载问题。该文提出一种基于Map Reduce的知识聚类与统计机制:首先,提出基于Map Reduce的共现矩阵构建算法MR-Co Matrix;其次,将共... 网络文献知识库中的海量资源及其分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航和知识过载问题。该文提出一种基于Map Reduce的知识聚类与统计机制:首先,提出基于Map Reduce的共现矩阵构建算法MR-Co Matrix;其次,将共现矩阵与相似度系数结合构建相似度矩阵;然后,通过Z Scores对相似度矩阵进行标准化;最后,使用离差平方和法(Ward,s method)对相似度矩阵进行聚类,生成树状的知识聚类谱系图;基于聚类结果,提出基于Map Reduce的知识文献统计算法MR-Statistics,对每个分类的知识属性进行统计。实验结果表明:将MR-Co Matrix和MR-Statistics方法应用于网络文献知识库进行知识聚类和统计,达到较理想的聚类精度和计算效率,实现了细粒度知识聚类和多维统计,同时减少了时间开销。 展开更多
关键词 数据挖掘 聚类 知识 共现矩阵 统计 map reduce
在线阅读 下载PDF
云环境下基于MapReduce的用户聚类研究与实现 被引量:7
12
作者 樊同科 《电子设计工程》 2016年第10期35-37,41,共4页
基于大数据背景下海量数据人们无法理解,聚类效率低下等问题,采用MapReduce编程模型将Canopy聚类算法和K-means聚类算法在云环境中相结合,使之能够充分利用Hadoop集群的计算和存储能力。以淘宝网上海量的购买用户聚类作为应用背景,通过... 基于大数据背景下海量数据人们无法理解,聚类效率低下等问题,采用MapReduce编程模型将Canopy聚类算法和K-means聚类算法在云环境中相结合,使之能够充分利用Hadoop集群的计算和存储能力。以淘宝网上海量的购买用户聚类作为应用背景,通过使用Hadoop平台的数据挖掘组件Mahout对用户聚类进行了实例研究,并给出了使用Mahout进行挖掘的一般步骤。结果表明,基于MapReduce的聚类算法在大规模数据集上具有较好的聚类质量和运行速度。 展开更多
关键词 HADOOP mapreduce 聚类算法 Mahout
在线阅读 下载PDF
MapReduce框架下森林分类的并行模拟退火算法
13
作者 于慧伶 崔姗姗 范德林 《西部林业科学》 CAS 2016年第1期25-30,共6页
针对传统模拟退火算法存在收敛速度慢、执行时间长的缺点,本研究提出了一种并行在线的模拟退火算法及其优化策略,并将其运用到森林景观分类中。研究人员运用多马尔科夫链异步通信和同步通信两种策略实现模拟退火算法的并行处理。在Solo... 针对传统模拟退火算法存在收敛速度慢、执行时间长的缺点,本研究提出了一种并行在线的模拟退火算法及其优化策略,并将其运用到森林景观分类中。研究人员运用多马尔科夫链异步通信和同步通信两种策略实现模拟退火算法的并行处理。在Solomon提供的标准测试集上对并行算法性能进行测试和分析,得出并行算法时线程间的通信可以提高目标解的搜索效率。与此同时,同步通信策略目标解的搜索效率优于异步通信策略,但是会增加一些通信负载的成本。通过大量实验得出森林分类经营代价与线程沟通周期、链长和线程数目的关系,从而节省景观分类的时间代价,进而解决一些NP难题。 展开更多
关键词 森林分类 模拟退火算法 马尔科夫链 异步通信 同步通信 map reduce框架 HADOOP
在线阅读 下载PDF
基于反馈调度的MapReduce负载均衡分区算法研究 被引量:1
14
作者 刘寒梅 韩宏莹 《信息通信》 2015年第10期41-42,共2页
Map Reduce是一种处理大规模数据的并行计算模型,针对传统模型中reduce阶段各结点负载不均衡的问题,提出reduce阶段负载均衡分区算法。算法将map阶段产生的中间数据划分为更多的分区,减少了每个分区的工作量,引入了反馈机制来进一步提... Map Reduce是一种处理大规模数据的并行计算模型,针对传统模型中reduce阶段各结点负载不均衡的问题,提出reduce阶段负载均衡分区算法。算法将map阶段产生的中间数据划分为更多的分区,减少了每个分区的工作量,引入了反馈机制来进一步提高调度策略的性能,每次给reducetask分配都是基于反馈信息选择最优的分区,reducetask完成工作之后会继续获得新的分区,直到所有的分区都被分配完毕,实现了动态调节各reducetask的负载。通过重写Hadoop平台内核实现了算法并进行了实验分析,结果表明,该算法在不影响Map Reduce模型的情况下显著地缩短了任务的处理时间。 展开更多
关键词 map reduce分区算法 负载均衡 反馈机制 HADOOP
在线阅读 下载PDF
MapReduce在科学计算中的研究与改进
15
作者 刘锋 周飞凤 《无线互联科技》 2013年第3期113-114,共2页
针对Haloop模型不能实现各个计算节点的通信和Twister模型出现大量的数据重叠,提出了以下的改进:在Hadoop模型中增加各个节点的通信机制和缓冲机制。具体的实施如下:首先,在Map函数中引入了一个参数M来区分科学计算中的四类算法;其次,... 针对Haloop模型不能实现各个计算节点的通信和Twister模型出现大量的数据重叠,提出了以下的改进:在Hadoop模型中增加各个节点的通信机制和缓冲机制。具体的实施如下:首先,在Map函数中引入了一个参数M来区分科学计算中的四类算法;其次,并将经常用的函数封装成适配器;再者,静态数据声明成保护类型并存放在缓冲池中。在文章的最后利用Hadoop做的相关实验,实验表明:随着计算节点数的增多,其加速比是越来越大的。 展开更多
关键词 mapreduce技术 科学计算 map函数 reduce函数
在线阅读 下载PDF
基于改进的Map/Reduce及模式空间划分的数据挖掘 被引量:4
16
作者 刘骞 陈明 《微电子学与计算机》 CSCD 北大核心 2011年第8期140-142,共3页
为通过Map/Reduce基于键/值对以处理数据集与模式集的多对多的对应关系的方式实现数据挖掘,解决在较复杂的类型的模式的挖掘中存在的由组合爆炸导致的模式集过大的问题,提出了通过模式空间划分实现将处理数据集与模式集的对应关系的问... 为通过Map/Reduce基于键/值对以处理数据集与模式集的多对多的对应关系的方式实现数据挖掘,解决在较复杂的类型的模式的挖掘中存在的由组合爆炸导致的模式集过大的问题,提出了通过模式空间划分实现将处理数据集与模式集的对应关系的问题转化为处理数据集与子模式集的集合的对应关系的问题的方法,并对Map/Reduce集群的调度机制及组织、处理键/值对的方式进行了改进,增强了Map/Reduce执行模式挖掘任务的能力.在Map/Reduce集群上采用该思路实现某些较复杂类型的模式的挖掘算法时的并行度高于Map/Reduce化的传统算法. 展开更多
关键词 改进的map/reduce 集群 多对多映射 模式空间划分 模式编码 数据挖掘
在线阅读 下载PDF
基于Map/Reduce集群上的模式空间划分的序列模式挖掘 被引量:1
17
作者 刘骞 陈明 《微电子学与计算机》 CSCD 北大核心 2012年第9期149-151,156,共4页
通过模式空间划分将基于Map/Reduce处理数据集与候选序列模式集的多对多的对应关系的问题转化为处理数据集与以频繁1-序列为基的各子模式空间的多对多的对应关系问题,大大缩小了中间结果键值对集合的规模,避免了由于组合爆炸导致的单一... 通过模式空间划分将基于Map/Reduce处理数据集与候选序列模式集的多对多的对应关系的问题转化为处理数据集与以频繁1-序列为基的各子模式空间的多对多的对应关系问题,大大缩小了中间结果键值对集合的规模,避免了由于组合爆炸导致的单一Map节点的瓶颈问题.通过三轮的Map/Reduce任务,实现了模式空间和过滤规则的建立,并在此基础上实现了各子模式空间上独立地进行序列模式的挖掘.通过充分利用整个模式空间的全局特征及各子模式空间的个性特征,设计了优化的非递归挖掘算法,减少了前缀投影库构造次数及对构造的投影库的扫描次数,从而提高了挖掘阶段的效率. 展开更多
关键词 map/reduce模式空间划分 序列模式挖掘 云计算
在线阅读 下载PDF
基于Hadoop平台的MapReduce的技术研究 被引量:1
18
作者 王鑫 《信息通信》 2015年第6期5-6,共2页
随着移动互联网、物联网及云计算技术的迅速发展,大数据应运而生,给海量信息处理技术带来了全新的挑战。文章重点讲述了大数据的关键技术之一——Map Reduce,对Map Reduce的国内外发展现状,对Map Reduce的技术特征、架构设计、工作流程... 随着移动互联网、物联网及云计算技术的迅速发展,大数据应运而生,给海量信息处理技术带来了全新的挑战。文章重点讲述了大数据的关键技术之一——Map Reduce,对Map Reduce的国内外发展现状,对Map Reduce的技术特征、架构设计、工作流程和主要应用进行了介绍与分析,最后还对Map Reduce未来的发展趋势进行了展望。 展开更多
关键词 大数据 海量信息 map reduce
在线阅读 下载PDF
基于Map/Reduce的并行异常报文生成引擎系统的设计与实现
19
作者 郎轶 《数字技术与应用》 2016年第3期172-172,共1页
Hadoop Map/reduce是一种基于并行处理分布式架构的软件框架。本文在开源软件Hadoop Map/reduce的基础之上,将传统的异常报文串行生成算法并行化。Map/reduce框架是展开容错处理和保持负载均衡的一种框架。根据网络协议分层透明设计的原... Hadoop Map/reduce是一种基于并行处理分布式架构的软件框架。本文在开源软件Hadoop Map/reduce的基础之上,将传统的异常报文串行生成算法并行化。Map/reduce框架是展开容错处理和保持负载均衡的一种框架。根据网络协议分层透明设计的原理,将报文采用类Wireshark模块进行解析成字段,设计并实现了并行的异常报文生成算法。 展开更多
关键词 map/reduce 并行计算 异常报文
在线阅读 下载PDF
MapReduce Scheduler by Characterizing Performance Interference
20
作者 Lei Yang Yu Dai Bin Zhang 《China Communications》 SCIE CSCD 2016年第10期253-262,共10页
Recently, virtualization has become more and more important in the cloud computing to support efficient flexible resource provisioning. However, performance interference among virtual machines(VMs) has become a challe... Recently, virtualization has become more and more important in the cloud computing to support efficient flexible resource provisioning. However, performance interference among virtual machines(VMs) has become a challenge which may affect the effectiveness of resource provisioning. In a virtual cluster which runs the Map Reduce applications, the performance interference can also affect the performance of the Map and Reduce tasks and thus cause a performance degradation of the Map Reduce job. Accordingly, this paper presents a Map Reduce scheduling framework to mitigate this performance degradation caused by the performance interference. The framework includes a performance interference prediction module and an interference aware scheduling algorithm. To verify its effectiveness, we have done a set of experiments on a 24-node virtual Map Reduce cluster. The experiments illustrate that the proposed framework can achieve a performance improvement in the virtualized environment compared with other Map Reduce schedulers. 展开更多
关键词 map reduce SCHEDULER performance interference
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部