期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
基于Spark框架的RDD数据块增益感知缓存替换策略
1
作者 贺莎 唐小勇 《计算机科学与探索》 北大核心 2025年第9期2548-2558,共11页
缓存替换是Spark内存优化的一个研究热点和难点。然而,应用程序特征的多样性、内存资源的有限性以及缓存替换的不确定性对实现高系统执行性能构成了挑战。低效的缓存替换策略可能会导致不同的性能问题,如应用程序执行时间长,资源利用率... 缓存替换是Spark内存优化的一个研究热点和难点。然而,应用程序特征的多样性、内存资源的有限性以及缓存替换的不确定性对实现高系统执行性能构成了挑战。低效的缓存替换策略可能会导致不同的性能问题,如应用程序执行时间长,资源利用率低等。基于此,提出一种面向Spark大数据处理框架的弹性分布式数据集(RDD)数据块增益感知缓存替换策略。该策略建立了综合考虑数据块分区大小、引用计数、计算成本和资源成本影响因子的缓存价值评估模型,用于准确评估数据块的缓存价值。提出缓存增益问题模型,以形式化描述缓存管理的优化问题。提出RDD数据块增益感知缓存替换算法(CRCA),以确保内存中的RDD数据块带来的缓存增益最大化。为验证CRCA算法的有效性,基于Spark构建了一个真实的大数据集群实验平台,并采用HiBench基准测试工具中的多样化负载进行实验评估。结果表明,提出的缓存替换算法在任务执行时间和CPU利用率方面优于现有的最近最少使用算法(LRU)和最小分区权重算法(LPW)。 展开更多
关键词 rdd数据块 缓存增益 缓存替换 Spark框架
在线阅读 下载PDF
两阶段RDD方法无回答的影响及其改进
2
作者 李锋 《统计与决策》 CSSCI 北大核心 2018年第16期29-31,共3页
计算机辅助电话调查应用日益普遍,在住户调查中为了提高住户的比例,发展了Mitofsky-Waks-berg两阶段RDD方法。文章分析了在无回答率较高,且初级单元间无回答率差异较大时引起的偏倚,分析偏倚的特点,并且提出一种基于随机组方法的抽样设... 计算机辅助电话调查应用日益普遍,在住户调查中为了提高住户的比例,发展了Mitofsky-Waks-berg两阶段RDD方法。文章分析了在无回答率较高,且初级单元间无回答率差异较大时引起的偏倚,分析偏倚的特点,并且提出一种基于随机组方法的抽样设计,旨在解决计算机辅助调查中的无回答问题及地区间无回答率差异,并且能够得到性能良好的估计量。 展开更多
关键词 Mitofsky-Waksberg两阶段rdd方法 无回答 随机组 抽样设计
在线阅读 下载PDF
基于RDD关键度的Spark检查点管理策略 被引量:6
3
作者 英昌甜 于炯 +3 位作者 卞琛 王维庆 鲁亮 钱育蓉 《计算机研究与发展》 EI CSCD 北大核心 2017年第12期2849-2863,共15页
Spark默认容错机制由程序员设置检查点,并利用弹性分布式数据集(resilient distributed dataset,RDD)的血统(lineage)进行计算.在应用程序复杂度高、迭代次数多以及数据量较大时,恢复过程需要耗费大量的计算开销.同时,在执行恢复任务时... Spark默认容错机制由程序员设置检查点,并利用弹性分布式数据集(resilient distributed dataset,RDD)的血统(lineage)进行计算.在应用程序复杂度高、迭代次数多以及数据量较大时,恢复过程需要耗费大量的计算开销.同时,在执行恢复任务时,仅考虑数据本地性选择节点,并未考虑节点的计算能力,这都会导致恢复时间增加,无法最大化发挥集群的性能.因此,在建立Spark执行模型、检查点模型和RDD关键度模型的基础上,提出一种基于关键度的检查点管理(criticality checkpoint management,CCM)策略,其中包括检查点设置算法、失效恢复算法和清理算法.其中检查点设置算法通过分析作业中RDD的属性以及对作业恢复时间的影响,选择关键度大的RDD作为检查点存储;恢复算法根据各节点的计算能力做出决策,选择合适的节点执行恢复任务;清理算法在磁盘空间不足时,清除关键度较低的检查点.实验结果表明:该策略在略增加执行时间的情况下,能够选择有备份价值的RDD作为检查点,在节点失效时能够有效地降低恢复开销,提高节点的磁盘有效利用率. 展开更多
关键词 内存计算 SPARK 检查点管理 失效恢复 rdd属性
在线阅读 下载PDF
并行计算框架Spark中一种新的RDD分区权重缓存替换算法 被引量:9
4
作者 刘恒 谭良 《小型微型计算机系统》 CSCD 北大核心 2018年第10期2279-2284,共6页
并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重... 并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重值计算不准确,考虑因素不全面,度量方法不够细致,影响了缓存的命中率和作业执行的效率.提出一种新的RDD分区的权重缓存替换算法——WCSRP.为了使RDD分区权重值的计算更加准确,WCSRP不仅综合考虑RDD的计算代价、使用次数、分区的大小和生命周期四大因素对权重的影响,而且还增加考虑了Task执行时Locality Level这个因素,并对以上五个因素进行了量化计算.实验结果表明WCSRP算法让RDD分区权重值的计算更准确,提高了内存资源利用率和作业执行效率. 展开更多
关键词 SPARK 弹性分布式数据集 缓存替换策略 并行计算 rdd缓存
在线阅读 下载PDF
RDD危害与防范 被引量:4
5
作者 王善强 毛用泽 +1 位作者 张文仲 邹传纯 《核电子学与探测技术》 CAS CSCD 北大核心 2008年第2期440-450,共11页
本文分析了RDD恐怖事件威胁存在的现实可能性和危害,并结合几个具体地点上模拟RDD场景造成的后果,论述了RDD防范和后果管理的重要性以及在开展后果评估时应考虑的因素。
关键词 核与辐射恐怖 核材料 rdd 放射性 脏弹
在线阅读 下载PDF
基于RDDs的分布式聚类集成算法 被引量:2
6
作者 王韬 杨燕 +1 位作者 滕飞 冯晨菲 《小型微型计算机系统》 CSCD 北大核心 2016年第7期1434-1439,共6页
在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resil... 在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDDs)的分布式聚类集成算法(Dis CE).该算法首先设计一个基于RDDs的分布式邻接表,解决关联数据在分布式环境中的表示和存储;其次利用分布式的共识函数模型,综合几个海量基聚类结果并用分布式邻接表表示;最后运用改进的分布式近邻传播算法(MDAP),划分分布式邻;接表为最终的聚类结果.实验结果表明,新提出的算法对数据规模有很好的适应性,在有效提高聚类结果质量的同时可大幅减少运行时间. 展开更多
关键词 聚类集成 分布式计算 弹性分布式数据集
在线阅读 下载PDF
Spark框架中RDD缓存替换策略优化 被引量:9
7
作者 陈天宇 张龙信 +1 位作者 李肯立 周立前 《小型微型计算机系统》 CSCD 北大核心 2019年第6期1248-1253,共6页
Spark作为分布式计算引擎,其基于内存的抽象概念弹性分布式数据集(RDD)产生了高效的数据处理能力.实际的生产环境中,任务在执行的过程中经常由于内存空间不足需要替换掉部分RDD. Spark默认的最近最少使用替换算法(LRU)仅考虑最近是否使... Spark作为分布式计算引擎,其基于内存的抽象概念弹性分布式数据集(RDD)产生了高效的数据处理能力.实际的生产环境中,任务在执行的过程中经常由于内存空间不足需要替换掉部分RDD. Spark默认的最近最少使用替换算法(LRU)仅考虑最近是否使用RDD分片而忽略其它因素.基于RDD权重值改进后的WR缓存替换策略侧重于RDD的权值替换,在此研究基础上,本文提出了缓存权重替换(CWS)策略,优化选择策略,并在替换阶段考虑了历史访问次数与计算成本.本文的实验使用斯坦福大学提供的公开网络分析项目进行测试,实验结果表明CWS策略在充足内存条件下处理较小数据的平均执行时间高于WR算法2. 4%,内存占用率相比降低36%. 展开更多
关键词 缓存策略 SPARK 弹性分布式数据集 内存计算
在线阅读 下载PDF
血清胆汁酸与胃癌之间的因果关系基于断点回归设计的证据
8
作者 王燕 李嵩博 韩者艺 《细胞与分子免疫学杂志》 北大核心 2025年第6期531-535,共5页
目的本研究旨在使用断点回归设计(RDD)探索血清总胆汁酸(TBA)和胃癌(GC)之间的因果关系。方法1244例GC患者和1333例健康对照者被纳入研究,收集两组患者的一般情况、胆囊病史、肿瘤标志物和血清TBA。采用logistic回归构建风险预测模型,获... 目的本研究旨在使用断点回归设计(RDD)探索血清总胆汁酸(TBA)和胃癌(GC)之间的因果关系。方法1244例GC患者和1333例健康对照者被纳入研究,收集两组患者的一般情况、胆囊病史、肿瘤标志物和血清TBA。采用logistic回归构建风险预测模型,获得GC的风险。以血清TBA为分组变量,个体患GC的风险为结果变量进行RDD。结果GC风险预测模型中的预测因素是年龄、性别、身体质量指数(BMI)、血清TBA、癌胚抗原(CEA)、甲胎蛋白(AFP)、糖类抗原199(CA199)和CA125。血清TBA是GC的独立危险因素(OR=1.054,95%CI:1.030~1.079)。RDD结果显示,当血清TBA=8μmol/L时,患GC的概率急剧增加23.7%。有效性和稳健性检验后,断点仍具有统计学意义。结论血清TBA和GC之间存在正因果关系,当血清TBA=8μmol/L时,个体患GC的风险急剧增加。 展开更多
关键词 血清总胆汁酸 胃癌(GC) 断点回归设计(rdd)
在线阅读 下载PDF
基于Spark的大规模文本k-means并行聚类算法 被引量:14
9
作者 刘鹏 滕家雨 +1 位作者 丁恩杰 孟磊 《中文信息学报》 CSCD 北大核心 2017年第4期145-153,共9页
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统... 互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。 展开更多
关键词 K-MEANS 并行化 文本聚类 SPARK rdd Hadoop MAPREDUCE
在线阅读 下载PDF
基于Spark的极限学习机算法并行化研究 被引量:6
10
作者 刘鹏 王学奎 +2 位作者 黄宜华 孟磊 丁恩杰 《计算机科学》 CSCD 北大核心 2017年第12期33-37,共5页
极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进... 极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进行了设计与实现。为方便性能比较,同时实现了基于Hadoop MapReduce的极限学习机并行化算法。实验结果表明,基于Spark的极限学习机并行化算法相比于Hadoop MapReduce版本的运行时间明显缩短,而且若处理数据量越大,Spark在效率方面的优势就越明显。 展开更多
关键词 限学习机 并行化 SPARK rdd Hadoop MAPREDUCE
在线阅读 下载PDF
Spark内存管理及缓存策略研究 被引量:13
11
作者 孟红涛 余松平 +1 位作者 刘芳 肖侬 《计算机科学》 CSCD 北大核心 2017年第6期31-35,74,共6页
Spark系统是基于Map-Reduce模型的大数据处理框架。Spark能够充分利用集群的内存,从而加快数据的处理速度。Spark按照功能把内存分成不同的区域:Shuffle Memory和Storage Memory,Unroll Memory,不同的区域有不同的使用特点。首先,测试... Spark系统是基于Map-Reduce模型的大数据处理框架。Spark能够充分利用集群的内存,从而加快数据的处理速度。Spark按照功能把内存分成不同的区域:Shuffle Memory和Storage Memory,Unroll Memory,不同的区域有不同的使用特点。首先,测试并分析了Shuffle Memory和Storage Memory的使用特点。RDD是Spark系统最重要的抽象,能够缓存在集群的内存中;在内存不足时,需要淘汰部分RDD分区。接着,提出了一种新的RDD分布式权值缓存策略,通过RDD分区的存储时间、大小、使用次数等来分析RDD分区的权值,并根据RDD的分布式特征对需要淘汰的RDD分区进行选择。最后,测试和分析了多种缓存策略的性能。 展开更多
关键词 大数据 Spark内存管理 rdd缓存 缓存策略
在线阅读 下载PDF
断点回归设计方法应用的研究综述 被引量:50
12
作者 谢谦 薛仙玲 付明卫 《经济与管理评论》 CSSCI 北大核心 2019年第2期69-79,共11页
近年来,国内经济学界颇为关注断点回归设计(RDD)方法,运用RDD的文章日益增多。首先概述Lee和Lemieux (2010)提出的运用RDD的规范,然后基于2011-2017年五大英文顶级经济学期刊发表的RDD应用研究论文,归纳出运用RDD的三个新动作:新的最优... 近年来,国内经济学界颇为关注断点回归设计(RDD)方法,运用RDD的文章日益增多。首先概述Lee和Lemieux (2010)提出的运用RDD的规范,然后基于2011-2017年五大英文顶级经济学期刊发表的RDD应用研究论文,归纳出运用RDD的三个新动作:新的最优带宽确定方法、甜甜圈RDD和参数估计中最高只能使用二次多项式。以国外的RDD用法为参照,我们发现,国内熟悉Lee和Lemieux (2010)提出的规范,也在吸收国外文献中出现的新动作,但运用RDD时存在如下几个突出问题:不做适用性检验、不重视描述统计图和不交代清楚非参数估计的关键细节。建议国内运用RDD时需要增加如下动作:非参数估计应该同时尝试CV、IK和CCT三种带宽确定方法;在配置变量存在堆积现象或被操纵的可能时,使用甜甜圈RDD;尝试到四次多项式。 展开更多
关键词 断点回归设计 参数估计 非参数估计 最优带宽 甜甜圈rdd
在线阅读 下载PDF
可燃物必需洒水密度测试系统的研制及应用 被引量:2
13
作者 于东兴 李毅 +3 位作者 刘欣 王健强 田立伟 韩光 《中国安全科学学报》 CAS CSCD 北大核心 2017年第2期36-40,共5页
为确定扑救典型场所火灾所需要的洒水密度,完善自动喷水灭火系统、优化设计及灭火效能评价的方法,搭建可燃物必需洒水密度(RDD)测试系统。系统采用整体化可拆卸结构,由布水系统、机架和控制系统组成。利用RDD测试系统,以非发泡塑料制品... 为确定扑救典型场所火灾所需要的洒水密度,完善自动喷水灭火系统、优化设计及灭火效能评价的方法,搭建可燃物必需洒水密度(RDD)测试系统。系统采用整体化可拆卸结构,由布水系统、机架和控制系统组成。利用RDD测试系统,以非发泡塑料制品生产车间为研究对象,选取中危险II级工业建筑火灾试验模型最小单元,开展RDD试验研究,观察洒水密度对火灾热释放速率(HRR)的影响。结果表明,在规定的试验条件下,中危险II级工业建筑火灾试验模型的RDD值约为10.0 mm/min。 展开更多
关键词 必需洒水密度(rdd) 可燃物 火灾试验模型 自动喷水灭火系统 实体火
在线阅读 下载PDF
Spark计算引擎的数据对象缓存优化研究 被引量:3
14
作者 陈康 王彬 冯琳 《中兴通讯技术》 2016年第2期23-27,共5页
研究了Spark并行计算集群对于内存的使用行为,认为其主要工作是通过对内存行为进行建模与分析,并对内存的使用进行决策自动化,使调度器自动识别出有价值的弹性分布式数据集(RDD)并放入缓存。另外,也对缓存替换策略进行优化,代替了原有... 研究了Spark并行计算集群对于内存的使用行为,认为其主要工作是通过对内存行为进行建模与分析,并对内存的使用进行决策自动化,使调度器自动识别出有价值的弹性分布式数据集(RDD)并放入缓存。另外,也对缓存替换策略进行优化,代替了原有的近期最少使用(LRU)算法。通过改进缓存方法,提高了任务在资源有限情况下的运行效率,以及在不同集群环境下任务效率的稳定性。 展开更多
关键词 并行计算 缓存 SPARK rdd
在线阅读 下载PDF
并行计算框架Spark的自动检查点策略 被引量:1
15
作者 英昌甜 于炯 +2 位作者 卞琛 鲁亮 钱育蓉 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第2期231-235,共5页
针对现有的Spark检查点机制需要编程人员根据经验选择检查点,具有一定的风险和随机性,可能导致恢复开销较大的问题,通过对RDD属性的分析,提出了自动检查点策略,包括权重生成(WG)算法和检查点自动选择(CAS)算法.首先,WG算法分析作业的DA... 针对现有的Spark检查点机制需要编程人员根据经验选择检查点,具有一定的风险和随机性,可能导致恢复开销较大的问题,通过对RDD属性的分析,提出了自动检查点策略,包括权重生成(WG)算法和检查点自动选择(CAS)算法.首先,WG算法分析作业的DAG结构,获取RDD的血统长度和操作复杂度等属性,计算RDD权重;然后,CAS算法选择权重大的RDD作为检查点进行异步备份,来实现数据的快速恢复.结果表明:在使用CAS算法时,不同数据集执行时间和检查点容量大小都有所增加,其中Wiki-Talk由于其计算量较大,增幅明显;使用CAS算法设置检查点后,在单点失效恢复的情况下,数据集的恢复时间较短.因此,自动检查点策略在略微增加执行时间开销的基础上,能够有效地降低作业的恢复开销. 展开更多
关键词 自动检查点 rdd权重 SPARK 恢复时间
在线阅读 下载PDF
我国P2P网贷平台成交量的政策效应研究——基于平台类型与地区的差异 被引量:5
16
作者 王雄 邹铃 《金融理论与实践》 北大核心 2019年第9期49-59,共11页
基于99个P2P网络借贷平台的日度面板数据,采用RDD方法和中介效应模型分析2018年4月开展的整改验收工作对P2P平台成交量的作用机理,并考虑因平台类型与地区不同对该政策作用所产生的差异。结果表明,P2P平台成交量受多个因素影响,整改验... 基于99个P2P网络借贷平台的日度面板数据,采用RDD方法和中介效应模型分析2018年4月开展的整改验收工作对P2P平台成交量的作用机理,并考虑因平台类型与地区不同对该政策作用所产生的差异。结果表明,P2P平台成交量受多个因素影响,整改验收政策的实施并未直接作用于平台成交量,而是通过影响已有投资者的信心,促使投资者选择短期借贷标的或者离场,最终减少平台成交量,平台类型与地区的不同使得政策及其他影响因素对平台成交量的作用效果均存在一定差异。基于此,分别针对平台、投资者及监管方提出了相应的建议。 展开更多
关键词 P2P平台成交量 平台类型 地区差异 政策冲击 rdd分析
在线阅读 下载PDF
多序列星比对算法的改进及其在Spark中的并行化研究
17
作者 董改芳 付学良 李宏慧 《计算机科学》 CSCD 北大核心 2017年第10期55-58,84,共5页
多序列星比对算法在确定中心序列时需要计算任意两个输入序列的距离及分数,其较高的时间复杂度耗费了大量时间,因此提出了通过综合计算每个序列产生的k-mers及各个k-mer在各序列中出现的次数来确定k-mers的拼接选择,由k-mers进行拼接从... 多序列星比对算法在确定中心序列时需要计算任意两个输入序列的距离及分数,其较高的时间复杂度耗费了大量时间,因此提出了通过综合计算每个序列产生的k-mers及各个k-mer在各序列中出现的次数来确定k-mers的拼接选择,由k-mers进行拼接从而得到中心序列。进而,在双序列比对过程中采用搜索两个序列最大相似子串的思想,改进的星比对算法的精度在一定程度上得到了明显提升。接着,将改进的星比对算法在Spark中进行并行化设计与实现。采用Spark的Yarn-Client运行模式,对正常人线粒体的多组数据进行实验,分析了算法性能上的不足及改进方向。 展开更多
关键词 多序列比对 星比对算法 K-mer SPARK rdd
在线阅读 下载PDF
爆炸烟云运动的试验与数值模拟研究初探 被引量:5
18
作者 李晓丽 郑毅 +1 位作者 刘伟 武冠胜 《核电子学与探测技术》 CAS CSCD 北大核心 2011年第2期131-135,共5页
通过高速CCD摄影机和高性能摄像机对一定量的TNT炸药爆炸产生的火球和烟云的运动过程进行了记录,按照实时记录结果,将爆炸分为火球发展阶段和烟云上升阶段来研究;利用高速CCD拍摄结果对爆炸火球进行分析,在分析爆炸烟云运动机理的基础上... 通过高速CCD摄影机和高性能摄像机对一定量的TNT炸药爆炸产生的火球和烟云的运动过程进行了记录,按照实时记录结果,将爆炸分为火球发展阶段和烟云上升阶段来研究;利用高速CCD拍摄结果对爆炸火球进行分析,在分析爆炸烟云运动机理的基础上,将试验火球最大尺寸作为初始条件建立了数值求解模型,采用2维变密度投影法对试验烟团的发展过程进行了数值模拟,并与高性能摄像机所拍试验烟云进行比较,发现两者变化趋势相似。该试验研究方法和数值计算模型可为爆炸烟云运动的研究提供一定的参考。 展开更多
关键词 爆炸烟云 rdd CCD 投影法 热团
在线阅读 下载PDF
我国区域R&D投入绩效评价研究——基于三大执行主体的视角
19
作者 尹伟华 《情报杂志》 CSSCI 北大核心 2012年第6期185-190,共6页
根据R&D活动包括三大执行主体,本文将区域R&D活动分解为高校、企业和科研机构三个子过程,通过构建并形结构的关联网络DEA模型对我国区域R&D投入绩效进行较全面的评价。结果表明:我国区域R&D投入的整体效率和三个执行主体的予过... 根据R&D活动包括三大执行主体,本文将区域R&D活动分解为高校、企业和科研机构三个子过程,通过构建并形结构的关联网络DEA模型对我国区域R&D投入绩效进行较全面的评价。结果表明:我国区域R&D投入的整体效率和三个执行主体的予过程效率都普遍偏低,存在明显的区域差异;高校的R&D活动效率是三大执行主体中最高的;企业R&D活动效率与区域效率具有高度一致性,而科研机构R&D活动效率的过分低效导致了我国区域R&D投入绩效普遍偏低;东、中、西部三大地区的R&D活动效率呈现明显的“阶梯分布”现象。 展开更多
关键词 rdd3投入绩效评价并形结构关联网络DEA
在线阅读 下载PDF
基于GraphX的分布式幂迭代聚类 被引量:3
20
作者 赵军 徐晓燕 《计算机应用》 CSCD 北大核心 2016年第10期2710-2714,共5页
为解决幂迭代聚类算法并行实现中存在的编程繁琐、效率低下等问题,基于Spark大规模数据通用计算引擎及其Graph X组件,提出了一种在分布式环境下实现幂迭代聚类的方法。首先,利用某种相似性度量方法,将原始数据转换成一个可以视为图的亲... 为解决幂迭代聚类算法并行实现中存在的编程繁琐、效率低下等问题,基于Spark大规模数据通用计算引擎及其Graph X组件,提出了一种在分布式环境下实现幂迭代聚类的方法。首先,利用某种相似性度量方法,将原始数据转换成一个可以视为图的亲和矩阵;然后,通过顶点切割,把行归一化后的亲和矩阵切分成若干个小图,分别存储在不同的机器上;最后,利用Spark基于内存计算的特点,对存储在集群中的图进行多次迭代计算,得到这个图的一个切割,图的每一个划分子图对应一个类簇。在不同规模的数据集和不同executor个数下进行的实验结果表明,基于Graph X的分布式幂迭代聚类算法具有良好的可扩展性,算法运行时间与executor个数呈负相关的线性关系,在6个executor下,与单个executor相比,算法的加速比达到了2.09到3.77。同时,通过与基于Hadoop的幂迭代聚类进行对比,在新闻数量为40 000篇时,运行时间降低了61%。 展开更多
关键词 GraphX 图计算 幂迭代聚类 内存计算 rdd
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部