期刊文献+
共找到116篇文章
< 1 2 6 >
每页显示 20 50 100
HPF计算划分的算法实现
1
作者 仲跻冬 李晓明 方滨兴 《计算机工程与科学》 CSCD 1997年第2期55-58,共4页
HPF(HighPerformanceFortran)是基于数据划分说明的并行语言。如何由数据划分确定程序的计算划分是HPF编译器需要首先解决的基本问题。本文介绍了HPF的数据划分和计算划分的概念。以三层嵌套循环为例。
关键词 hpf 计算划分 迭代空间 数据并行 并行语言
在线阅读 下载PDF
p-HPF并行编译器对数据并行和任务并行的支持
2
作者 胡长军 余华山 许卓群 《石油大学学报(自然科学版)》 CSCD 北大核心 2002年第1期91-93,99,共4页
p-HPF是一个基于cluster体系结构的HPF并行编译系统 ,它不仅支持数据并行计算范例 ,而且也支持任务并行范例。给出了 p-HPF并行编译系统的体系结构和实现策略 ,介绍了 p-HPF实现数据并行和任务并行的机制 ,包括数据分布方法、外部过程... p-HPF是一个基于cluster体系结构的HPF并行编译系统 ,它不仅支持数据并行计算范例 ,而且也支持任务并行范例。给出了 p-HPF并行编译系统的体系结构和实现策略 ,介绍了 p-HPF实现数据并行和任务并行的机制 ,包括数据分布方法、外部过程调用等。还给出用 p-HPF求解N-body、快速傅立叶变换、单炮地震资料的处理等应用实例。 展开更多
关键词 并行编译器 数据并行 任务并行 IPF语言 并行计算 并行编译
在线阅读 下载PDF
异构环境感知的幂律图流划分算法
3
作者 杨巍 白璐 +3 位作者 宁俊义 董建军 单春海 信俊昌 《计算机应用》 北大核心 2025年第S1期177-182,共6页
图划分在分布式处理大规模图数据中扮演着关键的角色。通过平衡节点的工作负载和通信成本,图划分算法提高了同构集群的幂律图处理效率。然而,异构集群节点的计算能力和通信能力不一致,节点处理相同工作负载的时间成本不同,且最慢的节点... 图划分在分布式处理大规模图数据中扮演着关键的角色。通过平衡节点的工作负载和通信成本,图划分算法提高了同构集群的幂律图处理效率。然而,异构集群节点的计算能力和通信能力不一致,节点处理相同工作负载的时间成本不同,且最慢的节点会成为系统瓶颈。为了解决上述问题,提出异构感知流划分(SHAP)算法。SHAP算法采用One-pass流式邻域启发式划分策略,根据节点的性能来最小化分区间的图处理时间。通过复制因子分析,SHAP算法的划分质量被证明具有理论上界。在一个具有4个真实世界图的异构集群中进行图处理实验的结果表明,与高度优先复制(HDRF)图划分算法相比,SHAP算法的图处理时间最多可以减少67.49%,而SHAP算法的复制因子最小仅为HDRF算法的47.06%。 展开更多
关键词 异构环境 图划分 分布式计算 图计算 数据管理
在线阅读 下载PDF
面向分布式图计算的图划分技术综述
4
作者 尚俊霖 张振宇 +1 位作者 屈稳稳 王晓玲 《计算机研究与发展》 北大核心 2025年第1期90-103,共14页
图结构作为表达事物之间复杂关联的数据结构,被广泛使用在多种应用场景中.随着互联网应用的不断发展,数据规模的不断增加,分布式的图计算系统相较于传统单机系统从运算时间、资源调度等各个方面显现出优越的性能.近年来,基于大规模图数... 图结构作为表达事物之间复杂关联的数据结构,被广泛使用在多种应用场景中.随着互联网应用的不断发展,数据规模的不断增加,分布式的图计算系统相较于传统单机系统从运算时间、资源调度等各个方面显现出优越的性能.近年来,基于大规模图数据的分布式图计算系统使用需求快速增加,图数据划分技术受到了学术界的广泛关注.通过对分布式图计算系统中的图划分技术的研究,首先介绍了面向分布式图计算的图划分的技术背景,给出当前分布式图计算系统中的图划分相关概念的定义以及相关计算模型的分类体系,报告了分布式图计算模型的发展现状.接着对不同的图划分策略中的具体技术进行介绍,通过在不同策略之间进行分析与比较,总结其在各类分布式图计算系统中的优势与不足.最后就分布式图计算系统中图划分技术的发展现状,讨论了其当前存在的挑战与未来的研究方向. 展开更多
关键词 图划分 图数据分析与管理 图计算 分布式图系统 超图划分
在线阅读 下载PDF
面向分布式数据库的算子并行优化策略 被引量:2
5
作者 刘文洁 吕靖超 《西北工业大学学报》 EI CAS CSCD 北大核心 2024年第3期453-459,共7页
随着网络技术的不断发展,数据规模呈现爆发式增长,使得传统的单机数据库逐步被分布式数据库所取代。分布式数据库采用节点协同工作方式解决了大规模数据存储问题,但由于增加了节点间通信开销,查询效率却不如单机数据库。分布式架构下,... 随着网络技术的不断发展,数据规模呈现爆发式增长,使得传统的单机数据库逐步被分布式数据库所取代。分布式数据库采用节点协同工作方式解决了大规模数据存储问题,但由于增加了节点间通信开销,查询效率却不如单机数据库。分布式架构下,存储节点的数据仅用作多备份的冗余,为系统故障时提供数据恢复,并未被利用起来改善查询效率。针对上述问题,提出了一种面向分布式数据库的算子并行优化策略,通过对关键物理算子进行拆分,将拆分后的子请求均匀分配到存储层多个节点,由多个节点并行处理,从而减少查询响应时间。上述策略已经在分布式数据库CBase上进行了应用,实验表明,提出的并行优化策略可显著缩短SQL请求查询时间,并提高系统资源利用率。 展开更多
关键词 分布式数据库 并行查询 查询优化 负载均衡 数据分区
在线阅读 下载PDF
基于图卷积神经网络的最短路径距离估计方法
6
作者 孟祥福 崔江燕 邓敏超 《智能系统学报》 CSCD 北大核心 2024年第6期1518-1527,共10页
路网最短路径距离估计问题的关键是提高估计准确度和减少模型训练时间。现有基于嵌入的最短路径距离估计方法要么模型的训练时间较长,要么通过牺牲估计精度来降低模型训练时间。针对以上问题,通过分析基于嵌入的最短路径距离估计方法,... 路网最短路径距离估计问题的关键是提高估计准确度和减少模型训练时间。现有基于嵌入的最短路径距离估计方法要么模型的训练时间较长,要么通过牺牲估计精度来降低模型训练时间。针对以上问题,通过分析基于嵌入的最短路径距离估计方法,提出路网最短路径距离估计编码器-解码器框架,归纳和整合这类方法的核心过程,并将核心过程分为嵌入方法、采样方案和模型训练3部分。在此基础上,提出一种基于图卷积网络的路网顶点嵌入方法(road graph convolutional networks and distance2vector,RGCNdist2vec),用于捕获路网的结构信息。在模型训练样本的采样方面,设计一种基于图逻辑分区的三阶段采样方法,能够选取少量优质样本用于模型训练。为验证模型及采样方案的有效性,在4个真实路网数据集上开展实验,并与现有相关模型进行对比,结果表明所提模型具有较高的估计准确性,并且模型训练时间降低为现有基线模型的1/4。 展开更多
关键词 最短路径距离计算 图神经网络 数据采样 表示学习 图卷积网络 图分区 深度学习 拓扑结构
在线阅读 下载PDF
基于大数据随机样本划分的分布式观测点分类器
7
作者 李旭 何玉林 +2 位作者 崔来中 黄哲学 PHILIPPE Fournier-Viger 《计算机应用》 CSCD 北大核心 2024年第6期1727-1733,共7页
观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数... 观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数据的随机样本划分(RSP)的分布式OPC(DOPC)。首先,在分布式计算环境下生成大数据的RSP数据块,并将它转换为弹性分布式数据集(RDD);其次,在RSP数据块上协同式地训练一组OPC,由于每个RSP数据块上的OPC独立训练,因此有高效的Spark可实现性;最后,在Spark框架下将在RSP数据块上协同训练的OPC集成为DOPC,对新样本进行类标签预测。在8个大数据集上,对Spark集群环境下实现的DOPC的可行性、合理性和有效性进行实验验证,实验结果显示,DOPC能够以更低的计算消耗获得比单机OPC更高的测试精度,同时相较于Spark框架下实现的基于RSP模型的神经网络(NN)、决策树(DT)、朴素贝叶斯(NB)和K最近邻(KNN),DOPC分类器具有更强的泛化性能。测试结果表明,DOPC是一种高效低耗的处理大数据分类问题的有监督学习算法。 展开更多
关键词 大数据分类 分布式文件系统 随机样本划分 观测点分类器 Spark计算框架
在线阅读 下载PDF
一种满足个性化差分隐私的多方垂直划分数据合成机制 被引量:2
8
作者 朱友文 王珂 周玉倩 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第5期2159-2176,共18页
当今时代,随着大数据技术的飞速发展和数据量的持续增加,大量数据不断被不同的公司或者机构收集,把来自不同公司或机构的数据聚合起来并发布,有助于更好地提供服务、支持决策。然而他们各自的数据中可能包含敏感程度不同的隐私信息,所... 当今时代,随着大数据技术的飞速发展和数据量的持续增加,大量数据不断被不同的公司或者机构收集,把来自不同公司或机构的数据聚合起来并发布,有助于更好地提供服务、支持决策。然而他们各自的数据中可能包含敏感程度不同的隐私信息,所以在聚合发布各方数据时需要满足个性化隐私保护要求。针对个性化隐私保护的多方数据聚合发布问题,该文提出满足个性化差分隐私的多方垂直划分数据合成机制(PDP-MVDS)。该机制通过生成低维边缘分布实现对高维数据的降维,用低维边缘分布更新随机初始的数据集,最终发布和各方的真实聚合数据集分布近似的合成数据集;同时通过划分隐私预算实现个性化差分隐私保护,利用安全点积协议和门限Paillier加密保证各方数据在聚合过程中的隐私性,利用分布式拉普拉斯机制有效保护了多方聚合边缘分布的隐私。该文通过严格的理论分析证明了PDP-MVDS能够确保每个参与方数据和发布数据集的安全。最后,在公开数据集上进行了实验评估,实验结果表明PDP-MVDS机制能够以低开销生成高效用的多方合成数据集。 展开更多
关键词 隐私保护 多方数据发布 安全多方计算 个性化差分隐私 垂直划分数据
在线阅读 下载PDF
高分辨率遥感影像并行处理数据分配策略研究 被引量:29
9
作者 沈占锋 骆剑承 +2 位作者 陈秋晓 黄光玉 盛昊 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2006年第11期1968-1971,1976,共5页
在高分辨率遥感影像信息提取过程中,为提高信息提取的精度,采用基于特征基元的尺度分割方法;为提高信息提取的速度,采用并行计算机制实现遥感影像的信息提取.在采用并行计算实现遥感影像特征提取过程中,提出非均匀数据分配策略,并对其... 在高分辨率遥感影像信息提取过程中,为提高信息提取的精度,采用基于特征基元的尺度分割方法;为提高信息提取的速度,采用并行计算机制实现遥感影像的信息提取.在采用并行计算实现遥感影像特征提取过程中,提出非均匀数据分配策略,并对其进行基于MPI的实现及效率的分析.结果表明,非均匀的遥感数据划分策略在针对特定图像的并行处理时能够得到比常规均匀划分策略更高的效率. 展开更多
关键词 MPI 并行计算 信息提取 尺度 数据划分
在线阅读 下载PDF
BOD:一种高效的分布式离群点检测算法 被引量:30
10
作者 王习特 申德荣 +3 位作者 白梅 聂铁铮 寇月 于戈 《计算机学报》 EI CSCD 北大核心 2016年第1期36-51,共16页
离群点检测是数据管理领域中的热点问题之一,在许多方面都有着广泛应用,如信用卡诈骗、网络入侵检测、环境监测等.目前现有的离群点检测算法大多针对集中式的处理环境.但随着数据规模的不断增长,传统的集中式算法处理效率受限,无法满足... 离群点检测是数据管理领域中的热点问题之一,在许多方面都有着广泛应用,如信用卡诈骗、网络入侵检测、环境监测等.目前现有的离群点检测算法大多针对集中式的处理环境.但随着数据规模的不断增长,传统的集中式算法处理效率受限,无法满足用户日益增长的需求.针对上述问题,文中提出了一种新型的分布式离群点检测算法.首先,在数据存储阶段(即预处理),提出了BDSP(Balance Driven Spatial Partitioning)数据划分算法.该算法可以有效地均衡每个计算节点的工作负载,并实现良好的过滤效果.此外,为划分所得到的每个块设计了一种全新的编码方式,可以快速地确定块与块之间的相邻关系,降低网络开销.基于BDSP算法,提出了BOD(BDSP-based Outlier Detection)分布式离群点检测算法.该算法包括2个步骤:在每个计算节点本地,利用R树索引进行批量过滤,快速地计算离群点并得到本地候选集;利用BDSP中提供的块编码确定需要相互通信的节点,使用少量的网络开销得到最终结果.最后,通过大量实验验证了文中所提出的BDSP和BOD算法的有效性.实验结果表明,相对于现有算法,文中算法可以显著地提高计算效率并大幅降低网络开销. 展开更多
关键词 离群点检测 分布式计算 大数据 数据划分 数据管理 大规模数据
在线阅读 下载PDF
基于MapReduce的分布式近邻传播聚类算法 被引量:53
11
作者 鲁伟明 杜晨阳 +2 位作者 魏宝刚 沈春辉 叶振超 《计算机研究与发展》 EI CSCD 北大核心 2012年第8期1762-1772,共11页
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处... 随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间. 展开更多
关键词 近邻传播聚类 分布式计算 MAPREDUCE 数据划分 聚类融合
在线阅读 下载PDF
遥感影像均值漂移分割算法的并行化实现 被引量:14
12
作者 沈占锋 骆剑承 +1 位作者 吴炜 胡晓东 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2010年第5期811-815,共5页
本文采用遥感影像数据的均值漂移算法并行化方法来解决均值漂移不能处理过大影像、处理速度过慢等问题,通过分析均值漂移算法的原理,提出了一种新的数据"缓冲区"式分块方法,并进而分别对不同的数据块进行并行分割,从而消除了... 本文采用遥感影像数据的均值漂移算法并行化方法来解决均值漂移不能处理过大影像、处理速度过慢等问题,通过分析均值漂移算法的原理,提出了一种新的数据"缓冲区"式分块方法,并进而分别对不同的数据块进行并行分割,从而消除了该算法对数据量的限制,有效避免计算机在处理过大影像时而产生的内存不足问题,并从效率角度对算法进行了改进. 展开更多
关键词 多尺度分割 均值漂移 并行化 数据划分
在线阅读 下载PDF
一种实现拓扑关系高效并行计算的矢量数据划分方法 被引量:9
13
作者 杨宜舟 吴立新 +2 位作者 郭甲腾 李志锋 刘善军 《地理与地理信息科学》 CSCD 北大核心 2013年第4期25-29,共5页
分析了拓扑关系并行算法的特点,为实现拓扑关系并行计算进程间的任务均衡与负载均衡,提出了一种矢量目标集的数据均衡划分方法,基于该划分方法设计了拓扑关系并行算法并测试了算法性能。测试表明:利用该方法可实现进程间计算负载的高度... 分析了拓扑关系并行算法的特点,为实现拓扑关系并行计算进程间的任务均衡与负载均衡,提出了一种矢量目标集的数据均衡划分方法,基于该划分方法设计了拓扑关系并行算法并测试了算法性能。测试表明:利用该方法可实现进程间计算负载的高度均衡与数据负载的基本均衡,加速比随进程数基本呈线性增长,算法并行效率基本不随进程数增加而衰减,基本稳定在80%。该方法为面向单机多核、众核和高性能集群环境下的海量数据拓扑关系分析软件的开发与服务提供一种高效的矢量数据划分方法。 展开更多
关键词 拓扑关系 并行计算 数据划分 负载均衡 任务均衡
在线阅读 下载PDF
一种并行XML数据库分片策略 被引量:7
14
作者 王国仁 汤南 +2 位作者 于亚新 孙冰 于戈 《软件学报》 EI CSCD 北大核心 2006年第4期770-781,共12页
主要研究XML文档的并行数据分片策略,以便能够并行处理XML查询.为了描述XML数据分片,提出了媒介节点的概念.一组媒介节点的集合可以将一棵XML数据树分割成一棵根树和一组子树的集合:根树将在所有站点中复制;而子树集合则可以根据用户查... 主要研究XML文档的并行数据分片策略,以便能够并行处理XML查询.为了描述XML数据分片,提出了媒介节点的概念.一组媒介节点的集合可以将一棵XML数据树分割成一棵根树和一组子树的集合:根树将在所有站点中复制;而子树集合则可以根据用户查询的工作负载被均匀地分片到各个站点中.对于同一棵XML数据树,会有很多种媒介节点的集合;而不同的媒介节点集合会产生不同的数据分片结果.然后,依据各个数据分片中的用户查询工作量是否均衡,来衡量一个分片的好坏.选择一组最佳的媒介节点集合是一个NP-hard问题.为了解决此问题,设计了一组启发式优化规则.基于这一思想,提出并实现了一种基于媒介节点的XML数据分片算法WIN(workload-awareintermediarynodesdataplacementstrategy).大量实验结果证明:WIN算法的性能要优于以往的并行XML数据分片策略. 展开更多
关键词 并行数据库 XML文档 工作负载 数据分片 媒介节点
在线阅读 下载PDF
分布式并行地形分析中数据划分机制研究 被引量:5
15
作者 宋效东 窦万峰 +3 位作者 汤国安 江岭 赵菁 赵明伟 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第1期130-135,共6页
数据粒度是海量空间数据并行计算的重要问题之一。通过对不同性质的并行算法的对比分析,提出空间数据粒度模型,量化地反映并行地形分析中数据划分的规模,建立并行数据粒度评价模型。通过研究集群环境下不同算法的数据并行数据粒度问题,... 数据粒度是海量空间数据并行计算的重要问题之一。通过对不同性质的并行算法的对比分析,提出空间数据粒度模型,量化地反映并行地形分析中数据划分的规模,建立并行数据粒度评价模型。通过研究集群环境下不同算法的数据并行数据粒度问题,提出基于并行数据粒度评价模型的优化数据粒度调度算法。通过计算每一次并行计算的时间与数据粒度效率,从而实现对计算数据粒度动态更新以追求更高的加速比。经过实验验证,该算法较之传统算法,可提供更高的任务执行效率并具有更好的可移植性。 展开更多
关键词 并行计算 数字地形分析 数据划分 数据粒度
在线阅读 下载PDF
基于数据分区的并行DBSCAN算法 被引量:16
16
作者 何中胜 刘宗田 庄燕滨 《小型微型计算机系统》 CSCD 北大核心 2006年第1期114-116,共3页
DBSCAN是基于密度的聚类算法的一个典型代表算法,它对空间数据库聚类有很好的性能.然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销.随着高性能计算机的发展,特别是集群式计算机出现,给我们提供了一种解决DBSCAN算... DBSCAN是基于密度的聚类算法的一个典型代表算法,它对空间数据库聚类有很好的性能.然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销.随着高性能计算机的发展,特别是集群式计算机出现,给我们提供了一种解决DBSCAN算法缺陷的方法,本文提出一种建立在集群式高性能计算机上基于数据分区并行DBSCAN算法.测试结果表明,它极大地降低了DBSCAN对时间和空间的需要. 展开更多
关键词 大规模数据库 聚类 数据分区 DBSCAN算法 并行计算消息传送
在线阅读 下载PDF
并行数据库的改进Hash划分方法及并行Join算法 被引量:4
17
作者 陆丽娜 孟虹 +1 位作者 魏恒义 杨麦顺 《计算机研究与发展》 EI CSCD 北大核心 2000年第2期159-163,共5页
文中提出了Hash 划分的改进方法——IH 划分. IH划分为结点扩充时数据的重新划分提供了方便.在论述IH 划分的基础上,给出了基于该数据划分方法的并行Join 算法.利用已有的数据分布,文中提出的并行Join 算法提高... 文中提出了Hash 划分的改进方法——IH 划分. IH划分为结点扩充时数据的重新划分提供了方便.在论述IH 划分的基础上,给出了基于该数据划分方法的并行Join 算法.利用已有的数据分布,文中提出的并行Join 算法提高了算法的效率.最后,从理论上对以上并行算法的计算复杂性进行了分析. 展开更多
关键词 数据 并行数据库 数据划分 JOIN算法
在线阅读 下载PDF
基于R树的分布式并行空间索引机制研究 被引量:11
18
作者 赵园春 李成名 赵春宇 《地理与地理信息科学》 CSCD 北大核心 2007年第6期38-41,81,共5页
为提高分布式并行计算环境下海量空间数据管理与并行化处理的效率,基于并行空间索引机制的研究,设计一种多层并行R树空间索引结构。该索引结构以高效率的并行空间数据划分策略为基础,以经典的并行计算方法论为依据,使其结构设计在保证... 为提高分布式并行计算环境下海量空间数据管理与并行化处理的效率,基于并行空间索引机制的研究,设计一种多层并行R树空间索引结构。该索引结构以高效率的并行空间数据划分策略为基础,以经典的并行计算方法论为依据,使其结构设计在保证能够获得较好的负载平衡性能的前提下,更适合于海量空间数据的并行化处理。以空间范围查询并行处理的系统响应时间为性能评估指标,通过实验证明并行空间索引结构具有设计合理、性能高效的特点。 展开更多
关键词 分布式并行计算环境 并行空间索引 并行R树索引 空间数据划分策略
在线阅读 下载PDF
大规模数据密集型系统中的去重查询优化 被引量:6
19
作者 宋怀明 安明远 +2 位作者 王洋 袁春阳 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2010年第4期581-588,共8页
针对shared-nothing结构下大规模数据密集型系统去重查询的挑战,提出了一种有效的数据分布策略和并行处理方法分别对相关属性和无关属性去重进行优化:即自适应的散列和直方图相结合的数据分布策略,以及异步式并行查询中间件.前者在数据... 针对shared-nothing结构下大规模数据密集型系统去重查询的挑战,提出了一种有效的数据分布策略和并行处理方法分别对相关属性和无关属性去重进行优化:即自适应的散列和直方图相结合的数据分布策略,以及异步式并行查询中间件.前者在数据写入时保证数据均衡,并在数据量发生倾斜时自动调整数据的分布;后者充分发掘了去重查询处理中的粗粒度流水级并行,并消除了多节点同步等待的开销,尽早地返回结果.在生产系统DBroker上的测试表明,数据分布策略极大地改善相关属性的去重查询性能,而异步式并行查询引擎能够充分发掘并行性,对不相关属性的去重查询具有显著的性能提升. 展开更多
关键词 去重查询 数据划分 大规模数据密集型系统 异步查询 并行查询引擎
在线阅读 下载PDF
大数据环境下关联规则并行分层挖掘算法研究 被引量:27
20
作者 张忠林 田苗凤 刘宗成 《计算机科学》 CSCD 北大核心 2016年第1期286-289,共4页
为满足大数据实时处理的需求,提出了一种基于划分的关联规则并行分层挖掘算法(Parallel Hierarchical Association Rule Mining,PHARM)。首先,将整个数据库D随机分割成若干个非重叠区域,并行挖掘出局部频繁项集;然后利用先验性质,连接... 为满足大数据实时处理的需求,提出了一种基于划分的关联规则并行分层挖掘算法(Parallel Hierarchical Association Rule Mining,PHARM)。首先,将整个数据库D随机分割成若干个非重叠区域,并行挖掘出局部频繁项集;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描D统计出每个候选项集的实际支持度,以确定全局频繁项集。最后,建模分析了该算法的高效性。 展开更多
关键词 大数据 划分 关联规则 并行分层挖掘 高效性
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部