期刊文献+
共找到155篇文章
< 1 2 8 >
每页显示 20 50 100
一种任意维Line-Sweep计算的数据划分算法 被引量:4
1
作者 王鹏 邱枫 +2 位作者 张为华 臧斌宇 朱传琪 《计算机学报》 EI CSCD 北大核心 2012年第12期2573-2586,共14页
数据划分是在当前主流高性能计算平台上高效并行化应用程序的关键技术,它包括数据分割和处理机分配两个主要部分.Line-Sweep计算模式被众多科学工程计算核心采用,目前该计算模式的并行化主要采用多重数据划分.多重数据划分能保证各处理... 数据划分是在当前主流高性能计算平台上高效并行化应用程序的关键技术,它包括数据分割和处理机分配两个主要部分.Line-Sweep计算模式被众多科学工程计算核心采用,目前该计算模式的并行化主要采用多重数据划分.多重数据划分能保证各处理机的计算量、访存量和通讯量相等,但在某些情况下也会导致访存量和通讯量过多,因此无法保证性能最优.为解决这一缺陷,文中提出均衡数据划分,进一步放松对数据分割和处理器分配的非本质约束,以利于在计算、访存和通讯这3种开销之间达到最佳平衡.文中给出生成最佳均衡数据划分的算法,它包含3个关键技术:首先建立性能模型,在该模型中均衡数据划分的性能只与数据分割方式有关;接着基于该模型缩减数据分割方式的搜索空间,并以该模型为判据搜索性能最佳的数据分割方式;最后设计处理机分配函数以满足均衡数据划分的条件.均衡数据划分被应用于NPB并行测试包中的SP程序和高分子材料计算程序LineABC.实验结果表明,当均衡数据划分与多重数据划分的数据分割方式相同时,二者性能基本一致;当两种数据分割方式不同时(对于SP和LineABC,这种情况所占比例分别高达38.7%和37.9%),采用均衡数据划分的SP程序和LineABC程序的并行效率比多重数据划分平均分别高出44.45%和22.15%. 展开更多
关键词 Line-Sweep计算 负载均衡 多重数据划分 均衡数据划分 性能模型
在线阅读 下载PDF
一种实现拓扑关系高效并行计算的矢量数据划分方法 被引量:9
2
作者 杨宜舟 吴立新 +2 位作者 郭甲腾 李志锋 刘善军 《地理与地理信息科学》 CSCD 北大核心 2013年第4期25-29,共5页
分析了拓扑关系并行算法的特点,为实现拓扑关系并行计算进程间的任务均衡与负载均衡,提出了一种矢量目标集的数据均衡划分方法,基于该划分方法设计了拓扑关系并行算法并测试了算法性能。测试表明:利用该方法可实现进程间计算负载的高度... 分析了拓扑关系并行算法的特点,为实现拓扑关系并行计算进程间的任务均衡与负载均衡,提出了一种矢量目标集的数据均衡划分方法,基于该划分方法设计了拓扑关系并行算法并测试了算法性能。测试表明:利用该方法可实现进程间计算负载的高度均衡与数据负载的基本均衡,加速比随进程数基本呈线性增长,算法并行效率基本不随进程数增加而衰减,基本稳定在80%。该方法为面向单机多核、众核和高性能集群环境下的海量数据拓扑关系分析软件的开发与服务提供一种高效的矢量数据划分方法。 展开更多
关键词 拓扑关系 并行计算 数据划分 负载均衡 任务均衡
在线阅读 下载PDF
基于共享模式的SaaS多租户数据划分机制研究 被引量:11
3
作者 李晓娜 李庆忠 +1 位作者 孔兰菊 庞成 《通信学报》 EI CSCD 北大核心 2012年第S1期110-120,共11页
对SaaS模式下,对共享模式的多租户数据在云中多节点环境的划分问题进行了研究,提出一种支持SaaS应用的多租户数据划分模型和算法。与目前主要面向分析型应用并且缺乏事务支持的分区技术和云数据库解决方案进行比较,理论分析和实验结果... 对SaaS模式下,对共享模式的多租户数据在云中多节点环境的划分问题进行了研究,提出一种支持SaaS应用的多租户数据划分模型和算法。与目前主要面向分析型应用并且缺乏事务支持的分区技术和云数据库解决方案进行比较,理论分析和实验结果同时表明,该划分机制能有效地实现云环境中系统规模动态扩展,同时最大限度地降低分布式事务代价。 展开更多
关键词 SAAS 多租户数据 共享模式 数据划分
在线阅读 下载PDF
分布式并行地形分析中数据划分机制研究 被引量:5
4
作者 宋效东 窦万峰 +3 位作者 汤国安 江岭 赵菁 赵明伟 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第1期130-135,共6页
数据粒度是海量空间数据并行计算的重要问题之一。通过对不同性质的并行算法的对比分析,提出空间数据粒度模型,量化地反映并行地形分析中数据划分的规模,建立并行数据粒度评价模型。通过研究集群环境下不同算法的数据并行数据粒度问题,... 数据粒度是海量空间数据并行计算的重要问题之一。通过对不同性质的并行算法的对比分析,提出空间数据粒度模型,量化地反映并行地形分析中数据划分的规模,建立并行数据粒度评价模型。通过研究集群环境下不同算法的数据并行数据粒度问题,提出基于并行数据粒度评价模型的优化数据粒度调度算法。通过计算每一次并行计算的时间与数据粒度效率,从而实现对计算数据粒度动态更新以追求更高的加速比。经过实验验证,该算法较之传统算法,可提供更高的任务执行效率并具有更好的可移植性。 展开更多
关键词 并行计算 数字地形分析 数据划分 数据粒度
在线阅读 下载PDF
基于Hilbert曲线层次分解的空间数据划分方法 被引量:18
5
作者 周艳 朱庆 张叶廷 《地理与地理信息科学》 CSCD 北大核心 2007年第4期13-17,共5页
针对现有空间数据划分方法普遍存在的不考虑空间对象自身大小和相邻对象空间关系对数据划分的影响等问题,提出一种基于Hilbert空间填充曲线层次分解的空间数据划分方法。该方法使用Hilbert曲线保持划分后空间数据之间的邻近性,利用少数... 针对现有空间数据划分方法普遍存在的不考虑空间对象自身大小和相邻对象空间关系对数据划分的影响等问题,提出一种基于Hilbert空间填充曲线层次分解的空间数据划分方法。该方法使用Hilbert曲线保持划分后空间数据之间的邻近性,利用少数子网格的层次分解避免对整个空间范围的密集划分,减少空间对象的Hilbert编码计算和排序时间;通过计算划分区域平均数据量和子网格内空间对象大小,确定合适的层次分解参数,实现各划分区域内空间数据量均衡。实验表明,该方法提高了空间数据的划分效率,能够保持划分后空间数据之间的邻近性和各个分区数据量的平衡。 展开更多
关键词 空间数据划分 空间数据管理 HILBERT曲线 空间层次分解
在线阅读 下载PDF
矢量多边形并行栅格化数据划分方法 被引量:4
6
作者 周琛 李满春 +2 位作者 陈振杰 姜朋辉 陈东 《国防科技大学学报》 EI CAS CSCD 北大核心 2015年第5期21-28,共8页
针对多边形并行栅格化中的负载不均衡问题提出一种新的数据划分方法,主要包括:迭代计算划分线的位置,在每次迭代中保证分块间的计算量大致均衡,完成数据划分、实现负载均衡;提出基于二叉树的划分结果融合策略,以解决跨边界多边形的融合... 针对多边形并行栅格化中的负载不均衡问题提出一种新的数据划分方法,主要包括:迭代计算划分线的位置,在每次迭代中保证分块间的计算量大致均衡,完成数据划分、实现负载均衡;提出基于二叉树的划分结果融合策略,以解决跨边界多边形的融合问题。在多核CPU环境下实现并行算法,选用多个典型土地利用现状数据集进行测试。结果表明:针对不同类型多边形数据集,所提方法较传统方法可获得更高的并行加速比和更好的负载均衡;针对大数据量数据集,以多边形节点数为度量标准可更精确地估算分块计算量,从而更好地实现负载均衡。 展开更多
关键词 地理信息系统 并行计算 多边形栅格化 数据划分 负载均衡
在线阅读 下载PDF
面向图形处理器重叠通信与计算的数据划分方法 被引量:5
7
作者 张保 曹海军 +2 位作者 董小社 李丹 胡雷钧 《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第4期1-5,11,共6页
针对"主核心+协处理器"式异构并行系统采用数据平均划分再分批执行的方法来解决主协式处理架构的额外通信开销时未能充分利用系统资源的问题,提出了一种新的数据比例划分方法.结合系统通信带宽和图形处理器(GPU)的计算能力,... 针对"主核心+协处理器"式异构并行系统采用数据平均划分再分批执行的方法来解决主协式处理架构的额外通信开销时未能充分利用系统资源的问题,提出了一种新的数据比例划分方法.结合系统通信带宽和图形处理器(GPU)的计算能力,将应用数据按比例划分为大小不同的数据块后分批提交给GPU处理,使系统的传输资源PCI-E总线和计算资源GPU在一段时间内并行工作,从而实现了应用通信与计算的重叠.在处理按照比例划分的数据块过程中,尽可能充分利用系统的传输资源和计算资源,以减少数据传输和计算的相互等待时间.实验结果表明,采用数据比例划分方法后的应用性能明显提高,可以有效地重叠通信与计算时间,矩阵相乘和快速傅里叶变换总执行时间比未划分时分别减少了5%和30%左右,比平均划分时分别减少了3%和6%左右. 展开更多
关键词 图形处理器 重叠通信与计算 数据划分
在线阅读 下载PDF
多种数据划分方法下D8算法的多核并行化实验对比 被引量:3
8
作者 高琪 范俊甫 +2 位作者 何惠馨 孔维华 周玉科 《地理与地理信息科学》 CSCD 北大核心 2017年第2期63-68,共6页
对地观测技术的快速发展使空间数据规模迅速增大,海量高分辨率DEM数据使得GIS数字地形分析算法面临日益严重的效率瓶颈,多核并行计算技术是在PC端解决上述问题的潜在途径,而并行任务调度策略、数据划分方法是影响并行算法计算效率的重... 对地观测技术的快速发展使空间数据规模迅速增大,海量高分辨率DEM数据使得GIS数字地形分析算法面临日益严重的效率瓶颈,多核并行计算技术是在PC端解决上述问题的潜在途径,而并行任务调度策略、数据划分方法是影响并行算法计算效率的重要因素。该文以河网提取中流向算法D8算法为例,基于OpenMP多核并行编程模型,在最佳任务调度策略下研究按行、列、块进行任务分解对该算法计算效率的影响。实验结果表明,不同数据划分方法对计算效率的影响存在差异。结合dynamic任务调度策略,对该算法采用行划分方法,并调用计算机最大可用线程个数16时并行加速效果最佳,加速比峰值达到13.88;划分块数为16时,运行加速比最高为13.46;按列划分加速比峰值达到12.829;而划分成9块和4块最高加速比仅为7.97和3.83。 展开更多
关键词 DEM 数据划分 D8算法 多核并行优化
在线阅读 下载PDF
分布式并行遥感图像处理中的数据划分 被引量:32
9
作者 黄国满 郭建峰 《遥感信息》 CSCD 2001年第2期9-12,共4页
讨论了分布式并行遥感图像处理中的数据划分问题。为了便于分析该问题 ,提出了图像处理应分为三类 ,即 :点处理、线处理和域处理 ,同时还提出了数据通讯量应当进一步细分为净通讯量和实际通讯量。通过对不同数据划分方式的净通讯量和实... 讨论了分布式并行遥感图像处理中的数据划分问题。为了便于分析该问题 ,提出了图像处理应分为三类 ,即 :点处理、线处理和域处理 ,同时还提出了数据通讯量应当进一步细分为净通讯量和实际通讯量。通过对不同数据划分方式的净通讯量和实际通讯量的分析 ,得出了在三类图像处理中数据划分的最佳方式。另外 ,文章在最后还进一步分析了非平均分配的数据划分问题。 展开更多
关键词 遥感图像处理 并行图像处理 数据划分 数据通讯 点处理 线处理 域处理
在线阅读 下载PDF
基于数据划分最大信息的聚类有效性函数 被引量:10
10
作者 吴成茂 范九伦 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2001年第6期781-784,共4页
基于样本最大分类信息的改进划分系数仅仅利用了数据的模糊分类信息 ,为了将数据分类的几何结构信息考虑进去 ,结合数据分类的最大类内变差 ,提出一个聚类有效性标准 .实验结果表明 。
关键词 聚类有效性函数 最大分类信息 数据划分 模式识别
在线阅读 下载PDF
基于数据划分的分布式模型及其负载均衡算法 被引量:4
11
作者 杨小虎 王新宇 毛明 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第4期602-607,681,共7页
介绍了基于应用划分的对称式集群和非对称式集群两种经典的分布式模型,分析两种经典模型在企业级应用中的缺陷.为了克服这些缺陷,引入基于数据划分的分布式模型,并提出适用于企业级系统的基于数据库访问量的负载均衡机制.通过测试与分析... 介绍了基于应用划分的对称式集群和非对称式集群两种经典的分布式模型,分析两种经典模型在企业级应用中的缺陷.为了克服这些缺陷,引入基于数据划分的分布式模型,并提出适用于企业级系统的基于数据库访问量的负载均衡机制.通过测试与分析,获得负载均衡机制中两个关键参数Dmax和VSRT的阈值.该模型和负载均衡机制具有更好的运行性能、横向可扩展性和动态负载均衡能力,已经被应用于单机金融遗留系统到J2EE分布式环境的再工程项目中,成功地实现了基于数据划分的系统架构,取得了理想的效果. 展开更多
关键词 分布式模型 数据划分 负载均衡 对称式集群 非对称式集群
在线阅读 下载PDF
基于数据空间融合的全局计算与数据划分方法 被引量:7
12
作者 夏军 杨学军 《软件学报》 EI CSCD 北大核心 2004年第9期1311-1327,共17页
计算与数据划分问题是影响并行程序在分布主存多处理机中执行性能的重要因素,也是并行编译优化的重点.针对该问题,提出了一套关于数据空间融合的理论框架,并基于该框架给出了一种有效的全局计算与数据划分方法,用于分布主存计算环境中... 计算与数据划分问题是影响并行程序在分布主存多处理机中执行性能的重要因素,也是并行编译优化的重点.针对该问题,提出了一套关于数据空间融合的理论框架,并基于该框架给出了一种有效的全局计算与数据划分方法,用于分布主存计算环境中的计算与数据划分问题的求解.该方法能够尽量开发计算空间的并行度,利用数据融合技术优化数据分布,并能搜寻优化的全局计算与数据划分.该方法还能很自然地与数据复制以及偏移常量的对准结合在一起,从而使得数据通信量尽可能地小.实验结果表明了所提出方法的有效性. 展开更多
关键词 分布主存多处理机 并行编译器 计算划分 数据划分 数据融合
在线阅读 下载PDF
强关联海洋数据划分研究 被引量:2
13
作者 黄冬梅 随宏运 +3 位作者 贺琪 赵丹枫 杜艳玲 苏诚 《计算机工程》 CAS CSCD 北大核心 2016年第5期8-12,共5页
海洋监测数据具有海量、强关联性的特点,对海洋监测数据进行合理布局,进而提高数据管理和应用的执行效率,是目前海洋数据研究领域的关键。将"互联网+"和"数字海洋"进行有机融合,提出一种强关联海洋监测数据布局策... 海洋监测数据具有海量、强关联性的特点,对海洋监测数据进行合理布局,进而提高数据管理和应用的执行效率,是目前海洋数据研究领域的关键。将"互联网+"和"数字海洋"进行有机融合,提出一种强关联海洋监测数据布局策略。针对数字海洋中海洋监测数据的特点,根据监测任务、监测站位和监测数据的关联建立强关联矩阵。将矩阵中相似的元素聚集在一起,把具有较高关联度的数据划分为一类子数据集,并根据数据中心的存储容量进行布局。实验结果表明,该策略可降低算法的运行时间和用户访问海洋监测数据的响应时间,是数字海洋中海洋监测数据管理和存储的一种有效布局策略。 展开更多
关键词 数字海洋 海洋监测数据 互联网+ 数据划分 云环境 强关联矩阵
在线阅读 下载PDF
一种面向并行空间查询的数据划分方法 被引量:12
14
作者 贾婷 魏祖宽 +1 位作者 唐曙光 金在弘 《计算机科学》 CSCD 北大核心 2010年第8期198-200,共3页
在并行空间数据库中,空间数据集在各计算节点是否聚集划分,对提高空间并行查询效率起着关键的作用。Oracle Spatial采用的基于格网的划分方法只考虑了数据集在各节点是否均衡划分,而未考虑空间数据的拓扑特征。基于空间数据聚集划分的目... 在并行空间数据库中,空间数据集在各计算节点是否聚集划分,对提高空间并行查询效率起着关键的作用。Oracle Spatial采用的基于格网的划分方法只考虑了数据集在各节点是否均衡划分,而未考虑空间数据的拓扑特征。基于空间数据聚集划分的目的,提出了一种基于K-平均聚类算法的空间数据划分方法。实验证明,该方法极大地提高了空间数据并行检索和查询效率。 展开更多
关键词 K-平均算法 聚类 数据划分 分布式并行计算环境
在线阅读 下载PDF
数据划分优化的并行k-means算法 被引量:7
15
作者 尹建君 王乐 《计算机工程与应用》 CSCD 北大核心 2010年第15期127-131,共5页
针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并行DVPk-means算法,提高了常规并行k-means算法的并行化程度,达到了优化算法执行效率的目的。在实验中,与... 针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并行DVPk-means算法,提高了常规并行k-means算法的并行化程度,达到了优化算法执行效率的目的。在实验中,与常规并行k-means算法和基于关键方向分解的PDDPk-means算法进行比较,DVPk-means具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚簇。 展开更多
关键词 数据划分 并行聚类算法 频繁词集 K-MEANS算法
在线阅读 下载PDF
基于数据划分的k-近邻分类加速算法机理分析 被引量:1
16
作者 宋云胜 王杰 梁吉业 《中国科学技术大学学报》 CAS CSCD 北大核心 2018年第4期331-340,共10页
k-近邻(k NN)分类算法因具有不对数据分布做任何假设、操作简单且泛化性能较强的特点,在人脸识别、文本分类、情感分析等领域被广泛使用.k NN分类算法不需要训练过程,其简单存储训练实例并根据测试实例与存储的训练实例进行相似度比较... k-近邻(k NN)分类算法因具有不对数据分布做任何假设、操作简单且泛化性能较强的特点,在人脸识别、文本分类、情感分析等领域被广泛使用.k NN分类算法不需要训练过程,其简单存储训练实例并根据测试实例与存储的训练实例进行相似度比较来预测分类.由于k NN分类算法需要计算测试实例与所有训练实例之间的相似度,故难以高效地处理大规模数据.为此提出将寻找近邻的过程转化为一个优化问题,并给出了原始优化问题与使用数据划分优化问题的最优解下目标函数差异的估计.通过对此估计的理论分析表明,聚类划分可以有效的减小此差异,进而保证基于聚类的k-近邻分类(DC-k NN)算法具有较强的泛化性能.在公开数据集的实验结果显示,DC-k NN分类算法在很大程度上为测试实例提供了与原始k NN分类算法相同的k个近邻进而获得较高的分类精度. 展开更多
关键词 K-近邻 数据划分 局部信息 实例子集 聚类
在线阅读 下载PDF
并行PDBMS的数据划分方法 被引量:1
17
作者 许向阳 张勇 王元珍 《计算机工程与应用》 CSCD 北大核心 2001年第8期90-91,111,共3页
该文系统地分析了并行关系数据库的数据划分方法,指出在不同应用中,数据划分方法极大地影响了系统的性能,提出了综合不同方法以适应不同应用的思想。文章介绍了在并行关系数据库系统产DBMS中实现多种划分的方法。
关键词 并行关系数据 数据划分 B树 PDBMS 并行算法
在线阅读 下载PDF
面向并行空间连接的两轮映射数据划分方法 被引量:1
18
作者 付仲良 赵星源 +1 位作者 王楠 杨元维 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2017年第1期212-224,共13页
针对数据划分结果高冗余、低均衡可能会增加系统的工作负荷和影响系统的负载均衡这一问题,提出两轮映射数据划分方法.在第一轮映射中,通过充分利用划分对象的空间属性来减少冗余数据,通过合理设置阈值来均衡划分数据;在第二轮映射中,通... 针对数据划分结果高冗余、低均衡可能会增加系统的工作负荷和影响系统的负载均衡这一问题,提出两轮映射数据划分方法.在第一轮映射中,通过充分利用划分对象的空间属性来减少冗余数据,通过合理设置阈值来均衡划分数据;在第二轮映射中,通过动态映射机制,提高划分结果的数据量均衡度.与Oracle Spatial数据划分方法、线性编码轮询调度划分方法以及Hilbert编码轮询调度划分方法进行比较可知,采用两轮映射方法可以有效地控制冗余数据的产生,大幅提高划分结果的数据量均衡度,具备较好的划分效率. 展开更多
关键词 地理信息系统 空间数据划分 空间连接
在线阅读 下载PDF
基于信息网模型的动态数据划分策略 被引量:1
19
作者 陈诗雅 刘梦赤 《计算机应用与软件》 北大核心 2018年第11期42-48,共7页
为了满足大规模数据管理与查询的需要,设计并开发了基于信息网模型INM(Information Networking Model)的分布式并行数据库管理系统。分布式环境下数据的划分方式将影响系统的可扩展性和查询分析效率。根据信息网模型的数据结构和查询特... 为了满足大规模数据管理与查询的需要,设计并开发了基于信息网模型INM(Information Networking Model)的分布式并行数据库管理系统。分布式环境下数据的划分方式将影响系统的可扩展性和查询分析效率。根据信息网模型的数据结构和查询特性,设计一种轻量级的数据动态划分方法。该方法结合数据的水平分割和垂直分割,以INM对象为单位,未存储过的数据对象直接划分到当前操作节点,并记录数据对象的存储位置,否则根据数据对象的历史位置信息将其划分到不同的存储节点。同时,单个INM对象可能由于其包含的关联对象增多到一定程度成为大对象,而对系统的性能造成影响,因此将此类大对象分割成多个小对象,并按照一定的策略划分到不同节点进行存储。集群中的每个处理节点被赋予一个负载阈值。随着数据量的增加,如果超过负载阈值则增加新的机器,保证系统的可扩展性和各个处理节点数据量的均衡。实验结果证明,该方法能够保障系统良好的可扩展性,同时提高数据的查询分析效率。 展开更多
关键词 信息网模型 数据划分 大对象分割 负载阈值
在线阅读 下载PDF
面向高效并行Skyline计算的数据划分方法 被引量:2
20
作者 赵翔 商海川 《计算机学报》 EI CSCD 北大核心 2020年第11期2050-2066,共17页
Skyline计算是数据管理领域长久以来的一个研究重点和热点.给定一组多维的数据点,Skyline算子从中筛选出在所有维度上都不被其他点支配的数据点;Skyline算子的处理过程称之为Skyline计算.Skyline算子使得用户可以在较小规模的Skyline结... Skyline计算是数据管理领域长久以来的一个研究重点和热点.给定一组多维的数据点,Skyline算子从中筛选出在所有维度上都不被其他点支配的数据点;Skyline算子的处理过程称之为Skyline计算.Skyline算子使得用户可以在较小规模的Skyline结果集上选择自己感兴趣的对象,而无须关心那些已经被过滤掉的对象.因此,Skyline计算在多目标决策、数据可视化分析、用户偏好查询等方面应用广泛,典型的应用任务包括但不限于商业营销策略分析,产品能力横向评估等.随着大数据时代的到来,以及分布式网络系统的深入应用和基于云计算平台解决方案的快速发展,各类应用领域数据规模的快速增长已经成为一个关键性技术挑战,面向大规模数据集的并行Skyline算子应运而生,以部分解决大数据给Skyline计算困难;同时,并行Skyline计算的相关研究近年来备受学术界和工业界的广泛关注.由于缺乏关于整个数据集的全局分布信息,并行Skyline计算的高效处理面临着巨大的技术挑战.一般认为,并行Skyline处理的计算框架通常包含三个主要步骤:(1)合理划分给定的大数据集;(2)利用本地计算资源在每个数据分块上分别计算局部Skyline;(3)合并局部Skyline最终形成全局Skyline.其中,针对后两步——计算局部Skyline和合并局部Skyline的现有算法较多,相关研究相对成熟;相较而言,第一步上的相关研究工作则较少,但其效果却直接决定了整体计算的并行化程度,进而能够影响并行计算系统的整体性能.具体地,第一步需要考虑两方面的准则:(1)各个分块上的计算负载是否均衡;(2)如何减小每个分块上局部Skyline的基数.然而,无论采用基于随机划分还是基于网格的方法,现有算法均只能满足上述两个准则之一,不能两全其美.针对该问题,研究探索了如何利用概率模型估计Skyline基数的期望,该概率模型将已有研究的相关结论纳入到了一个统一的框架中.接着,据此提出了一种新的基于排列的数据划分方法,它通过简单的数据点映射即可实现负载均衡,同时生成小于现有其他方法的Skyline候选点集.在理论研究的坚实基础上,在大型人工和真实数据集上实验验证了所提模型和方法的有效性;换言之,在大规模实验研究中,所提方法显著提高了并行Skyline算子的执行效率,在绝大多数参数设定下的表现都优于现有其他同类算法. 展开更多
关键词 并行Skyline 数据划分 排列模型 可扩展性
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部