期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
基于数据分区的DBSCAN算法 被引量:100
1
作者 周水庚 周傲英 曹晶 《计算机研究与发展》 EI CSCD 北大核心 2000年第10期1153-1159,共7页
数据聚类在数据挖掘、模式识别、图像处理和数据压缩等领域有着广泛的应用 .DBSCAN是一种基于密度的空间聚类算法 ,在处理空间数据时具有快速、有效处理噪声点和发现任意形状的聚类等优点 .但由于直接对数据库进行操作 ,在数据量大的时... 数据聚类在数据挖掘、模式识别、图像处理和数据压缩等领域有着广泛的应用 .DBSCAN是一种基于密度的空间聚类算法 ,在处理空间数据时具有快速、有效处理噪声点和发现任意形状的聚类等优点 .但由于直接对数据库进行操作 ,在数据量大的时候就需要较多的内存和 I/O开销 ;此外 ,当数据密度和聚类间的距离不均匀时聚类质量较差 .为此 ,在分析 DBSCAN算法不足的基础上 ,提出了一个基于数据分区的 DBSCAN算法 .测试结果表明新算法不仅提高了聚类速度 ,而且改善了聚类质量 . 展开更多
关键词 空间数据 数据挖掘 数据分区 DBSCAN算法
在线阅读 下载PDF
基于数据分区的并行DBSCAN算法 被引量:16
2
作者 何中胜 刘宗田 庄燕滨 《小型微型计算机系统》 CSCD 北大核心 2006年第1期114-116,共3页
DBSCAN是基于密度的聚类算法的一个典型代表算法,它对空间数据库聚类有很好的性能.然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销.随着高性能计算机的发展,特别是集群式计算机出现,给我们提供了一种解决DBSCAN算... DBSCAN是基于密度的聚类算法的一个典型代表算法,它对空间数据库聚类有很好的性能.然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销.随着高性能计算机的发展,特别是集群式计算机出现,给我们提供了一种解决DBSCAN算法缺陷的方法,本文提出一种建立在集群式高性能计算机上基于数据分区并行DBSCAN算法.测试结果表明,它极大地降低了DBSCAN对时间和空间的需要. 展开更多
关键词 大规模数据 聚类 数据分区 DBSCAN算法 并行计算消息传送
在线阅读 下载PDF
数据分区在地学空间数据查询中的应用 被引量:5
3
作者 孙雷刚 周可法 +1 位作者 张楠楠 许文强 《计算机应用》 CSCD 北大核心 2010年第12期148-151,共4页
通过研究Oracle Spatial对空间数据的存储管理机制,提出使用数据分区技术来优化地学空间数据的空间查询性能。在详细介绍数据分区原理基础之上,结合实际应用,以范围分区为例,分别对常规表和分区表进行了空间查询测试,并对实验结果进行... 通过研究Oracle Spatial对空间数据的存储管理机制,提出使用数据分区技术来优化地学空间数据的空间查询性能。在详细介绍数据分区原理基础之上,结合实际应用,以范围分区为例,分别对常规表和分区表进行了空间查询测试,并对实验结果进行了反复的对比分析。研究表明,数据分区在提高地学空间数据的空间查询速度方面效果显著。 展开更多
关键词 ORACLE Spatial 数据分区 空间数据 空间查询
在线阅读 下载PDF
大数据分区管理模型及其应用研究 被引量:12
4
作者 张文燚 项连志 王小芳 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2014年第3期353-360,共8页
针对大数据分区管理技术缺乏普遍适用的形式化数据分区模型的问题,引入一个包含痕迹代数系统、结构化状态关系代数系统、多结构化状态关系代数系统的大数据范畴,作为支持大数据分区管理及其相关应用研究的基础理论模型;在此基础上,给出... 针对大数据分区管理技术缺乏普遍适用的形式化数据分区模型的问题,引入一个包含痕迹代数系统、结构化状态关系代数系统、多结构化状态关系代数系统的大数据范畴,作为支持大数据分区管理及其相关应用研究的基础理论模型;在此基础上,给出了以满足"本地充足"为目标的,由基于活动场景和实体实例标识的大数据切片规则,以及面向活动场景的切片分配规则构成的,支持大数据分区管理和快速查询响应的形式化数据分区模型TSEI-PS。TSEI-PS已经在住房和城乡建设部的信息资源统一规划和国家住房信息系统建设中得到了应用。 展开更多
关键词 数据 形式化数据分区 本地充足 痕迹代数 结构化状态关系代数 多结构化状态关系代数 范畴
在线阅读 下载PDF
在逆向工程中用神经网络实现点云数据分区 被引量:4
5
作者 刘雪梅 张树生 +1 位作者 洪歧 董文胜 《计算机工程与应用》 CSCD 北大核心 2004年第28期96-98,共3页
点云的数据分区问题是逆向工程中的一个瓶颈问题。论文在传统的自组织特征映射(SOFM)神经网络的基础上,用多层自组织特征映射(MLSOFM)神经网络实现逆向工程中点云的数据分区,克服了SOFM用于数据分区的局限性,不需预先指定分区的数目,实... 点云的数据分区问题是逆向工程中的一个瓶颈问题。论文在传统的自组织特征映射(SOFM)神经网络的基础上,用多层自组织特征映射(MLSOFM)神经网络实现逆向工程中点云的数据分区,克服了SOFM用于数据分区的局限性,不需预先指定分区的数目,实例运行结果验证了此方法的可行性。 展开更多
关键词 自组织特征映射 神经网络 数据分区 逆向工程
在线阅读 下载PDF
基于数据分区的最近邻优先聚类算法 被引量:4
6
作者 王鑫 王洪国 +1 位作者 张建喜 谷建军 《计算机科学》 CSCD 北大核心 2005年第12期188-190,共3页
聚类是数据挖掘领域的一个重要研究方向。最近邻优先吸收(NNAF)算法可以快速进行聚类并且能有效处理噪声点,但当数据密度和聚类间的距离不均匀时聚类质量较差。本文在分析NNAF算法不足的基础上,提出了一种基于数据分区的NNAF 算法-PNNAF... 聚类是数据挖掘领域的一个重要研究方向。最近邻优先吸收(NNAF)算法可以快速进行聚类并且能有效处理噪声点,但当数据密度和聚类间的距离不均匀时聚类质量较差。本文在分析NNAF算法不足的基础上,提出了一种基于数据分区的NNAF 算法-PNNAF 算法,较好地改善了聚类质量。 展开更多
关键词 数据挖掘 聚类 数据分区 最近邻优先吸收
在线阅读 下载PDF
非结构化云数据管理系统不稳定数据分区识别算法 被引量:4
7
作者 郑美光 杨姣 +1 位作者 常成龙 胡志刚 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第8期105-112,共8页
在大数据背景下,非结构化云数据管理系统中数据节点需要处理不断膨胀的原始数据、索引数据和中间数据,“数据膨胀”将显著增加云数据管理系统的时间和能耗等各类开销.为降低非结构化数据管理系统因数据频繁移动而导致的数据传输开销,文... 在大数据背景下,非结构化云数据管理系统中数据节点需要处理不断膨胀的原始数据、索引数据和中间数据,“数据膨胀”将显著增加云数据管理系统的时间和能耗等各类开销.为降低非结构化数据管理系统因数据频繁移动而导致的数据传输开销,文中提出了一种不稳定数据分区的识别算法.首先面向非结构化数据管理系统,通过引入云模型理论对存储系统中的数据分区进行云建模,识别出不稳定的数据分区,然后调用相关算法对其进行重新布局.实验结果显示,不稳定数据分区识别算法可以有效地识别出不稳定的数据分区,对其重新布局后,降低数据传输开销的效果显著. 展开更多
关键词 数据 云模型 数据分区 数据传输 不稳定分区
在线阅读 下载PDF
大规模数据集聚类中的数据分区及应用研究 被引量:1
8
作者 郑洪英 倪霖 肖迪 《计算机应用研究》 CSCD 北大核心 2007年第2期203-205,共3页
针对大型数据库提出了许多聚类方法,但是这些算法往往计算量较大、对主存的要求较高;而且当数据分布不均匀时,算法的聚类质量会受影响。因此为了提高聚类算法的效率和准确性,采用了数据分区技术首先对数据进行预处理,分区后的数据具有... 针对大型数据库提出了许多聚类方法,但是这些算法往往计算量较大、对主存的要求较高;而且当数据分布不均匀时,算法的聚类质量会受影响。因此为了提高聚类算法的效率和准确性,采用了数据分区技术首先对数据进行预处理,分区后的数据具有更少的数据量和更均匀的数据分布。 展开更多
关键词 数据挖掘 聚类 数据分区 并行聚类
在线阅读 下载PDF
基于数据分区的OPTICS聚类算法 被引量:7
9
作者 周传华 鲁勇 于猜 《传感器与微系统》 CSCD 北大核心 2022年第10期103-107,共5页
针对OPTICS算法存在着对于密度不均匀以及高维数据聚类效果差的问题,提出了基于数据分区的OPTICS聚类算法(DP-OPTICS)。该方法计算所有样本点的K距离(K-dist)值,用改进的K均值算法对K-dist值进行单维度聚类,并依据肘图拐点的位置调整K... 针对OPTICS算法存在着对于密度不均匀以及高维数据聚类效果差的问题,提出了基于数据分区的OPTICS聚类算法(DP-OPTICS)。该方法计算所有样本点的K距离(K-dist)值,用改进的K均值算法对K-dist值进行单维度聚类,并依据肘图拐点的位置调整K值大小,以此实现数据分区;在分区内用OPTICS算法进行局部聚类,最后按一定规则将数据分区合并。选取多个不平衡人工数据集和UCI数据集进行对比实验,实验结果表明:改进的算法是切实可行的,明显提升了OPTICS算法对于数据密度不均匀问题的聚类质量,并且对高维数据也有着较好的处理能力,具有很强的鲁棒性。 展开更多
关键词 聚类 数据分区 OPTICS算法 K距离
在线阅读 下载PDF
基于自组织特征映射神经网络的点云数据分区 被引量:3
10
作者 刘雪梅 董文胜 +1 位作者 张树生 洪歧 《华北水利水电学院学报》 2004年第2期59-62,共4页
自组织特征映射神经网络SOFM可以实现无监督的特征聚类.利用SOFM实现逆向工程中点云数据分区,通过改进SOFM网络初始权值方法以及引进能量函数控制迭代次数,提高了SOFM的分区效率.利用SOFM方法实现点云数据分区具有较强的容错性能,对测... 自组织特征映射神经网络SOFM可以实现无监督的特征聚类.利用SOFM实现逆向工程中点云数据分区,通过改进SOFM网络初始权值方法以及引进能量函数控制迭代次数,提高了SOFM的分区效率.利用SOFM方法实现点云数据分区具有较强的容错性能,对测量数据点无任何要求.实例运行结果验证了此方法的可行性. 展开更多
关键词 自组织特征映射 神经网络 数据分区 逆向工程
在线阅读 下载PDF
采用元组聚类的增量式数据分区方法 被引量:3
11
作者 吕晨 房俊 韩燕波 《计算机科学与探索》 CSCD 2011年第8期719-729,共11页
数据分区是提升数据库可扩展能力的有效方法。在事务查询密集的系统中,合理的分区策略可减少分布式事务查询数量,并提高事务查询响应速度。提出了一种基于元组聚类的增量式分区方法,通过将元组聚簇和采用分区感知的数据筛选策略来降低... 数据分区是提升数据库可扩展能力的有效方法。在事务查询密集的系统中,合理的分区策略可减少分布式事务查询数量,并提高事务查询响应速度。提出了一种基于元组聚类的增量式分区方法,通过将元组聚簇和采用分区感知的数据筛选策略来降低算法的复杂度。首先依据时间窗口模型聚类元组,并构建簇节点图,然后利用分区感知策略对图进行删减,最后采用图划分算法对图进行子图划分来得到分区。与现有方法相比,该方法减少了分区响应时间,保证了较少的分布式事务数量,并提高了分区事务查询速度。 展开更多
关键词 数据分区 可扩展性 元组聚类
在线阅读 下载PDF
基于数据分区和网格的离群点挖掘算法 被引量:2
12
作者 唐成龙 邢长征 《计算机应用》 CSCD 北大核心 2012年第8期2193-2197,共5页
针对已有的基于网格的离群点挖掘算法挖掘效率低和对于大数据集适应性差的问题,提出基于数据分区和网格的离群点挖掘算法。算法首先将数据进行分区,以单元为单位筛选非离群点,并把中间结果暂存起来;然后采用改进的维单元树结构维护数据... 针对已有的基于网格的离群点挖掘算法挖掘效率低和对于大数据集适应性差的问题,提出基于数据分区和网格的离群点挖掘算法。算法首先将数据进行分区,以单元为单位筛选非离群点,并把中间结果暂存起来;然后采用改进的维单元树结构维护数据点的空间信息,以微单元为单位进行非离群点筛选,并通过两个优化策略进行高效操作;最后以数据点为单位挖掘离群点,从而得到离群数据集合。理论分析和实验结果表明了该方法是有效可行的,对大数据集和高维数据具有更好的伸缩性。 展开更多
关键词 数据挖掘 离群数据 网格 数据分区 单元 微单元 维单元树
在线阅读 下载PDF
一种分布式异构带宽环境下的高效数据分区方法 被引量:6
13
作者 马卿云 季航旭 +2 位作者 赵宇海 毛克明 王国仁 《计算机研究与发展》 EI CSCD 北大核心 2020年第12期2683-2693,共11页
在分布式大数据处理框架的作业运行过程中,会有大量的数据通过网络传输,数据在各节点之间传输所需的时间已成为作业运行的主要开销之一.在节点异构带宽的情况下,因为带宽瓶颈节点的存在,传统的数据分区方法效率低下.针对这个问题,建立... 在分布式大数据处理框架的作业运行过程中,会有大量的数据通过网络传输,数据在各节点之间传输所需的时间已成为作业运行的主要开销之一.在节点异构带宽的情况下,因为带宽瓶颈节点的存在,传统的数据分区方法效率低下.针对这个问题,建立了节点间的数据传输模型,该模型以降低数据传输时间为目标,根据各节点的上下行带宽和初始数据量大小,计算出各节点的最优数据分发比例.以该模型为基础,设计了基于带宽的数据分区方法,该数据分区方法使得各节点按最优数据分发比例来分配数据.最后在Apache Flink框架中将基于带宽的数据分区方法进行了实现,并通过实验进行了验证.实验结果表明:异构带宽条件下,基于带宽的数据分区方法可以有效减少数据分区所需的时间. 展开更多
关键词 数据分区 Apache Flink 负载均衡 异构带宽 分布式系统
在线阅读 下载PDF
基于数据分区的云计算高维数据均衡分流 被引量:5
14
作者 张露 尚艳玲 《济南大学学报(自然科学版)》 CAS 北大核心 2022年第1期74-79,共6页
针对当前分流策略无法应对高维数据的冗余度、复杂性以及动态变化,为了有效提升云计算高维数据的分流精度与分流效率,以云计算环境下高维数据为研究对象,提出基于数据分区的云计算高维数据均衡分流方法;通过分析高维数据分布特性,明确... 针对当前分流策略无法应对高维数据的冗余度、复杂性以及动态变化,为了有效提升云计算高维数据的分流精度与分流效率,以云计算环境下高维数据为研究对象,提出基于数据分区的云计算高维数据均衡分流方法;通过分析高维数据分布特性,明确分区维度、数量以及边界,利用峰间低谷部分中任意点的对应扫描线,完成高维数据分区;采用构建的数据特征提取策略提取高维数据特征,经迭代更新数据聚类中心,实现高维数据均衡分流;通过模拟实验,以数据流标准方差与数据流比例标准方差为指标,验证数据流分流质量与负载均衡效果。结果表明,云计算高维数据均衡分流方法的数据流比例标准方差较小,具有较高的数据分流精度和效率。 展开更多
关键词 数据分区 云计算 高维数据 均衡分流 特征提取 聚类中心
在线阅读 下载PDF
基于SVDD的颅面模型数据分区方法
15
作者 李坤鹏 周明全 李康 《计算机应用研究》 CSCD 北大核心 2012年第12期4754-4757,4796,共5页
将颅面模型数据分区问题转换为一种模式分类问题,给出了一种网格模型上多尺度的特征处理方法,提出了一种基于核方法的支持向量数据域描述(SVDD)数据分区方法。实验证明,该分区方法能快速、有效地对颅面模型的特征区域进行精确合理的分区... 将颅面模型数据分区问题转换为一种模式分类问题,给出了一种网格模型上多尺度的特征处理方法,提出了一种基于核方法的支持向量数据域描述(SVDD)数据分区方法。实验证明,该分区方法能快速、有效地对颅面模型的特征区域进行精确合理的分区,且能够适用于有复杂轮廓与形状的特征区域。 展开更多
关键词 颅面复原 数据分区 支持向量数据域描述 多尺度特征处理
在线阅读 下载PDF
应用驱动的基于流式框架的实时数据分区算法 被引量:1
16
作者 康宏 郭蒙雨 袁晓洁 《计算机应用研究》 CSCD 北大核心 2018年第4期1135-1141,1178,共8页
数据分区技术是改善基于shared-nothing架构的大型应用性能的重要手段。当前的数据分区技术无法高效处理应用负载所蕴涵的动态、大规模分区信息,无法即时生成分区策略。为了解决传统数据库分区技术面临的问题,实现分区的实时处理,提出... 数据分区技术是改善基于shared-nothing架构的大型应用性能的重要手段。当前的数据分区技术无法高效处理应用负载所蕴涵的动态、大规模分区信息,无法即时生成分区策略。为了解决传统数据库分区技术面临的问题,实现分区的实时处理,提出了与流式框架相结合的实时数据分区算法,通过构建关联矩阵映射分区信息,并基于代价模型实现数据分区方案的即时生成,采用流式框架的水平扩展机制实现了算法的高扩展性和高吞吐量适应性。实验结果表明,与现有分区方法相比,算法有较好的分区效果和较低的时间复杂度。该算法是大数据环境下针对大规模、动态工作负载进行实时数据分区的有效手段。 展开更多
关键词 负载驱动 数据分区 流式框架
在线阅读 下载PDF
面向MapReduce的迭代式数据均衡分区策略 被引量:15
17
作者 张元鸣 蒋建波 +2 位作者 陆佳炜 徐俊 肖刚 《计算机学报》 EI CSCD 北大核心 2019年第8期1873-1885,共13页
MapReduce是一种适用于大数据处理的重要并行计算框架.然而,由于难以提前全面获得中间数据的分布规律,默认的数据分区策略往往会造成Reducer端的数据倾斜,会直接影响MapReduce的整体性能.为了实现数据均衡分区,本文提出一种迭代式数据... MapReduce是一种适用于大数据处理的重要并行计算框架.然而,由于难以提前全面获得中间数据的分布规律,默认的数据分区策略往往会造成Reducer端的数据倾斜,会直接影响MapReduce的整体性能.为了实现数据均衡分区,本文提出一种迭代式数据均衡分区策略,将每个Mapper节点要处理的数据块细分后以迭代方式循环处理,根据已迭代轮次的微分区分配结果决定当前迭代轮次的微分区分配方案,以不断调整历次迭代产生的数据倾斜,逐步实现数据均衡分区.给出了迭代式数据分区策略的分配时机、分配准则、分配评价模型和分配算法.基于公开的数据集,对迭代式数据均衡分区策略进行了详细测评,结果表明,该策略能够得到更均衡的数据分区结果,当数据集本身倾斜比较显著时,MapReduce整体性能比默认分区策略平均提高了11.1%和19.7%. 展开更多
关键词 MAPREDUCE 数据 数据倾斜 迭代式数据分区 分区 均衡分区
在线阅读 下载PDF
面向负载均衡的动态均衡分区策略 被引量:2
18
作者 杨迪 赵家伟 +1 位作者 王鹏 赵建平 《计算机应用与软件》 北大核心 2024年第8期46-52,共7页
针对MapReduce计算框架处理倾斜数据集时造成Reduce端出现负载不均衡现象,提出一种动态均衡分区策略。在mapper阶段提出基于分治法的数据切分原则处理任务传入的数据组;结合最佳适应算法思想设计动态分配原则逐步将切分后的数据块均衡... 针对MapReduce计算框架处理倾斜数据集时造成Reduce端出现负载不均衡现象,提出一种动态均衡分区策略。在mapper阶段提出基于分治法的数据切分原则处理任务传入的数据组;结合最佳适应算法思想设计动态分配原则逐步将切分后的数据块均衡分配到预分区链表中;根据分区索引分配到各Reduce节点上实现负载均衡。实验结果显示,动态均衡分区策略与两个基准模型相比任务执行时长平均降低了7.7%,表明动态均衡分区策略更好地解决了数据倾斜问题,降低了任务执行时间,验证了模型的有效性。 展开更多
关键词 MAPREDUCE 负载均衡 数据倾斜 数据分区
在线阅读 下载PDF
面向分布式数据库的算子并行优化策略 被引量:3
19
作者 刘文洁 吕靖超 《西北工业大学学报》 EI CAS CSCD 北大核心 2024年第3期453-459,共7页
随着网络技术的不断发展,数据规模呈现爆发式增长,使得传统的单机数据库逐步被分布式数据库所取代。分布式数据库采用节点协同工作方式解决了大规模数据存储问题,但由于增加了节点间通信开销,查询效率却不如单机数据库。分布式架构下,... 随着网络技术的不断发展,数据规模呈现爆发式增长,使得传统的单机数据库逐步被分布式数据库所取代。分布式数据库采用节点协同工作方式解决了大规模数据存储问题,但由于增加了节点间通信开销,查询效率却不如单机数据库。分布式架构下,存储节点的数据仅用作多备份的冗余,为系统故障时提供数据恢复,并未被利用起来改善查询效率。针对上述问题,提出了一种面向分布式数据库的算子并行优化策略,通过对关键物理算子进行拆分,将拆分后的子请求均匀分配到存储层多个节点,由多个节点并行处理,从而减少查询响应时间。上述策略已经在分布式数据库CBase上进行了应用,实验表明,提出的并行优化策略可显著缩短SQL请求查询时间,并提高系统资源利用率。 展开更多
关键词 分布式数据 并行查询 查询优化 负载均衡 数据分区
在线阅读 下载PDF
基于LSM-Tree的分布式数据库异步融合机制研究与实现 被引量:1
20
作者 杜轶德 刘文洁 《西北工业大学学报》 EI CAS CSCD 北大核心 2024年第2期303-309,共7页
信息技术的不断发展,使得分布式数据库成为研究热点。由于NoSQL架构的分布式数据库对SQL支持有限且在事务处理及一致性方面存在缺陷,基于LSM-Tree的NewSQL数据库逐渐成为应用的主流,例如TiDB、OceanBase等。分布式LSM-Tree的存储架构将... 信息技术的不断发展,使得分布式数据库成为研究热点。由于NoSQL架构的分布式数据库对SQL支持有限且在事务处理及一致性方面存在缺陷,基于LSM-Tree的NewSQL数据库逐渐成为应用的主流,例如TiDB、OceanBase等。分布式LSM-Tree的存储架构将数据分为基线数据与增量数据,通过合并操作将不同分区的增量数据与基线数据不断融合,并存储在磁盘,从而减少内存压力。但合并会占用大量系统资源,严重影响系统可用性。因此提出了一种基于LSM-Tree架构的异步融合机制,通过细分合并流程,将数据融合异步化,有效地缩短了单次数据合并的时间。实验表明,提出的异步融合机制可显著缩短数据合并时间,提高系统在高频写入场景下的鲁棒性和可用性。 展开更多
关键词 分布式数据 LSM-Tree 数据合并 异步融合 数据分区
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部