期刊文献+
共找到432篇文章
< 1 2 22 >
每页显示 20 50 100
A new clustering algorithm for large datasets 被引量:1
1
作者 李清峰 彭文峰 《Journal of Central South University》 SCIE EI CAS 2011年第3期823-829,共7页
The Circle algorithm was proposed for large datasets.The idea of the algorithm is to find a set of vertices that are close to each other and far from other vertices.This algorithm makes use of the connection between c... The Circle algorithm was proposed for large datasets.The idea of the algorithm is to find a set of vertices that are close to each other and far from other vertices.This algorithm makes use of the connection between clustering aggregation and the problem of correlation clustering.The best deterministic approximation algorithm was provided for the variation of the correlation of clustering problem,and showed how sampling can be used to scale the algorithms for large datasets.An extensive empirical evaluation was given for the usefulness of the problem and the solutions.The results show that this method achieves more than 50% reduction in the running time without sacrificing the quality of the clustering. 展开更多
关键词 data mining Circle algorithm clustering categorical data clustering aggregation
在线阅读 下载PDF
Linear manifold clustering for high dimensional data based on line manifold searching and fusing 被引量:1
2
作者 黎刚果 王正志 +2 位作者 王晓敏 倪青山 强波 《Journal of Central South University》 SCIE EI CAS 2010年第5期1058-1069,共12页
High dimensional data clustering,with the inherent sparsity of data and the existence of noise,is a serious challenge for clustering algorithms.A new linear manifold clustering method was proposed to address this prob... High dimensional data clustering,with the inherent sparsity of data and the existence of noise,is a serious challenge for clustering algorithms.A new linear manifold clustering method was proposed to address this problem.The basic idea was to search the line manifold clusters hidden in datasets,and then fuse some of the line manifold clusters to construct higher dimensional manifold clusters.The orthogonal distance and the tangent distance were considered together as the linear manifold distance metrics. Spatial neighbor information was fully utilized to construct the original line manifold and optimize line manifolds during the line manifold cluster searching procedure.The results obtained from experiments over real and synthetic data sets demonstrate the superiority of the proposed method over some competing clustering methods in terms of accuracy and computation time.The proposed method is able to obtain high clustering accuracy for various data sets with different sizes,manifold dimensions and noise ratios,which confirms the anti-noise capability and high clustering accuracy of the proposed method for high dimensional data. 展开更多
关键词 linear manifold subspace clustering line manifold data mining data fusing clustering algorithm
在线阅读 下载PDF
MR-CLOPE: A Map Reduce based transactional clustering algorithm for DNS query log analysis 被引量:2
3
作者 李晔锋 乐嘉锦 +2 位作者 王梅 张滨 刘良旭 《Journal of Central South University》 SCIE EI CAS CSCD 2015年第9期3485-3494,共10页
DNS(domain name system) query log analysis has been a popular research topic in recent years. CLOPE, the represented transactional clustering algorithm, could be readily used for DNS query log mining. However, the alg... DNS(domain name system) query log analysis has been a popular research topic in recent years. CLOPE, the represented transactional clustering algorithm, could be readily used for DNS query log mining. However, the algorithm is inefficient when processing large scale data. The MR-CLOPE algorithm is proposed, which is an extension and improvement on CLOPE based on Map Reduce. Different from the previous parallel clustering method, a two-stage Map Reduce implementation framework is proposed. Each of the stage is implemented by one kind Map Reduce task. In the first stage, the DNS query logs are divided into multiple splits and the CLOPE algorithm is executed on each split. The second stage usually tends to iterate many times to merge the small clusters into bigger satisfactory ones. In these two stages, a novel partition process is designed to randomly spread out original sub clusters, which will be moved and merged in the map phrase of the second phase according to the defined merge criteria. In such way, the advantage of the original CLOPE algorithm is kept and its disadvantages are dealt with in the proposed framework to achieve more excellent clustering performance. The experiment results show that MR-CLOPE is not only faster but also has better clustering quality on DNS query logs compared with CLOPE. 展开更多
关键词 DNS data mining MR-CLOPE algorithm transactional clustering algorithm Map Reduce framework
在线阅读 下载PDF
Outlier detection based on multi-dimensional clustering and local density
4
作者 SHOU Zhao-yu LI Meng-ya LI Si-min 《Journal of Central South University》 SCIE EI CAS CSCD 2017年第6期1299-1306,共8页
Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outl... Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outlier. In this work, an effective outlier detection method based on multi-dimensional clustering and local density(ODBMCLD) is proposed. ODBMCLD firstly identifies the center objects by the local density peak of data objects, and clusters the whole dataset based on the center objects. Then, outlier objects belonging to different clusters will be marked as candidates of abnormal data. Finally, the top N points among these abnormal candidates are chosen as final anomaly objects with high outlier factors. The feasibility and effectiveness of the method are verified by experiments. 展开更多
关键词 data mining OUTLIER DETECTION OUTLIER DETECTION method based on MULTI-DIMENSIONAL clustering and local density (ODBMCLD) algorithm deviation DEGREE
在线阅读 下载PDF
利用模糊关联规则挖掘和遗传算法的工业产品设计优化方法
5
作者 张晴 李丛 高广银 《西南大学学报(自然科学版)》 北大核心 2025年第7期207-218,共12页
在工业产品开发流程的初始阶段,需要处理大量的多维度工业数据。然而,这个过程中的复杂性和不确定性容易导致模糊前端(FFE)问题,增加产品设计的难度。为解决这一问题,避免产品设计中的缺陷,提出一种多层人工智能产品设计方法,该方法结... 在工业产品开发流程的初始阶段,需要处理大量的多维度工业数据。然而,这个过程中的复杂性和不确定性容易导致模糊前端(FFE)问题,增加产品设计的难度。为解决这一问题,避免产品设计中的缺陷,提出一种多层人工智能产品设计方法,该方法结合了多层人工智能技术:大数据分析、基于递归关联规则的模糊推理系统(RAFIS)以及Mamdani模糊推理系统。所提出的方法通过将模糊关联规则挖掘(FARM)和遗传算法(GA)纳入RAFIS,以缩小客户属性和设计参数之间的差距。首先,在FFE阶段,组织数据收集和管理,然后将数据集输入FARM和GA以获取最佳模糊规则和隶属函数。随后,利用这些结果建立用于定制产品设计特征的Mamdani模糊推理系统。通过优化Mamdani推理系统中的参数(包括隶属函数的类型、分区和范围),实现产品定制设计。实验以电动滑板车为例进行应用分析,并采用模糊综合评价方法评估设计方案。结果表明两种设计方案均获得较高满意度,验证了该方法的有效性和可行性。 展开更多
关键词 人工智能 产品设计 模糊关联规则挖掘 遗传算法 大数据分析
在线阅读 下载PDF
MSHC:一种多阶段超图聚类算法
6
作者 张春英 王静 +2 位作者 刘璐 兰思武 张庆达 《深圳大学学报(理工版)》 北大核心 2025年第1期68-76,共9页
超图作为普通图的高维推广,能够更加灵活地反映节点间的高阶复杂关系.超图聚类旨在发现超图结构中复杂的高阶关联关系.针对目前超图聚类结果不稳定、容易陷入局部最优等问题,结合超图划分思想,提出一种多阶段超图聚类(multi-stage hyper... 超图作为普通图的高维推广,能够更加灵活地反映节点间的高阶复杂关系.超图聚类旨在发现超图结构中复杂的高阶关联关系.针对目前超图聚类结果不稳定、容易陷入局部最优等问题,结合超图划分思想,提出一种多阶段超图聚类(multi-stage hypergraph clustering,MSHC)算法,该算法将超图聚类过程分为超图约简、超图初始聚类以及优化迁移3个阶段.在超图约简阶段,提出一种不改变超图结构的快速约简方法,降低了后续算法的复杂度;提出基于集对分析理论的超图节点间相似性度量方法,并采用层次聚类方法对超图进行初始聚类,采用4种不同的类簇合并计算方法,增加聚类方案的多样性;将遗传算法应用于优化超图聚类方案的研究中,以此获得最优超图聚类方案.在3个不同规模的数据集上与4个经典的超图聚类方法进行对比实验,结果表明,MSHC算法在Songs_genres数据集和Papers_keywords数据集上超图模块度指数分别提高了0.0797和0.0777,在Movies_genres数据集上仅降低0.0060. 展开更多
关键词 数据处理 超图聚类 遗传算法 集对分析理论 超图约简 多阶段聚类 超图模块度
在线阅读 下载PDF
基于遗传优化聚类的GRU无损电力监测数据压缩 被引量:2
7
作者 屈志坚 帅诚鹏 +2 位作者 吴广龙 梁家敏 李迪 《电力系统及其自动化学报》 CSCD 北大核心 2024年第4期1-8,18,共9页
针对电力调度中心监测数据记录体量大、存储困难的问题,提出基于遗传优化K-means聚类的门控循环单元神经网络无损数据压缩方法。首先,搭建分布式集群,将多维原始电力数据聚类成相似性较高的数据块,并利用遗传算法对聚类进行寻优,提高数... 针对电力调度中心监测数据记录体量大、存储困难的问题,提出基于遗传优化K-means聚类的门控循环单元神经网络无损数据压缩方法。首先,搭建分布式集群,将多维原始电力数据聚类成相似性较高的数据块,并利用遗传算法对聚类进行寻优,提高数据聚类的效果;再通过门控循环单元神经网络训练数据编码的概率分布模型,结合算术编码对数据进行编码压缩;最后,以多个电力数据集为算例进行分析。经验证本文所提的压缩算法能实现数据的高比例压缩、优化集群性能。 展开更多
关键词 电力数据 遗传算法 聚类分析 循环神经网络 分布式集群压缩
在线阅读 下载PDF
城市休闲产业聚类模式APM算法模型开发与校验 被引量:2
8
作者 刘逸 吴雪涵 许汀汀 《旅游学刊》 CSSCI 北大核心 2024年第4期40-52,共13页
城市休闲相关产业的高质量发展对当前我国城市消费升级以及人居环境质量提升具有重要现实意义。但是,现有研究未能精准地捕捉海量广域分布的城市休闲产业的基本空间分布规律与结构,而已有的空间聚类算法较多适用于城市用地分析,未能很... 城市休闲相关产业的高质量发展对当前我国城市消费升级以及人居环境质量提升具有重要现实意义。但是,现有研究未能精准地捕捉海量广域分布的城市休闲产业的基本空间分布规律与结构,而已有的空间聚类算法较多适用于城市用地分析,未能很好地适用于离散分布的城市休闲产业研究。为此,文章基于空间兴趣点数据,开发距离通达值及空间集群中心点等算法,构建城市休闲旅游产业聚类模式空间算法模型(APM)。在以广州为例的研究中,APM模型捕捉出3170个以500 m步行生活圈为范围的城市休闲产业集群,校验了APM模型的科学性与应用价值。整体上,APM算法可以较好地捕捉城市休闲业态集群的空间结构,清晰识别城市休闲产业空间冷、热点分布的基本结构,由其捕捉行程的聚类边界与实际道路和建筑走向、水系边界、区域范围等重合度高,聚类集群符合实际情况,具备可信度与有效性。该研究是休闲产业集聚机制研究的一次方法创新,在算法精度、实际应用、可视化效率上均做出了创新性推进。与Fishnet方法相比,可以更科学精准地识别城市内部多个休闲消费商圈的边界,实现了高效率的城市休闲产业集群捕捉;与同位模型相比,可以呈现多类别的城市休闲业态结构,突破了现有研究只能捕捉两类业态组团的局限。 展开更多
关键词 城市旅游休闲 产业集聚模式 空间数据挖掘 聚类算法 POI 广州市
在线阅读 下载PDF
多级冗余强干扰下医用三维力传感器数据的自动挖掘方法
9
作者 岳根霞 王剑 刘金花 《传感技术学报》 CAS CSCD 北大核心 2024年第8期1383-1388,共6页
针对医用三维力传感器容易受电磁场等外部环境的影响,产生大量相似特征数据,导致其输出紊乱信号,降低传感器控制精度和测量速度的问题,提出一种多级冗余强干扰下三维力传感器数据挖掘方法。根据角度标定理论采集三维力传感器冗余数据;... 针对医用三维力传感器容易受电磁场等外部环境的影响,产生大量相似特征数据,导致其输出紊乱信号,降低传感器控制精度和测量速度的问题,提出一种多级冗余强干扰下三维力传感器数据挖掘方法。根据角度标定理论采集三维力传感器冗余数据;引入相似度指数函数计算冗余因子,获取三维力传感器冗余数据活跃度,完成数据冗余分类;通过差值去噪算法高性能过滤三维力传感器冗余数据;利用谱聚类算法构建拉普拉斯矩阵,剔除冗余数据,实现三维力传感器数据自动挖掘。仿真结果表明,所提方法在多级冗余强干扰下的三维力传感器控制精度为96.54%,测量速度为0.61 ms,能量消耗为0.26 kcal。由此证明,所提方法的控制精度高、测量速度快、传输效果优,能够满足机器人辅助手术过程中的力反馈控制需求。 展开更多
关键词 三维力传感器 冗余数据 数据挖掘 角度标定 指数函数 差值去噪 谱聚类算法
在线阅读 下载PDF
Spark框架下支持差分隐私保护的K-means++聚类方法 被引量:5
10
作者 石江南 彭长根 谭伟杰 《信息安全研究》 CSCD 北大核心 2024年第8期712-718,共7页
针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初... 针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初始化中心点及迭代更新中心点的过程中,通过综合利用指数机制和拉普拉斯机制,以解决初始聚类中心敏感及隐私泄露问题,同时减少计算过程中对数据实施的扰动.根据差分隐私的特性,从理论角度对整个算法进行证明,以满足ε-差分隐私保护.实验结果证明了该方法在确保聚类结果可用性的前提下,具备出色的隐私保护能力和高效的运行效率. 展开更多
关键词 数据挖掘 聚类算法 差分隐私 Spark框架 指数机制
在线阅读 下载PDF
密度峰值聚类算法综述 被引量:58
11
作者 陈叶旺 申莲莲 +3 位作者 钟才明 王田 陈谊 杜吉祥 《计算机研究与发展》 EI CSCD 北大核心 2020年第2期378-394,共17页
密度峰值聚类(density peak,DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度... 密度峰值聚类(density peak,DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望. 展开更多
关键词 聚类算法 密度峰值 大数据 数据挖掘 密度聚类
在线阅读 下载PDF
数据挖掘中的聚类算法综述 被引量:230
12
作者 贺玲 吴玲达 蔡益朝 《计算机应用研究》 CSCD 北大核心 2007年第1期10-13,共4页
聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。全面总结了数据挖掘中聚类算法的研究现状,分析比较了它们的性能差异和各自存在的优点及问题,并结合多媒体领域的应用需求指出了其今后的发展趋势。
关键词 数据挖掘 聚类 聚类算法
在线阅读 下载PDF
复杂分布数据的二阶段聚类算法 被引量:33
13
作者 公茂果 王爽 +3 位作者 马萌 曹宇 焦李成 马文萍 《软件学报》 EI CSCD 北大核心 2011年第11期2760-2772,共13页
提出了一种用于复杂分布数据的二阶段聚类算法(two-phase clustering,简称TPC),TPC包含两个阶段:首先将数据划分为若干个球形分布的子类,每一个子类用其聚类中心代表该类内的所有样本;然后利用可以处理复杂分布数据的流形进化聚类(manif... 提出了一种用于复杂分布数据的二阶段聚类算法(two-phase clustering,简称TPC),TPC包含两个阶段:首先将数据划分为若干个球形分布的子类,每一个子类用其聚类中心代表该类内的所有样本;然后利用可以处理复杂分布数据的流形进化聚类(manifold evolutionary clustering,简称MEC)对第1阶段得到的聚类中心进行类别划分;最后综合两次聚类结果整理得到最终聚类结果.该算法基于改进的K-均值算法和MEC算法.在进化聚类算法的基础上引入流形距离,使得算法能够胜任复杂分布的数据聚类问题.同时,算法降低了引入流形距离所带来的计算量.在分布各异的7个人工数据集和7个UCI数据集测试了二阶段聚类算法,并将其效果与遗传聚类算法、K均值算法和流形进化聚类算法做了比较.实验结果表明,无论对于简单或复杂、凸或非凸的数据,TPC都表现出良好的聚类性能,并且计算时间与MEC相比明显减少. 展开更多
关键词 数据挖掘 聚类 K-均值算法 进化算法 流形
在线阅读 下载PDF
一种基于遗传算法的聚类新方法 被引量:21
14
作者 张伟 廖晓峰 吴中福 《计算机科学》 CSCD 北大核心 2002年第6期114-116,共3页
1 引言数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策... 1 引言数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。 展开更多
关键词 遗传算法 聚类 数据挖掘 数据库 数据查询
在线阅读 下载PDF
初始聚类中心优化的k-means算法 被引量:156
15
作者 袁方 周志勇 宋鑫 《计算机工程》 CAS CSCD 北大核心 2007年第3期65-66,共2页
传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表... 传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表明改进后的k-means算法能产生质量较高的聚类结果,并且消除了对初始输入的敏感性。 展开更多
关键词 数据挖掘 聚类 K-MEANS算法 聚类中心
在线阅读 下载PDF
基于遗传算法的K均值聚类分析 被引量:26
16
作者 王敞 陈增强 袁著祉 《计算机科学》 CSCD 北大核心 2003年第2期163-164,共2页
This paper proposes a K-Means clustering method based on genetic algorithm. We compare our method with the traditional K-Means method and clustering method based on simple genetic algorithm. The comparison proves that... This paper proposes a K-Means clustering method based on genetic algorithm. We compare our method with the traditional K-Means method and clustering method based on simple genetic algorithm. The comparison proves that our method achieves a better result than the other two. The drawback of this method is a comparably slower speed in clustering. 展开更多
关键词 遗传算法 K均值 聚类分析 数据挖掘
在线阅读 下载PDF
基于遗传算法的特征子集选择 被引量:22
17
作者 刘勇国 李学明 +3 位作者 张伟 彭军 廖晓峰 吴中福 《计算机工程》 CAS CSCD 北大核心 2003年第6期19-20,50,共3页
数据挖掘对象是大型数据库中的海量数据,而数据库中记录包含众多属性,由于其中存在的冗余和不相关属性降低了数据挖掘性能,增加了算法复杂性,因此,特征子集选择问题成为数据挖掘领域中的重要研究课题。该文根据过滤法思想,提出了基于遗... 数据挖掘对象是大型数据库中的海量数据,而数据库中记录包含众多属性,由于其中存在的冗余和不相关属性降低了数据挖掘性能,增加了算法复杂性,因此,特征子集选择问题成为数据挖掘领域中的重要研究课题。该文根据过滤法思想,提出了基于遗传算法的特征子集选择算法,实验证明该算法获得了良好的收敛性和稳定性。 展开更多
关键词 数据库 数据挖掘 遗传算法 特征子集选择算法 模拟退火算法
在线阅读 下载PDF
一个用于空间聚类分析的遗传K-均值算法 被引量:19
18
作者 王家耀 张雪萍 周海燕 《计算机工程》 CAS CSCD 北大核心 2006年第3期188-190,共3页
空间数据挖掘是数据挖掘的一个新的分支,空间聚类分析是空间数据挖掘中的一个重要研究课题。本文在分析遗传算法及K–均值算法的优越性和不足的基础上,设计了一种遗传K-均值空间聚类分析算法,该算法兼顾了局部收敛和全局收敛性能。实验... 空间数据挖掘是数据挖掘的一个新的分支,空间聚类分析是空间数据挖掘中的一个重要研究课题。本文在分析遗传算法及K–均值算法的优越性和不足的基础上,设计了一种遗传K-均值空间聚类分析算法,该算法兼顾了局部收敛和全局收敛性能。实验表明,其结果优于传统K-均值聚类方法及单纯的遗传算法聚类。 展开更多
关键词 空间数据挖掘 空间聚类 遗传算法 K-均值算法 遗传K-均值算法
在线阅读 下载PDF
FDBSCAN:一种快速 DBSCAN算法(英文) 被引量:42
19
作者 周水庚 周傲英 +2 位作者 金文 范晔 钱卫宁 《软件学报》 EI CSCD 北大核心 2000年第6期735-744,共10页
聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输... 聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输入一个参数 ,DBSCAN算法就能够发现任意形状的类 ,并可以有效地处理噪声 .文章提出了一种加快 DBSCAN算法的方法 .新算法以核心对象邻域中所有对象的代表对象为种子对象来扩展类 ,从而减少区域查询次数 ,降低 I/ O开销 .实验结果表明 ,FDBSCAN能够有效地对大规模数据库进行聚类 ,速度上数倍于 DBSCAN. 展开更多
关键词 大规模数据库 数据挖掘 聚类 快速DBSCAN算法 代表点
在线阅读 下载PDF
一种基于密度的空间数据流在线聚类算法 被引量:28
20
作者 于彦伟 王沁 +1 位作者 邝俊 何杰 《自动化学报》 EI CSCD 北大核心 2012年第6期1051-1059,共9页
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial data stream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点... 为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial data stream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033ms. 展开更多
关键词 空间数据挖掘 聚类数据流 基于密度的聚类 在线算法 噪声处理
在线阅读 下载PDF
上一页 1 2 22 下一页 到第
使用帮助 返回顶部