期刊文献+
共找到302篇文章
< 1 2 16 >
每页显示 20 50 100
MR-CLOPE: A Map Reduce based transactional clustering algorithm for DNS query log analysis 被引量:2
1
作者 李晔锋 乐嘉锦 +2 位作者 王梅 张滨 刘良旭 《Journal of Central South University》 SCIE EI CAS CSCD 2015年第9期3485-3494,共10页
DNS(domain name system) query log analysis has been a popular research topic in recent years. CLOPE, the represented transactional clustering algorithm, could be readily used for DNS query log mining. However, the alg... DNS(domain name system) query log analysis has been a popular research topic in recent years. CLOPE, the represented transactional clustering algorithm, could be readily used for DNS query log mining. However, the algorithm is inefficient when processing large scale data. The MR-CLOPE algorithm is proposed, which is an extension and improvement on CLOPE based on Map Reduce. Different from the previous parallel clustering method, a two-stage Map Reduce implementation framework is proposed. Each of the stage is implemented by one kind Map Reduce task. In the first stage, the DNS query logs are divided into multiple splits and the CLOPE algorithm is executed on each split. The second stage usually tends to iterate many times to merge the small clusters into bigger satisfactory ones. In these two stages, a novel partition process is designed to randomly spread out original sub clusters, which will be moved and merged in the map phrase of the second phase according to the defined merge criteria. In such way, the advantage of the original CLOPE algorithm is kept and its disadvantages are dealt with in the proposed framework to achieve more excellent clustering performance. The experiment results show that MR-CLOPE is not only faster but also has better clustering quality on DNS query logs compared with CLOPE. 展开更多
关键词 DNS data mining MR-CLOPE algorithm transactional clustering algorithm Map Reduce framework
在线阅读 下载PDF
A new clustering algorithm for large datasets 被引量:1
2
作者 李清峰 彭文峰 《Journal of Central South University》 SCIE EI CAS 2011年第3期823-829,共7页
The Circle algorithm was proposed for large datasets.The idea of the algorithm is to find a set of vertices that are close to each other and far from other vertices.This algorithm makes use of the connection between c... The Circle algorithm was proposed for large datasets.The idea of the algorithm is to find a set of vertices that are close to each other and far from other vertices.This algorithm makes use of the connection between clustering aggregation and the problem of correlation clustering.The best deterministic approximation algorithm was provided for the variation of the correlation of clustering problem,and showed how sampling can be used to scale the algorithms for large datasets.An extensive empirical evaluation was given for the usefulness of the problem and the solutions.The results show that this method achieves more than 50% reduction in the running time without sacrificing the quality of the clustering. 展开更多
关键词 data mining Circle algorithm clustering categorical data clustering aggregation
在线阅读 下载PDF
Linear manifold clustering for high dimensional data based on line manifold searching and fusing 被引量:1
3
作者 黎刚果 王正志 +2 位作者 王晓敏 倪青山 强波 《Journal of Central South University》 SCIE EI CAS 2010年第5期1058-1069,共12页
High dimensional data clustering,with the inherent sparsity of data and the existence of noise,is a serious challenge for clustering algorithms.A new linear manifold clustering method was proposed to address this prob... High dimensional data clustering,with the inherent sparsity of data and the existence of noise,is a serious challenge for clustering algorithms.A new linear manifold clustering method was proposed to address this problem.The basic idea was to search the line manifold clusters hidden in datasets,and then fuse some of the line manifold clusters to construct higher dimensional manifold clusters.The orthogonal distance and the tangent distance were considered together as the linear manifold distance metrics. Spatial neighbor information was fully utilized to construct the original line manifold and optimize line manifolds during the line manifold cluster searching procedure.The results obtained from experiments over real and synthetic data sets demonstrate the superiority of the proposed method over some competing clustering methods in terms of accuracy and computation time.The proposed method is able to obtain high clustering accuracy for various data sets with different sizes,manifold dimensions and noise ratios,which confirms the anti-noise capability and high clustering accuracy of the proposed method for high dimensional data. 展开更多
关键词 linear manifold subspace clustering line manifold data mining data fusing clustering algorithm
在线阅读 下载PDF
Outlier detection based on multi-dimensional clustering and local density
4
作者 SHOU Zhao-yu LI Meng-ya LI Si-min 《Journal of Central South University》 SCIE EI CAS CSCD 2017年第6期1299-1306,共8页
Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outl... Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outlier. In this work, an effective outlier detection method based on multi-dimensional clustering and local density(ODBMCLD) is proposed. ODBMCLD firstly identifies the center objects by the local density peak of data objects, and clusters the whole dataset based on the center objects. Then, outlier objects belonging to different clusters will be marked as candidates of abnormal data. Finally, the top N points among these abnormal candidates are chosen as final anomaly objects with high outlier factors. The feasibility and effectiveness of the method are verified by experiments. 展开更多
关键词 data mining OUTLIER DETECTION OUTLIER DETECTION method based on MULTI-DIMENSIONAL clustering and local density (ODBMCLD) algorithm deviation DEGREE
在线阅读 下载PDF
城市休闲产业聚类模式APM算法模型开发与校验 被引量:2
5
作者 刘逸 吴雪涵 许汀汀 《旅游学刊》 CSSCI 北大核心 2024年第4期40-52,共13页
城市休闲相关产业的高质量发展对当前我国城市消费升级以及人居环境质量提升具有重要现实意义。但是,现有研究未能精准地捕捉海量广域分布的城市休闲产业的基本空间分布规律与结构,而已有的空间聚类算法较多适用于城市用地分析,未能很... 城市休闲相关产业的高质量发展对当前我国城市消费升级以及人居环境质量提升具有重要现实意义。但是,现有研究未能精准地捕捉海量广域分布的城市休闲产业的基本空间分布规律与结构,而已有的空间聚类算法较多适用于城市用地分析,未能很好地适用于离散分布的城市休闲产业研究。为此,文章基于空间兴趣点数据,开发距离通达值及空间集群中心点等算法,构建城市休闲旅游产业聚类模式空间算法模型(APM)。在以广州为例的研究中,APM模型捕捉出3170个以500 m步行生活圈为范围的城市休闲产业集群,校验了APM模型的科学性与应用价值。整体上,APM算法可以较好地捕捉城市休闲业态集群的空间结构,清晰识别城市休闲产业空间冷、热点分布的基本结构,由其捕捉行程的聚类边界与实际道路和建筑走向、水系边界、区域范围等重合度高,聚类集群符合实际情况,具备可信度与有效性。该研究是休闲产业集聚机制研究的一次方法创新,在算法精度、实际应用、可视化效率上均做出了创新性推进。与Fishnet方法相比,可以更科学精准地识别城市内部多个休闲消费商圈的边界,实现了高效率的城市休闲产业集群捕捉;与同位模型相比,可以呈现多类别的城市休闲业态结构,突破了现有研究只能捕捉两类业态组团的局限。 展开更多
关键词 城市旅游休闲 产业集聚模式 空间数据挖掘 聚类算法 POI 广州市
在线阅读 下载PDF
多级冗余强干扰下医用三维力传感器数据的自动挖掘方法
6
作者 岳根霞 王剑 刘金花 《传感技术学报》 CAS CSCD 北大核心 2024年第8期1383-1388,共6页
针对医用三维力传感器容易受电磁场等外部环境的影响,产生大量相似特征数据,导致其输出紊乱信号,降低传感器控制精度和测量速度的问题,提出一种多级冗余强干扰下三维力传感器数据挖掘方法。根据角度标定理论采集三维力传感器冗余数据;... 针对医用三维力传感器容易受电磁场等外部环境的影响,产生大量相似特征数据,导致其输出紊乱信号,降低传感器控制精度和测量速度的问题,提出一种多级冗余强干扰下三维力传感器数据挖掘方法。根据角度标定理论采集三维力传感器冗余数据;引入相似度指数函数计算冗余因子,获取三维力传感器冗余数据活跃度,完成数据冗余分类;通过差值去噪算法高性能过滤三维力传感器冗余数据;利用谱聚类算法构建拉普拉斯矩阵,剔除冗余数据,实现三维力传感器数据自动挖掘。仿真结果表明,所提方法在多级冗余强干扰下的三维力传感器控制精度为96.54%,测量速度为0.61 ms,能量消耗为0.26 kcal。由此证明,所提方法的控制精度高、测量速度快、传输效果优,能够满足机器人辅助手术过程中的力反馈控制需求。 展开更多
关键词 三维力传感器 冗余数据 数据挖掘 角度标定 指数函数 差值去噪 谱聚类算法
在线阅读 下载PDF
Spark框架下支持差分隐私保护的K-means++聚类方法 被引量:5
7
作者 石江南 彭长根 谭伟杰 《信息安全研究》 CSCD 北大核心 2024年第8期712-718,共7页
针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初... 针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初始化中心点及迭代更新中心点的过程中,通过综合利用指数机制和拉普拉斯机制,以解决初始聚类中心敏感及隐私泄露问题,同时减少计算过程中对数据实施的扰动.根据差分隐私的特性,从理论角度对整个算法进行证明,以满足ε-差分隐私保护.实验结果证明了该方法在确保聚类结果可用性的前提下,具备出色的隐私保护能力和高效的运行效率. 展开更多
关键词 数据挖掘 聚类算法 差分隐私 Spark框架 指数机制
在线阅读 下载PDF
密度峰值聚类算法综述 被引量:58
8
作者 陈叶旺 申莲莲 +3 位作者 钟才明 王田 陈谊 杜吉祥 《计算机研究与发展》 EI CSCD 北大核心 2020年第2期378-394,共17页
密度峰值聚类(density peak,DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度... 密度峰值聚类(density peak,DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望. 展开更多
关键词 聚类算法 密度峰值 大数据 数据挖掘 密度聚类
在线阅读 下载PDF
数据挖掘中的聚类算法综述 被引量:230
9
作者 贺玲 吴玲达 蔡益朝 《计算机应用研究》 CSCD 北大核心 2007年第1期10-13,共4页
聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。全面总结了数据挖掘中聚类算法的研究现状,分析比较了它们的性能差异和各自存在的优点及问题,并结合多媒体领域的应用需求指出了其今后的发展趋势。
关键词 数据挖掘 聚类 聚类算法
在线阅读 下载PDF
复杂分布数据的二阶段聚类算法 被引量:33
10
作者 公茂果 王爽 +3 位作者 马萌 曹宇 焦李成 马文萍 《软件学报》 EI CSCD 北大核心 2011年第11期2760-2772,共13页
提出了一种用于复杂分布数据的二阶段聚类算法(two-phase clustering,简称TPC),TPC包含两个阶段:首先将数据划分为若干个球形分布的子类,每一个子类用其聚类中心代表该类内的所有样本;然后利用可以处理复杂分布数据的流形进化聚类(manif... 提出了一种用于复杂分布数据的二阶段聚类算法(two-phase clustering,简称TPC),TPC包含两个阶段:首先将数据划分为若干个球形分布的子类,每一个子类用其聚类中心代表该类内的所有样本;然后利用可以处理复杂分布数据的流形进化聚类(manifold evolutionary clustering,简称MEC)对第1阶段得到的聚类中心进行类别划分;最后综合两次聚类结果整理得到最终聚类结果.该算法基于改进的K-均值算法和MEC算法.在进化聚类算法的基础上引入流形距离,使得算法能够胜任复杂分布的数据聚类问题.同时,算法降低了引入流形距离所带来的计算量.在分布各异的7个人工数据集和7个UCI数据集测试了二阶段聚类算法,并将其效果与遗传聚类算法、K均值算法和流形进化聚类算法做了比较.实验结果表明,无论对于简单或复杂、凸或非凸的数据,TPC都表现出良好的聚类性能,并且计算时间与MEC相比明显减少. 展开更多
关键词 数据挖掘 聚类 K-均值算法 进化算法 流形
在线阅读 下载PDF
初始聚类中心优化的k-means算法 被引量:156
11
作者 袁方 周志勇 宋鑫 《计算机工程》 CAS CSCD 北大核心 2007年第3期65-66,共2页
传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表... 传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表明改进后的k-means算法能产生质量较高的聚类结果,并且消除了对初始输入的敏感性。 展开更多
关键词 数据挖掘 聚类 K-MEANS算法 聚类中心
在线阅读 下载PDF
一种Web用户行为聚类算法 被引量:20
12
作者 业宁 李威 +1 位作者 梁作鹏 董逸生 《小型微型计算机系统》 CSCD 北大核心 2004年第7期1364-1367,共4页
提出了一种新的路径相似度系数计算方法 ,并使之与雅可比相似系数结合 ,用于计算用户访问行为的相似度 ,在此基础之上又提出了一种分析 Web用户行为的聚类算法 (FCC) ,通过挖掘 Web日志 ,找出具有相似行为的 Web用户 .由于 FCC聚类算法... 提出了一种新的路径相似度系数计算方法 ,并使之与雅可比相似系数结合 ,用于计算用户访问行为的相似度 ,在此基础之上又提出了一种分析 Web用户行为的聚类算法 (FCC) ,通过挖掘 Web日志 ,找出具有相似行为的 Web用户 .由于 FCC聚类算法过滤了小于指定阈值的相似度系数 ,大大缩小了数据规模 ,很好地解决了其他聚类算法 (如层次聚类 )在高维空间聚类时的“维数灾难”问题 ,最后的实验结果很好 . 展开更多
关键词 WEB日志 数据挖掘 聚类 相似度
在线阅读 下载PDF
分布式安全审计系统设计与实现 被引量:18
13
作者 黄晨 胡红云 +1 位作者 蒋安东 谢俊元 《计算机工程与设计》 CSCD 北大核心 2007年第4期811-813,共3页
安全审计愈来愈受关注,但是大多数分布式安全审计系统仍不成熟。首先阐述了分布式安全审计的概念。然后介绍了一个基于数据挖掘技术的分布式分层的安全审计系统的功能及体系结构设计,并详细阐述了XML日志格式、多模式串匹配、模糊聚类... 安全审计愈来愈受关注,但是大多数分布式安全审计系统仍不成熟。首先阐述了分布式安全审计的概念。然后介绍了一个基于数据挖掘技术的分布式分层的安全审计系统的功能及体系结构设计,并详细阐述了XML日志格式、多模式串匹配、模糊聚类和关联安全规则等系统设计实现中采用的一些重要技术。提高了检测效率和发现未知攻击的能力,增强了系统的安全性,可以有效的对整个系统进行安全级别的评估。 展开更多
关键词 安全审计 分布式 入侵检测 数据挖掘 日志
在线阅读 下载PDF
基于改进Apriori算法的审计日志关联规则挖掘 被引量:49
14
作者 徐开勇 龚雪容 成茂才 《计算机应用》 CSCD 北大核心 2016年第7期1847-1851,共5页
针对安全审计系统中存在的智能程度低、日志信息没有充分利用的问题,提出一个基于关联规则挖掘的安全审计系统。该系统充分利用已有审计日志,结合数据挖掘技术,建立用户及系统的行为模式数据库,做到及时发现异常情况,提高了计算机的安... 针对安全审计系统中存在的智能程度低、日志信息没有充分利用的问题,提出一个基于关联规则挖掘的安全审计系统。该系统充分利用已有审计日志,结合数据挖掘技术,建立用户及系统的行为模式数据库,做到及时发现异常情况,提高了计算机的安全性。在传统Apriori算法的基础上提出一种改进的E-Apriori算法,该算法可以缩小待扫描事务集合的范围,降低算法的时间复杂度,提高运行效率。实验结果表明基于关联规则挖掘的审计系统对攻击类型的识别能力提升在10%以上,改进的E-Apriori算法相比经典Apriori算法和FP-GROWTH算法在性能上得到了提高,特别是在大型稀疏数据集中最高达到51%。 展开更多
关键词 安全审计系统 审计日志 数据挖掘 关联规则挖掘 APRIORI算法
在线阅读 下载PDF
FDBSCAN:一种快速 DBSCAN算法(英文) 被引量:42
15
作者 周水庚 周傲英 +2 位作者 金文 范晔 钱卫宁 《软件学报》 EI CSCD 北大核心 2000年第6期735-744,共10页
聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输... 聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输入一个参数 ,DBSCAN算法就能够发现任意形状的类 ,并可以有效地处理噪声 .文章提出了一种加快 DBSCAN算法的方法 .新算法以核心对象邻域中所有对象的代表对象为种子对象来扩展类 ,从而减少区域查询次数 ,降低 I/ O开销 .实验结果表明 ,FDBSCAN能够有效地对大规模数据库进行聚类 ,速度上数倍于 DBSCAN. 展开更多
关键词 大规模数据库 数据挖掘 聚类 快速DBSCAN算法 代表点
在线阅读 下载PDF
一种基于密度的空间数据流在线聚类算法 被引量:28
16
作者 于彦伟 王沁 +1 位作者 邝俊 何杰 《自动化学报》 EI CSCD 北大核心 2012年第6期1051-1059,共9页
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial data stream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点... 为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial data stream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033ms. 展开更多
关键词 空间数据挖掘 聚类数据流 基于密度的聚类 在线算法 噪声处理
在线阅读 下载PDF
从多角度分析现有聚类算法(英文) 被引量:86
17
作者 钱卫宁 周傲英 《软件学报》 EI CSCD 北大核心 2002年第8期1382-1394,共13页
聚类是数据挖掘中研究的重要问题之一.聚类分析就是把数据集分成簇,以使得簇内数据尽量相似,簇间数据尽量不同.不同的聚类方法采用不同的相似测度和技术.从以下3个角度分析现有流行聚类算法: (1)聚类尺度; (2)算法框架; (3)簇的表示.在... 聚类是数据挖掘中研究的重要问题之一.聚类分析就是把数据集分成簇,以使得簇内数据尽量相似,簇间数据尽量不同.不同的聚类方法采用不同的相似测度和技术.从以下3个角度分析现有流行聚类算法: (1)聚类尺度; (2)算法框架; (3)簇的表示.在此基础上,分析了一些综合或概括了一些其他方法的算法.由于分析从3个角度进行,所提出的方法能够涵盖,并区分绝大多数现有聚类算法.所做的工作是自调节聚类方法以及聚类基准测试研究的基础. 展开更多
关键词 多角度分析 聚类算法 数据挖掘 数据库 数据集
在线阅读 下载PDF
一种基于遗传算法的聚类新方法 被引量:21
18
作者 张伟 廖晓峰 吴中福 《计算机科学》 CSCD 北大核心 2002年第6期114-116,共3页
1 引言数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策... 1 引言数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。 展开更多
关键词 遗传算法 聚类 数据挖掘 数据库 数据查询
在线阅读 下载PDF
一种半监督K均值多关系数据聚类算法 被引量:22
19
作者 高滢 刘大有 +1 位作者 齐红 刘赫 《软件学报》 EI CSCD 北大核心 2008年第11期2814-2821,共8页
提出了一种半监督K均值多关系数据聚类算法.该算法在K均值聚类算法的基础上扩展了其初始类簇的选择方法和对象相似性度量方法,以用于多关系数据的半监督学习.为了获取高性能,该算法在聚类过程中充分利用了标记数据、对象属性及各种关系... 提出了一种半监督K均值多关系数据聚类算法.该算法在K均值聚类算法的基础上扩展了其初始类簇的选择方法和对象相似性度量方法,以用于多关系数据的半监督学习.为了获取高性能,该算法在聚类过程中充分利用了标记数据、对象属性及各种关系信息.多关系数据库Movie上的实验结果验证了该算法的有效性. 展开更多
关键词 数据挖掘 半监督学习 聚类算法 多关系数据 K均值聚类
在线阅读 下载PDF
WEKA数据挖掘平台及其二次开发 被引量:35
20
作者 陈慧萍 林莉莉 +1 位作者 王建东 苗新蕊 《计算机工程与应用》 CSCD 北大核心 2008年第19期76-79,共4页
在开源数据挖掘平台WEKA上进行了挖掘测试和分析,并分析了其存在的主要问题。为了克服WEKA系统在聚类方面的薄弱性,在WEKA的开源环境下进行二次开发,扩充了聚类算法。介绍了将k-中心点轮换算法嵌入到WEKA平台的过程,充分利用了开源WEKA... 在开源数据挖掘平台WEKA上进行了挖掘测试和分析,并分析了其存在的主要问题。为了克服WEKA系统在聚类方面的薄弱性,在WEKA的开源环境下进行二次开发,扩充了聚类算法。介绍了将k-中心点轮换算法嵌入到WEKA平台的过程,充分利用了开源WEKA中的类和可视化功能,并对嵌入的算法和原有聚类算法进行了对比分析。该算法改进了传统的k-中心点算法,避免陷入局部最优,而且它对初始点不太敏感,可以获取更好的聚类效果。 展开更多
关键词 数据挖掘 WEKA平台 聚类 k-中心点轮换算法
在线阅读 下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部