期刊文献+
共找到297篇文章
< 1 2 15 >
每页显示 20 50 100
A new clustering algorithm for large datasets 被引量:1
1
作者 李清峰 彭文峰 《Journal of Central South University》 SCIE EI CAS 2011年第3期823-829,共7页
The Circle algorithm was proposed for large datasets.The idea of the algorithm is to find a set of vertices that are close to each other and far from other vertices.This algorithm makes use of the connection between c... The Circle algorithm was proposed for large datasets.The idea of the algorithm is to find a set of vertices that are close to each other and far from other vertices.This algorithm makes use of the connection between clustering aggregation and the problem of correlation clustering.The best deterministic approximation algorithm was provided for the variation of the correlation of clustering problem,and showed how sampling can be used to scale the algorithms for large datasets.An extensive empirical evaluation was given for the usefulness of the problem and the solutions.The results show that this method achieves more than 50% reduction in the running time without sacrificing the quality of the clustering. 展开更多
关键词 data mining Circle algorithm clustering categorical data clustering aggregation
在线阅读 下载PDF
Linear manifold clustering for high dimensional data based on line manifold searching and fusing 被引量:1
2
作者 黎刚果 王正志 +2 位作者 王晓敏 倪青山 强波 《Journal of Central South University》 SCIE EI CAS 2010年第5期1058-1069,共12页
High dimensional data clustering,with the inherent sparsity of data and the existence of noise,is a serious challenge for clustering algorithms.A new linear manifold clustering method was proposed to address this prob... High dimensional data clustering,with the inherent sparsity of data and the existence of noise,is a serious challenge for clustering algorithms.A new linear manifold clustering method was proposed to address this problem.The basic idea was to search the line manifold clusters hidden in datasets,and then fuse some of the line manifold clusters to construct higher dimensional manifold clusters.The orthogonal distance and the tangent distance were considered together as the linear manifold distance metrics. Spatial neighbor information was fully utilized to construct the original line manifold and optimize line manifolds during the line manifold cluster searching procedure.The results obtained from experiments over real and synthetic data sets demonstrate the superiority of the proposed method over some competing clustering methods in terms of accuracy and computation time.The proposed method is able to obtain high clustering accuracy for various data sets with different sizes,manifold dimensions and noise ratios,which confirms the anti-noise capability and high clustering accuracy of the proposed method for high dimensional data. 展开更多
关键词 linear manifold subspace clustering line manifold data mining data fusing clustering algorithm
在线阅读 下载PDF
MR-CLOPE: A Map Reduce based transactional clustering algorithm for DNS query log analysis 被引量:2
3
作者 李晔锋 乐嘉锦 +2 位作者 王梅 张滨 刘良旭 《Journal of Central South University》 SCIE EI CAS CSCD 2015年第9期3485-3494,共10页
DNS(domain name system) query log analysis has been a popular research topic in recent years. CLOPE, the represented transactional clustering algorithm, could be readily used for DNS query log mining. However, the alg... DNS(domain name system) query log analysis has been a popular research topic in recent years. CLOPE, the represented transactional clustering algorithm, could be readily used for DNS query log mining. However, the algorithm is inefficient when processing large scale data. The MR-CLOPE algorithm is proposed, which is an extension and improvement on CLOPE based on Map Reduce. Different from the previous parallel clustering method, a two-stage Map Reduce implementation framework is proposed. Each of the stage is implemented by one kind Map Reduce task. In the first stage, the DNS query logs are divided into multiple splits and the CLOPE algorithm is executed on each split. The second stage usually tends to iterate many times to merge the small clusters into bigger satisfactory ones. In these two stages, a novel partition process is designed to randomly spread out original sub clusters, which will be moved and merged in the map phrase of the second phase according to the defined merge criteria. In such way, the advantage of the original CLOPE algorithm is kept and its disadvantages are dealt with in the proposed framework to achieve more excellent clustering performance. The experiment results show that MR-CLOPE is not only faster but also has better clustering quality on DNS query logs compared with CLOPE. 展开更多
关键词 DNS data mining MR-CLOPE algorithm transactional clustering algorithm Map Reduce framework
在线阅读 下载PDF
Outlier detection based on multi-dimensional clustering and local density
4
作者 SHOU Zhao-yu LI Meng-ya LI Si-min 《Journal of Central South University》 SCIE EI CAS CSCD 2017年第6期1299-1306,共8页
Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outl... Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outlier. In this work, an effective outlier detection method based on multi-dimensional clustering and local density(ODBMCLD) is proposed. ODBMCLD firstly identifies the center objects by the local density peak of data objects, and clusters the whole dataset based on the center objects. Then, outlier objects belonging to different clusters will be marked as candidates of abnormal data. Finally, the top N points among these abnormal candidates are chosen as final anomaly objects with high outlier factors. The feasibility and effectiveness of the method are verified by experiments. 展开更多
关键词 data mining OUTLIER DETECTION OUTLIER DETECTION method based on MULTI-DIMENSIONAL clustering and local density (ODBMCLD) algorithm deviation DEGREE
在线阅读 下载PDF
Spark框架下支持差分隐私保护的K-means++聚类方法 被引量:5
5
作者 石江南 彭长根 谭伟杰 《信息安全研究》 CSCD 北大核心 2024年第8期712-718,共7页
针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初... 针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初始化中心点及迭代更新中心点的过程中,通过综合利用指数机制和拉普拉斯机制,以解决初始聚类中心敏感及隐私泄露问题,同时减少计算过程中对数据实施的扰动.根据差分隐私的特性,从理论角度对整个算法进行证明,以满足ε-差分隐私保护.实验结果证明了该方法在确保聚类结果可用性的前提下,具备出色的隐私保护能力和高效的运行效率. 展开更多
关键词 数据挖掘 聚类算法 差分隐私 Spark框架 指数机制
在线阅读 下载PDF
初始聚类中心优化的k-means算法 被引量:157
6
作者 袁方 周志勇 宋鑫 《计算机工程》 CAS CSCD 北大核心 2007年第3期65-66,共2页
传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表... 传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表明改进后的k-means算法能产生质量较高的聚类结果,并且消除了对初始输入的敏感性。 展开更多
关键词 数据挖掘 聚类 k-means算法 聚类中心
在线阅读 下载PDF
基于聚类分析的K-means算法研究及应用 被引量:126
7
作者 张建萍 刘希玉 《计算机应用研究》 CSCD 北大核心 2007年第5期166-168,共3页
通过对聚类分析及其算法的论述,从多个方面对这些算法性能进行比较,同时以儿童生长发育时期的数据为例通过聚类分析的软件和改进的K-means算法来进一步阐述聚类分析在数据挖掘中的实践应用。
关键词 数据挖掘 聚类分析 数据库 聚类算法
在线阅读 下载PDF
UIDK-means:多维不确定性测量数据聚类算法 被引量:18
8
作者 彭宇 罗清华 彭喜元 《仪器仪表学报》 EI CAS CSCD 北大核心 2011年第6期1201-1207,共7页
在网络化测试测量信息体系的不确定性测量数据聚类方法研究中,普遍假定测量数据的概率密度函数或者概率分布函数等信息是已知的,这与实际应用系统中这些信息难以获取的情况是相悖的,鉴于此,利用区间数的方法,结合测量数据的统计值来合... 在网络化测试测量信息体系的不确定性测量数据聚类方法研究中,普遍假定测量数据的概率密度函数或者概率分布函数等信息是已知的,这与实际应用系统中这些信息难以获取的情况是相悖的,鉴于此,利用区间数的方法,结合测量数据的统计值来合理地表示多维不确定性测试测量数据,并采用低计算复杂度的不确定性数据距离计算方法,提出一种基于区间数的多维不确定性数据聚类方法——UIDK-means。实验结果表明,该方法具有较高的聚类精度和较低的计算复杂度。 展开更多
关键词 不确定性数据 不确定性数据挖掘 聚类算法
在线阅读 下载PDF
基于自适应布谷鸟搜索算法的K-means聚类算法及其应用 被引量:22
9
作者 杨辉华 王克 +2 位作者 李灵巧 魏文 何胜韬 《计算机应用》 CSCD 北大核心 2016年第8期2066-2070,共5页
针对原始K-means聚类算法受初始聚类中心影响过大以及容易陷入局部最优的不足,提出一种基于改进布谷鸟搜索(CS)的K-means聚类算法(ACS-K-means)。其中,自适应CS(ACS)算法在标准CS算法的基础上引入步长自适应调整,以提高搜索精度和收敛... 针对原始K-means聚类算法受初始聚类中心影响过大以及容易陷入局部最优的不足,提出一种基于改进布谷鸟搜索(CS)的K-means聚类算法(ACS-K-means)。其中,自适应CS(ACS)算法在标准CS算法的基础上引入步长自适应调整,以提高搜索精度和收敛速度。在UCI标准数据集上,ACS-K-means算法可得到比K-means、基于遗传算法的K-means(GA-K-means)、基于布谷鸟搜索的K-means(CS-K-means)和基于粒子群优化的K-means(PSO-K-means)算法更优的聚类质量和更高的收敛速度。将ACS-K-means聚类算法应用到南宁市青秀区"城管通"系统的城管案件热图的开发中,在地图上对案件地理坐标进行聚类并显示,应用结果表明,聚类效果良好,算法收敛速度快。 展开更多
关键词 数据挖掘 k-means聚类 布谷鸟搜索算法 数字城管 热图
在线阅读 下载PDF
基于k-d树的k-means聚类方法 被引量:5
10
作者 孙总参 陶兰 +1 位作者 齐建东 王保迎 《计算机工程与设计》 CSCD 2004年第11期2054-2057,共4页
在直接k-means算法的基础上提出了一种新的基于k-d树的聚类方法。通过把所有的对象组织在一棵k-d树中,可以高效地发现给定原型的所有最近邻对象。利用的主要思想是:在根结点,所有的聚类中心(或称为候选原型)都是所有对象的最近邻候选集... 在直接k-means算法的基础上提出了一种新的基于k-d树的聚类方法。通过把所有的对象组织在一棵k-d树中,可以高效地发现给定原型的所有最近邻对象。利用的主要思想是:在根结点,所有的聚类中心(或称为候选原型)都是所有对象的最近邻候选集合,对于根结点的子结点,通过简单几何约束来剪枝该候选集,这种方法可以被递归使用。使用基于k-d树的方法可以使直接k-means算法的总体性能提高一到两个数量级。 展开更多
关键词 K-D树 k-means算法 候选集 k-means聚类 对象组 结点 递归 类方 根结 方法
在线阅读 下载PDF
基于混合遗传算法的K-Means最优聚类算法 被引量:8
11
作者 吕强 俞金寿 《华东理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第2期219-222,共4页
针对遗传算法的K-Means聚类算法在遗传过程中容易受到适应度最大染色体的影响,存在过早收敛于局部最优值和遗传算法的局部搜索性能较差的问题,提出了结合混沌优化方法形成的混合遗传算法。仿真实验表明:该方法有效地克服了遗传算法的早... 针对遗传算法的K-Means聚类算法在遗传过程中容易受到适应度最大染色体的影响,存在过早收敛于局部最优值和遗传算法的局部搜索性能较差的问题,提出了结合混沌优化方法形成的混合遗传算法。仿真实验表明:该方法有效地克服了遗传算法的早熟问题,从而得到最优的聚类中心。 展开更多
关键词 数据挖掘 遗传算法 混沌优化 聚类
在线阅读 下载PDF
改进K-means算法在入侵检测中的应用研究 被引量:13
12
作者 王茜 刘胜会 《计算机工程与应用》 CSCD 北大核心 2015年第17期124-127,144,共5页
为了弥补传统K-means聚类算法在K值确定和初始中心选择难等方面的不足,基于"合并与分裂"思想,提出一种改进的K-means聚类算法。将数据独立程度概念引入实验数据子集构造理论中,利用独立程度评价属性的重要性;根据点密度将数... 为了弥补传统K-means聚类算法在K值确定和初始中心选择难等方面的不足,基于"合并与分裂"思想,提出一种改进的K-means聚类算法。将数据独立程度概念引入实验数据子集构造理论中,利用独立程度评价属性的重要性;根据点密度将数据集合并为若干类,结合最小支撑树聚类算法与传统K-means聚类算法实现分裂;使用KDD Cup99数据集对改进算法在入侵检测中的应用进行仿真实验。结果表明,改进算法在检测率和误报率方面均优于传统K-means算法。 展开更多
关键词 入侵检测 数据挖掘 聚类算法 k-means聚类 最小支撑树
在线阅读 下载PDF
基于改进K-means聚类算法的室内WLAN定位研究 被引量:14
13
作者 陈望 贾振红 +2 位作者 覃锡忠 曹传玲 常春 《激光杂志》 CAS CSCD 北大核心 2014年第7期11-14,共4页
位置指纹法定位中所建立的位置指纹库能否正确反映指纹信号与位置之间的映射关系将影响最终定位效果。本文将一种改进的K-means聚类算法运用于WLAN室内指纹数据库的建立,较之传统K-means聚类算法所建立的指纹数据库,采用了改进K-means... 位置指纹法定位中所建立的位置指纹库能否正确反映指纹信号与位置之间的映射关系将影响最终定位效果。本文将一种改进的K-means聚类算法运用于WLAN室内指纹数据库的建立,较之传统K-means聚类算法所建立的指纹数据库,采用了改进K-means聚类算法所建立起来的指纹数据库优化了初始聚类中心选择方法及准则函数,避免了被聚类的指纹数据陷入局部解现象。实验结果表明:本文所提算法建立的指纹数据库可提高WLAN室内定位精度,缩短定位时间。 展开更多
关键词 无线通信技术 WLAN定位 位置指纹 k-means聚类算法 数据挖掘
在线阅读 下载PDF
改进的k-means聚类算法在客户细分中的应用研究 被引量:8
14
作者 杜巍 赵春荣 黄伟建 《河北经贸大学学报》 CSSCI 北大核心 2014年第1期118-121,共4页
聚类分析是数据挖掘的一种重要方法,将它应用在客户细分中,可以识别出不同的客户群,从而针对不同的客户群制定相应的营销政策,使企业效益最大化。针对聚类分析中k-means算法的不足,运用改进的聚类算法对旅游业客户进行细分,从而使企业... 聚类分析是数据挖掘的一种重要方法,将它应用在客户细分中,可以识别出不同的客户群,从而针对不同的客户群制定相应的营销政策,使企业效益最大化。针对聚类分析中k-means算法的不足,运用改进的聚类算法对旅游业客户进行细分,从而使企业能够更合理地细分、规划客户群组,针对不同需求的客户群体进行区别对待,得到了较好的效果,验证了改进算法的可行性和高效性。 展开更多
关键词 聚类分析 客户细分 数据挖掘 改进的k—means算法 客户群
在线阅读 下载PDF
一种增强的k-means聚类算法 被引量:15
15
作者 蒋盛益 李庆华 《计算机工程与科学》 CSCD 2006年第11期56-59,共4页
本文针对k-modes算法在类的表示方面存在的不足,提出用摘要信息来表示一个类,并给出了一种适用于混合属性的距离定义,得到增强的k-means算法——k-summary算法。理论分析和实验结果表明,k-summary算法较k-modes算法和k-prototypes算法... 本文针对k-modes算法在类的表示方面存在的不足,提出用摘要信息来表示一个类,并给出了一种适用于混合属性的距离定义,得到增强的k-means算法——k-summary算法。理论分析和实验结果表明,k-summary算法较k-modes算法和k-prototypes算法具有更好的精度。 展开更多
关键词 数据挖掘 聚类算法 κ-summary 算法
在线阅读 下载PDF
CMP上基于数据集划分的K-means多核优化算法 被引量:4
16
作者 申彦 朱玉全 《智能系统学报》 CSCD 北大核心 2015年第4期607-614,共8页
虽然现在多核CPU非常普及,但传统K-means聚类算法由于没有专门进行并行化设计,不能充分利用现代CPU的多核计算能力,算法针对大规模数据集的聚类效率有待进一步提高。因此,对K-means算法进行CMP并行化改进,提出了一种Multi-core K-means(... 虽然现在多核CPU非常普及,但传统K-means聚类算法由于没有专门进行并行化设计,不能充分利用现代CPU的多核计算能力,算法针对大规模数据集的聚类效率有待进一步提高。因此,对K-means算法进行CMP并行化改进,提出了一种Multi-core K-means(MC-K-means)算法。该算法对K-means的聚类任务进行了分解,设计了独立且均衡的聚类子任务并分配给各线程并行执行,以此利用现代CPU的多核计算能力。实验结果表明,MC-K-means相比K-means获得了较高的多核加速比,提高了针对大规模数据集的聚类能力。 展开更多
关键词 K均值算法 聚类算法 单片多核 大规模数据集 数据挖掘 无监督学习 大数据
在线阅读 下载PDF
分批处理的K-means算法并行实现 被引量:2
17
作者 兰远东 刘宇芳 徐涛 《计算机工程》 CAS CSCD 2012年第13期145-147,151,共4页
为解决K-means算法计算量大、收敛缓慢、运算耗时长等问题,给出一种新的K-means算法的并行实现方法。在通用计算图形处理器架构上,使用统一计算设备架构(CUDA)加速K-means算法。采用分批原则,更合理地运用CUDA提供的各种存储器,避免访... 为解决K-means算法计算量大、收敛缓慢、运算耗时长等问题,给出一种新的K-means算法的并行实现方法。在通用计算图形处理器架构上,使用统一计算设备架构(CUDA)加速K-means算法。采用分批原则,更合理地运用CUDA提供的各种存储器,避免访问冲突,同时减少对数据集的访问次数,以提高算法效率。在大规模数据集中的实验结果表明,该算法具有较快的聚类速度。 展开更多
关键词 数据挖掘 k-means算法 统一计算设备架构 并行算法 聚类分析 图形处理器
在线阅读 下载PDF
基于划分的数据挖掘K-means聚类算法分析 被引量:19
18
作者 曾俊 《现代电子技术》 北大核心 2020年第3期14-17,共4页
为提升数据挖掘中聚类分析的效果,在分析数据挖掘、聚类分析、传统K⁃means算法的基础上,提出一种改进的K⁃means算法。首先将整体数据集分为k类,然后设定一个密度参数为ϑ,该密度参数反映数据库中数据所处区域的密度大小,ϑ值与密度大小成... 为提升数据挖掘中聚类分析的效果,在分析数据挖掘、聚类分析、传统K⁃means算法的基础上,提出一种改进的K⁃means算法。首先将整体数据集分为k类,然后设定一个密度参数为ϑ,该密度参数反映数据库中数据所处区域的密度大小,ϑ值与密度大小成正比,通过密度参数优化k个样本数据的聚类中心点选取;依据欧几里得距离公式对未选取的其他数据到各个聚类中心之间的距离进行计算,同时以此距离为判别标准,对各个数据进行种类划分,从而得到初始的聚类分布;初始聚类分布得到之后,对每一个分布簇进行再一次的中心点计算,并判断与之前所取中心点是否相同,直到其聚类收敛达到最优效果。最后通过葡萄酒数据集对改进算法进行验证分析,改进算法比传统K⁃means算法的聚类效果更优,能够更好地在数据挖掘当中进行聚类。 展开更多
关键词 数据挖掘 聚类分析 K⁃means聚类算法 聚类中心选取 K⁃means算法改进 初始中心点
在线阅读 下载PDF
基于2K-means算法的读者兴趣分类图书自动推荐系统设计 被引量:4
19
作者 林艳凤 苑吉洋 《现代电子技术》 北大核心 2020年第20期141-144,148,共5页
为了能够满足读者的个人兴趣特点和应用需求,提出基于读者兴趣分类的图书自动推荐系统设计思路。介绍了读者兴趣需求的图书自动推荐系统设计理论技术基础,包括数学挖掘、2K-means算法及UML语言。详细分析了基于读者兴趣分类的图书自动... 为了能够满足读者的个人兴趣特点和应用需求,提出基于读者兴趣分类的图书自动推荐系统设计思路。介绍了读者兴趣需求的图书自动推荐系统设计理论技术基础,包括数学挖掘、2K-means算法及UML语言。详细分析了基于读者兴趣分类的图书自动推荐系统需求和性能需求,将读者的兴趣与图书类别完成聚类分析,并提取最终聚类所获结果匹配图书类别,建立读者兴趣分类图书自动化推荐模型。引入聚类算法、关联规则算法实现读者感兴趣图书规律的统计分析,从而整合读者的图书信息源并充分发现具有较大价值的信息,最终将与相似性需求相符的图书,采用电子邮件或网页方式,自动推荐给读者。该系统设计能够为读者提供可能感兴趣的图书摘要、馆藏类相关信息,且运行性能良好,具有良好的推广应用前景。 展开更多
关键词 读者兴趣分类 图书自动推荐 系统设计 2k-means算法 数据挖掘 聚类分析
在线阅读 下载PDF
基于K-means聚类和遗传算法的少数类样本采样方法研究 被引量:4
20
作者 杨永 王莉利 《科学技术与工程》 2010年第10期2334-2338,共5页
传统的分类器对不均衡数据集的分类严重倾向于多数类。为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法。通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗... 传统的分类器对不均衡数据集的分类严重倾向于多数类。为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法。通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性。 展开更多
关键词 k-means算法 聚类 遗传算法 不均衡数据集
在线阅读 下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部