期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
一种基于加权多代表点的层次聚类算法 被引量:5
1
作者 倪维健 黄亚楼 +1 位作者 李飞 刘赏 《计算机科学》 CSCD 北大核心 2005年第5期150-154,共5页
CURE算法是一种凝聚的层次聚类算法,它首先提出了使用多代表点描述簇的思想。本文通过对已有的基于多代表点的层次聚类算法特点的分析,提出了一种新的基于多代表点的层次聚类算法WRPC。它使用了基于影响因子的簇代表点选取机制和基于k-... CURE算法是一种凝聚的层次聚类算法,它首先提出了使用多代表点描述簇的思想。本文通过对已有的基于多代表点的层次聚类算法特点的分析,提出了一种新的基于多代表点的层次聚类算法WRPC。它使用了基于影响因子的簇代表点选取机制和基于k-近邻方法的小簇合并机制,可以发现形状、尺寸更为复杂的簇。实验结果表明,该算法在保证执行效率的情况下取得了更好的聚类效果。 展开更多
关键词 算法 代表 加权 K-近邻 影响因子 效果 执行效率 机制
在线阅读 下载PDF
结合代表点和密度峰的增量动态聚类算法 被引量:6
2
作者 郑河荣 陈恳 潘翔 《浙江工业大学学报》 CAS 北大核心 2017年第4期427-433,共7页
为了解决增量大数据聚类速度缓慢问题,提出了一种结合密度峰和代表点分析的快速聚类算法.先对样本集进行初始化聚类,然后根据删除失效的聚类数据调节聚类簇群的密度均值,再利用代表点的算法对样本集进行更新,最后采用密度峰算法进行重... 为了解决增量大数据聚类速度缓慢问题,提出了一种结合密度峰和代表点分析的快速聚类算法.先对样本集进行初始化聚类,然后根据删除失效的聚类数据调节聚类簇群的密度均值,再利用代表点的算法对样本集进行更新,最后采用密度峰算法进行重复聚类从而更新聚类核心点.通过实验分析表明:该算法可有效提高算法收敛速度.在应用方面,将这种聚类算法引用到大数据量的人脸聚类工作中,优化人脸聚类的效果. 展开更多
关键词 时效性 在线 代表 密度均值
在线阅读 下载PDF
基于代表点与K近邻的密度峰值聚类算法 被引量:12
3
作者 张清华 周靖鹏 +1 位作者 代永杨 王国胤 《软件学报》 EI CSCD 北大核心 2023年第12期5629-5648,共20页
密度峰值聚类(density peaks clustering,DPC)是一种基于密度的聚类算法,该算法可以直观地确定类簇数量,识别任意形状的类簇,并且自动检测、排除异常点.然而,DPC仍存在些许不足:一方面,DPC算法仅考虑全局分布,在类簇密度差距较大的数据... 密度峰值聚类(density peaks clustering,DPC)是一种基于密度的聚类算法,该算法可以直观地确定类簇数量,识别任意形状的类簇,并且自动检测、排除异常点.然而,DPC仍存在些许不足:一方面,DPC算法仅考虑全局分布,在类簇密度差距较大的数据集聚类效果较差;另一方面,DPC中点的分配策略容易导致“多米诺效应”.为此,基于代表点(representative points)与K近邻(K-nearest neighbors,KNN)提出了RKNN-DPC算法.首先,构造了K近邻密度,再引入代表点刻画样本的全局分布,提出了新的局部密度;然后,利用样本的K近邻信息,提出一种加权的K近邻分配策略以缓解“多米诺效应”;最后,在人工数据集和真实数据集上与5种聚类算法进行了对比实验,实验结果表明,所提出的RKNN-DPC可以更准确地识别类簇中心并且获得更好的聚类结果. 展开更多
关键词 分析 密度峰值 代表 K近邻(KNN)
在线阅读 下载PDF
一种基于代表点的快速聚类算法 被引量:4
4
作者 李晓翠 孟凡荣 周勇 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第4期504-512,共9页
目前经典的聚类算法在内存空间有限的情况下,聚类受到时间、空间等各方面的限制,提出一种基于代表点的快速聚类算法FCBRP(fast clustering based representative points).首先,判定数据集中所有节点的属性,当节点的D临域内存在大于等于... 目前经典的聚类算法在内存空间有限的情况下,聚类受到时间、空间等各方面的限制,提出一种基于代表点的快速聚类算法FCBRP(fast clustering based representative points).首先,判定数据集中所有节点的属性,当节点的D临域内存在大于等于K个邻居节点时,将其定义为代表点,代表点D临域内所有邻居节点与该代表点之间的平均欧氏距离即为该代表点的相关密度RD,所有的代表点组成代表点集合;将所有在代表点的D临域内的节点定义为能被代表的节点,并将其进行存储;既不是代表点、又不能被其它节点所代表的节点,将其定义为噪音节点;其次,对代表点集合进行聚类,对于给定的密度标准α,如果两个代表点满足密度相关,即两个代表点的相关密度分别乘以密度标准α后同时大于等于两者之间的欧氏距离,则将其划分到同一类簇中,通过对代表点的聚类,达到对数据的区域划分,得到所有类簇的基本形状;最后,对于被其它代表点所代表的节点,通过检测代表它们的代表点所属的类簇,判定被代表的节点所属的类簇,对于少数位于不同类簇中的代表点的D临域内的节点,将其划分到相对距离较近的代表点所属的类簇中.实验证明,FCBRP算法对空间需求较小,效率快,精度高,鲁棒性更佳. 展开更多
关键词 代表选取 代表 FCBRP算法
在线阅读 下载PDF
多代表点特征树与空间聚类算法 被引量:5
5
作者 黄添强 秦小麟 王金栋 《计算机科学》 CSCD 北大核心 2006年第12期189-195,共7页
空间数据具有海量、复杂、连续、空间自相关、存在缺损与误差等的特点,要求空间聚类算法具有高效率,能处理各种复杂形状的簇,聚类结果与数据空间分布顺序无关,并且对离群点是健壮的等性能,已有的算法难以同时满足要求。本文提出了一个... 空间数据具有海量、复杂、连续、空间自相关、存在缺损与误差等的特点,要求空间聚类算法具有高效率,能处理各种复杂形状的簇,聚类结果与数据空间分布顺序无关,并且对离群点是健壮的等性能,已有的算法难以同时满足要求。本文提出了一个适合处理海量复杂空间数据的数据结构-多代表点特征树。基于多代表点特征树提出了适合挖掘海量复杂空间数据聚类算法CAMFT,该算法利用多代表点特征树对海量的数据进行压缩,结合随机采样的方法进一步增强算法处理海量数据的能力;同时,多代表点特征树能够保存复杂形状的聚类特征,适合处理复杂空间数据。实验表明了算法CAMFT能够快速处理带有离群点的复杂形状聚类的空间数据,结果与对象空间分布顺序无关,并且效率优于已有的同类聚类算法BIRCH与CURE。 展开更多
关键词 空间 空间数据 代表特征树
在线阅读 下载PDF
云计算环境下基于代表点增量层次密度聚类的微博事件检测及跟踪 被引量:3
6
作者 冯永 韩楠 贾东风 《计算机应用》 CSCD 北大核心 2013年第12期3559-3562,3595,共5页
为从微博服务平台产生的大量实时信息中抽取新闻事件,提出了一套完整的云计算环境下的微博事件检测跟踪算法。首先采用新的基于微博转发数和评论数的权值计算方法,将微博文本表示成向量空间模型;再利用基于代表点的增量层次密度聚类(RIH... 为从微博服务平台产生的大量实时信息中抽取新闻事件,提出了一套完整的云计算环境下的微博事件检测跟踪算法。首先采用新的基于微博转发数和评论数的权值计算方法,将微博文本表示成向量空间模型;再利用基于代表点的增量层次密度聚类(RIHDBSCAN)算法抽取关键词,最终实现新闻事件的检测和跟踪。针对单一节点无法快速高效地处理海量微博数据的问题,将算法部署在云计算平台Hadoop上。通过在新浪微博平台上获取的真实数据进行实验,结果表明,所提出的权值计算方法比TF-IDF和UF-ITUF有更高的性能,并且云框架的使用较好地提高了处理速度,适合用于海量数据的分析和挖掘。 展开更多
关键词 微博 事件检测 密度算法 云计算 HADOOP平台 代表
在线阅读 下载PDF
一种基于代表点的增量聚类算法 被引量:2
7
作者 孟凡荣 李晓翠 周勇 《计算机应用研究》 CSCD 北大核心 2012年第8期2865-2867,共3页
针对现有的增量聚类算法对参数敏感度较高、时空复杂度较高等问题,提出了一种基于代表点的增量聚类算法。首先采用代表点聚类算法对静态的数据库进行聚类;然后根据新增加的节点与已存的代表点之间的关系,判断是否将其添加到已存的代表... 针对现有的增量聚类算法对参数敏感度较高、时空复杂度较高等问题,提出了一种基于代表点的增量聚类算法。首先采用代表点聚类算法对静态的数据库进行聚类;然后根据新增加的节点与已存的代表点之间的关系,判断是否将其添加到已存的代表点所属的类簇中,或是提升为新的代表点;最后,再次采用代表点聚类算法对其进行聚类。实验结果证明,该算法对参数的敏感性低、效率高、占用空间小。 展开更多
关键词 代表 属性 增量
在线阅读 下载PDF
基于模态代表点的聚类评价方法
8
作者 吕宗磊 王建东 徐涛 《系统工程与电子技术》 EI CSCD 北大核心 2009年第8期1997-2002,共6页
提出了一种新的聚类评价方法,该方法以聚类的代表点表示法为基础,在经典方法上做出了改进。首先将聚类结果对应于模态逻辑中Kripke结构;然后利用模态逻辑中语法与语义之间的对应性选取了相应的公理系统。通过公式之间的蕴涵关系,选择一... 提出了一种新的聚类评价方法,该方法以聚类的代表点表示法为基础,在经典方法上做出了改进。首先将聚类结果对应于模态逻辑中Kripke结构;然后利用模态逻辑中语法与语义之间的对应性选取了相应的公理系统。通过公式之间的蕴涵关系,选择一组极少的数据点来表示聚类结果的各种信息,形成聚类的模态代表点。在此基础上,给出了相应的聚类评价方法。这种方法除了可以评价聚类结果的优劣,还可以分析出簇的形态。实验表明,与一些常用聚类评价指标相比,这种评价方法更具通用性。 展开更多
关键词 数据挖掘 评价 代表 模态逻辑
在线阅读 下载PDF
代表点一致性约束的多视角模糊聚类算法 被引量:18
9
作者 张远鹏 周洁 +4 位作者 邓赵红 钟富礼 蒋亦樟 杭文龙 王士同 《软件学报》 EI CSCD 北大核心 2019年第2期282-301,共20页
多视角数据的涌现对传统单视角聚类算法提出了挑战.利用单视角聚类算法独立地对每个视角进行划分,再通过集成机制获取全局划分的方法,人为地割裂了视角之间的内在联系,难以获得理想的聚类效果.针对此问题,提出了一个多视角聚类模型.该... 多视角数据的涌现对传统单视角聚类算法提出了挑战.利用单视角聚类算法独立地对每个视角进行划分,再通过集成机制获取全局划分的方法,人为地割裂了视角之间的内在联系,难以获得理想的聚类效果.针对此问题,提出了一个多视角聚类模型.该模型不仅考虑了视角内的划分质量,还兼顾了视角间的协同学习机制.对于视角内的划分,为了捕捉更为准确的簇内结构信息,采用多代表点的簇结构表示策略;对于视角间的协同学习机制,假设簇中代表点在不同视角下,其代表性保持.因此,在该模型基础上提出了基于代表点一致性约束的多视角模糊聚类算法(multi-view fuzzy clustering with a medoid invariant constraint,简称MFCMddI).该算法通过最大化两两相邻视角下代表点权重系数的乘积之和来保证代表点一致性.MFCMddI的目标函数可通过引入拉格朗日乘子和KKT条件进行优化.在人工数据集以及真实数据集上的实验结果均表明,该算法相对于所引入的对比算法而言具有一定的优势. 展开更多
关键词 多视角 代表 代表一致性 模糊 协同学习 MRI 分割
在线阅读 下载PDF
一种基于代表点和点密度的聚类算法 被引量:2
10
作者 陈园园 陈治平 《计算机工程与应用》 CSCD 北大核心 2008年第28期136-139,共4页
针对基于密度的聚类方法不能发现密度分布不均的数据样本的缺陷,提出了一种基于代表点和点密度的聚类算法。算法通过检查数据库中每个点的k近邻来寻找聚类。首先选取一个种子点作为类的第一个代表点,其k近邻为其代表区域,如果代表区域... 针对基于密度的聚类方法不能发现密度分布不均的数据样本的缺陷,提出了一种基于代表点和点密度的聚类算法。算法通过检查数据库中每个点的k近邻来寻找聚类。首先选取一个种子点作为类的第一个代表点,其k近邻为其代表区域,如果代表区域中的点密度满足密度阈值,则将该点作为一个新的代表点,如此反复地寻找代表点,这些区域相连的代表点及其代表区域将构成一个聚类。实验结果表明,该算法能够发现任意形状、大小和密度的聚类。 展开更多
关键词 数据挖掘 密度 代表 密度阈值
在线阅读 下载PDF
一种基于代表点的分布式数据流聚类算法 被引量:1
11
作者 高兵 张健沛 杨静 《计算机应用研究》 CSCD 北大核心 2012年第8期2845-2848,共4页
为发现分布式数据流下不同形状的聚簇,提出了一种基于代表点的聚类算法。算法首先在代表点定义的基础上,提出环点的概念以及迭代查找密度相连环点的算法,在此基础上生成远程站点的局部模型;然后在协调站点设计合并局部模型,生成全局聚... 为发现分布式数据流下不同形状的聚簇,提出了一种基于代表点的聚类算法。算法首先在代表点定义的基础上,提出环点的概念以及迭代查找密度相连环点的算法,在此基础上生成远程站点的局部模型;然后在协调站点设计合并局部模型,生成全局聚簇的算法。通过真实数据集与仿真数据集的实验表明,算法使用代表点能够发现不同形状的聚簇并显著降低数据传输量,同时通过测试—更新局部模型算法避免了频繁发送数据。 展开更多
关键词 分布式数据流 数据挖掘 演化 代表
在线阅读 下载PDF
基于CURE的用户聚类算法研究 被引量:8
12
作者 赵妍 赵学民 《计算机工程与应用》 CSCD 2012年第11期97-101,共5页
通过对Web网站的日志进行聚类分析,目的是获取用户兴趣访问模式,进而为不同用户群体提供定制的个性化服务。针对原始CURE算法在代表点选择的随机性、不能充分体现用户兴趣偏好方面存在的问题,提出了改进的用户聚类算法,根据用户兴趣的... 通过对Web网站的日志进行聚类分析,目的是获取用户兴趣访问模式,进而为不同用户群体提供定制的个性化服务。针对原始CURE算法在代表点选择的随机性、不能充分体现用户兴趣偏好方面存在的问题,提出了改进的用户聚类算法,根据用户兴趣的显著特征提取元素的主要属性进行预聚类,为小类合并提供合理的初始类集,实验结果证明了该方法有较好的聚类结果。 展开更多
关键词 利用代表(cure)算法 分析 用户兴趣 个性化
在线阅读 下载PDF
引入信息熵的CURE聚类算法 被引量:14
13
作者 伍恒 李文杰 蒋旻 《计算机应用研究》 CSCD 北大核心 2017年第8期2303-2305,共3页
为了提高传统CURE(clustering using representatives)聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中元素提供的信息度量不同簇之间的相互关系,并描述数... 为了提高传统CURE(clustering using representatives)聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中元素提供的信息度量不同簇之间的相互关系,并描述数据的分布;在高、低层聚类阶段,采取不同的选取策略,分别选取相应的代表点。在UCI和人造数据集上的实验结果表明,提出的算法在一定程度上提高了聚类的准确率,且在大型数据集上比传统CURE算法有着更高的聚类效率。 展开更多
关键词 层次 cure算法 信息熵 代表选取
在线阅读 下载PDF
一种基于划分的层次聚类算法 被引量:13
14
作者 沈洁 赵雷 +1 位作者 杨季文 李榕 《计算机工程与应用》 CSCD 北大核心 2007年第31期175-177,共3页
CURE算法是针对大规模数据聚类算法的典型代表。提出了一种新的算法K-CURE,该方法基于划分思想对CURE算法作了改进,同时给出了在聚类中剔除孤立点的时机选择方法。测试表明,改进后的算法效率明显高于原算法,且聚类效果良好。
关键词 数据挖掘 层次 代表对象 cure 孤立
在线阅读 下载PDF
数据挖掘中聚类算法比较研究 被引量:35
15
作者 张红云 刘向东 +2 位作者 段晓东 苗夺谦 马垣 《计算机应用与软件》 CSCD 北大核心 2003年第2期5-6,77,共3页
聚类算法是数据挖掘的核心技术,本文综合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类算法作了比较分析,以便于人们更容易、更快捷地找到一种适用于特定问题的聚类算法。
关键词 数据挖掘 算法 平衡迭代削减算法 代表算法 数据库
在线阅读 下载PDF
一种基于样点代表性等级的土壤采样设计方法 被引量:45
16
作者 杨琳 朱阿兴 +2 位作者 秦承志 李宝林 裴韬 《土壤学报》 CAS CSCD 北大核心 2011年第5期938-946,共9页
采样设计是获取土壤空间分布信息的关键环节,直接影响到土壤制图的精度。目前常用的采样设计方法大多存在着设计样本量大、采样效率不高的问题。当可投入资源难以完成一次性大量采样时,采样往往需要多次、分批进行。然而现有分批采样方... 采样设计是获取土壤空间分布信息的关键环节,直接影响到土壤制图的精度。目前常用的采样设计方法大多存在着设计样本量大、采样效率不高的问题。当可投入资源难以完成一次性大量采样时,采样往往需要多次、分批进行。然而现有分批采样方法多考虑各批采样点在地理空间的互补性,可能造成样本点在属性空间的重叠,影响采样资源的高效利用。鉴于此,本研究通过对与土壤在空间分布具有协同变化的环境因子进行聚类分析,寻找可代表土壤性状空间分布的不同等级类型的代表性样点,建立一套基于代表性等级的采样设计方法。将该采样方法应用于位于黑龙江省嫩江县鹤山农场的研究区,利用所采集的不同代表性等级的样点进行数字土壤制图并进行验证,探讨采样方案与数字土壤制图精度的关系,以评价本文所提出的采样方法。结果表明,通过代表性等级最高的少量样点可获取研究区的大部分主要土壤类型(中国土壤系统分类的亚类级别),且制图精度较高;随着代表性等级较低样点的加入,土壤图精度提高;但当样点增加到一定数量时,土壤图的精度变化不大。因此,与样点数相比,样点的代表性高低对制图精度的影响更大。该方法所提出的代表性等级可以为样点采集顺序提供参考,有助于设计高效的逐步采样方案。 展开更多
关键词 采样设计 代表性等级 模糊 数字土壤制图
在线阅读 下载PDF
基于划分和层次的混合动态聚类算法 被引量:12
17
作者 郝洪星 朱玉全 +1 位作者 陈耿 李米娜 《计算机应用研究》 CSCD 北大核心 2011年第1期51-53,共3页
针对划分聚类对初始值较为敏感以及层次聚类时间复杂度高等缺陷,提出了一种基于划分和层次的混合动态聚类算法HDC-PH。该算法首先使用划分聚类快速生成一定数量的子簇,然后以整体相似度的聚类质量评价标准来动态改变聚类数目,同时给出... 针对划分聚类对初始值较为敏感以及层次聚类时间复杂度高等缺陷,提出了一种基于划分和层次的混合动态聚类算法HDC-PH。该算法首先使用划分聚类快速生成一定数量的子簇,然后以整体相似度的聚类质量评价标准来动态改变聚类数目,同时给出了聚类过程中孤立点的剔除方法。实验结果表明,HDC-PH算法的性能明显优于划分和层次算法,提高了聚类质量,并获得了更自然的聚类结果。 展开更多
关键词 K-MEANS cure 混合 孤立 整体相似度
在线阅读 下载PDF
基于采样的大规模图聚类分析算法 被引量:4
18
作者 张建朋 陈鸿昶 +2 位作者 王凯 祝凯捷 王亚文 《电子学报》 EI CAS CSCD 北大核心 2019年第8期1731-1737,共7页
针对当前聚类方法(例如经典的GN算法)计算复杂度过高、难以适用于大规模图的聚类问题,本文首先对大规模图的采样算法展开研究,提出了能够有效保持原始图聚类结构的图采样算法(Clustering-structure Representative Sampling,CRS),它能... 针对当前聚类方法(例如经典的GN算法)计算复杂度过高、难以适用于大规模图的聚类问题,本文首先对大规模图的采样算法展开研究,提出了能够有效保持原始图聚类结构的图采样算法(Clustering-structure Representative Sampling,CRS),它能在采样图中产生高质量的聚类代表点,并根据相应的扩张准则进行采样扩张.此采样算法能够很好地保持原始图的内在聚类结构.其次,提出快速的整体样本聚类推断(Population Clustering Inference,PCI)算法,它利用采样子图的聚类标签对整体图的聚类结构进行推断.实验结果表明本文算法对大规模图数据具有较高的聚类质量和处理效率,能够很好地完成大规模图的聚类任务. 展开更多
关键词 大规模图 图采样 整体推断 代表 扩张准则
在线阅读 下载PDF
一种基于层次聚类的机场噪声数据挖掘方法 被引量:12
19
作者 徐涛 谢继文 杨国庆 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2013年第5期715-721,共7页
针对机场噪声数据集特征,提出一种基于代表点的快速层次聚类算法,该算法在传统凝聚层次聚类算法的基础上,借助聚类代表点法和二分法策略进行改进。同时,提出一种聚类代表点和聚类算法相似性定义相结合的聚类结果评价方法,并采用其对聚... 针对机场噪声数据集特征,提出一种基于代表点的快速层次聚类算法,该算法在传统凝聚层次聚类算法的基础上,借助聚类代表点法和二分法策略进行改进。同时,提出一种聚类代表点和聚类算法相似性定义相结合的聚类结果评价方法,并采用其对聚类结果进行评价。实验结果表明,该算法不仅运行效率高,而且能够较准确地发现特定类型飞行事件的噪声分布模式,利用该分布模式能够较准确地预测特定类型飞行事件的噪声分布状况。 展开更多
关键词 数据挖掘 机场噪声预测 代表 快速层次算法 结果评价
在线阅读 下载PDF
基于限定区域数据取样的密度聚类算法 被引量:5
20
作者 周红芳 赵雪涵 周扬 《计算机应用》 CSCD 北大核心 2012年第8期2182-2185,共4页
传统密度算法DBSCAN与DBRS的缺点在于时间性能和聚类精度均较低,为此,提出一种结合限定区域数据取样技术的密度聚类算法——DBLRS。该算法在不增加时间和空间复杂度的基础上利用参数Eps查找核心点的邻域点和扩展点,并在限定区域(Eps,2E... 传统密度算法DBSCAN与DBRS的缺点在于时间性能和聚类精度均较低,为此,提出一种结合限定区域数据取样技术的密度聚类算法——DBLRS。该算法在不增加时间和空间复杂度的基础上利用参数Eps查找核心点的邻域点和扩展点,并在限定区域(Eps,2Eps)内进行数据抽样。实验结果表明,限定区域内选取代表点进行簇的扩充降低了大簇分裂的概率,提高了算法效率与聚类精度。 展开更多
关键词 密度 数据抽样 核心 邻域 代表
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部