期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于反向最近邻的密度估计聚类算法
1
作者 许梅梅 侯新民 《计算机工程与应用》 北大核心 2025年第1期165-173,共9页
基于相互最近邻的密度峰聚类算法(DenMune)通过相互最近邻计算数据点的局部密度,是一种有效的聚类手段。但该算法存在构建聚类骨架不合理的问题,在分配弱点时采用硬投票策略,易产生错误。因此提出一种新的基于反向最近邻的密度估计聚类... 基于相互最近邻的密度峰聚类算法(DenMune)通过相互最近邻计算数据点的局部密度,是一种有效的聚类手段。但该算法存在构建聚类骨架不合理的问题,在分配弱点时采用硬投票策略,易产生错误。因此提出一种新的基于反向最近邻的密度估计聚类算法(RNN-DEC)。该算法引入反向最近邻来计算数据点的局部密度,将数据点分成强点、弱点和噪声点。使用强点构建聚类算法的骨架,通过软投票的方式将弱点分配到与其相似度最高的簇中去。提出了一种基于反向最近邻的簇融合算法,将相似度高的子簇融合,得到最终的聚类结果。实验结果表明,在一些合成数据集和UCI真实数据集上,相比较于其他经典算法,该算法具有更好的聚类效果。 展开更多
关键词 反向最近 局部密度 密度算法 子簇融合
在线阅读 下载PDF
基于共享最近邻的自适应密度峰值聚类算法 被引量:1
2
作者 王心耕 杜韬 +2 位作者 周劲 陈迪 仵匀政 《计算机科学》 CSCD 北大核心 2024年第8期97-105,共9页
密度峰值聚类算法(DPC)是一种简单高效的无监督聚类算法,该算法虽能自动发现簇中心,实现任意形状数据的高效聚类,但依然存在一些缺陷。针对密度峰值聚类算法在定义相关度量值时未考虑数据的位置信息、聚类中心数目需要人工预先设定且分... 密度峰值聚类算法(DPC)是一种简单高效的无监督聚类算法,该算法虽能自动发现簇中心,实现任意形状数据的高效聚类,但依然存在一些缺陷。针对密度峰值聚类算法在定义相关度量值时未考虑数据的位置信息、聚类中心数目需要人工预先设定且分配样本点时易出现连锁反应这3个缺陷,提出一种基于共享最近邻的自适应密度峰值聚类算法。首先,利用共享最近邻重新定义局部密度等度量值,充分考虑了数据分布的局部特点,使样本点的空间分布特征得以更好地体现;其次,通过引入密度衰减现象让样本点自动聚集成微簇,实现了簇个数自适应确定和簇中心自适应选取;最后,提出一种两阶段的分配方法,先将微簇合并形成簇的主干部分,再用上一步分配好的簇主干指导剩余点的分配,避免了链式反应的发生。在二维合成数据集以及UCI数据集上的实现表明,相较于经典的密度峰值聚类算法及近年来对其提出的改进算法,在大多数情况下,所提算法表现出更优异的性能。 展开更多
关键词 共享最近 密度峰值 分配策略 中心 密度衰减
在线阅读 下载PDF
基于自然最近邻的密度峰值聚类算法 被引量:11
3
作者 汤鑫瑶 张正军 +1 位作者 储杰 严涛 《计算机科学》 CSCD 北大核心 2021年第3期151-157,共7页
针对密度峰值聚类算法(Density Peaks Clustering,DPC)需要人为指定截断距离d c,以及局部密度定义简单和一步分配策略导致算法在复杂数据集上表现不佳的问题,提出了一种基于自然最近邻的密度峰值聚类算法(Density Peaks Clustering base... 针对密度峰值聚类算法(Density Peaks Clustering,DPC)需要人为指定截断距离d c,以及局部密度定义简单和一步分配策略导致算法在复杂数据集上表现不佳的问题,提出了一种基于自然最近邻的密度峰值聚类算法(Density Peaks Clustering based on Natural Nearest Neighbor,NNN-DPC)。该算法无需指定任何参数,是一种非参数的聚类方法。该算法首先根据自然最近邻的定义,给出新的局部密度计算方法来描述数据的分布,揭示内在的联系;然后设计了两步分配策略来进行样本点的划分。最后定义了簇间相似度并提出了新的簇合并规则进行簇的合并,从而得到最终聚类结果。实验结果表明,在无需参数的情况下,NNN-DPC算法在各类数据集上都有优秀的泛化能力,对于流形数据或簇间密度差异大的数据能更加准确地识别聚类数目和分配样本点。与DPC、FKNN-DPC(Fuzzy Weighted K-nearest Density Peak Clustering)以及其他3种经典聚类算法的性能指标相比,NNN-DPC算法更具优势。 展开更多
关键词 算法 自然最近 密度峰值 局部密度
在线阅读 下载PDF
融合最近邻矩阵与局部密度的自适应K-means聚类算法 被引量:8
4
作者 艾力米努尔·库尔班 谢娟英 姚若侠 《计算机科学与探索》 CSCD 北大核心 2023年第2期355-366,共12页
针对传统K-means聚类算法对初始聚类中心和离群孤立点敏感的缺陷,以及现有引入密度概念优化的K-means算法均需要设置密度参数或阈值的缺点,提出一种融合最近邻矩阵与局部密度的自适应K-means聚类算法。受最邻近吸收原则与密度峰值原则启... 针对传统K-means聚类算法对初始聚类中心和离群孤立点敏感的缺陷,以及现有引入密度概念优化的K-means算法均需要设置密度参数或阈值的缺点,提出一种融合最近邻矩阵与局部密度的自适应K-means聚类算法。受最邻近吸收原则与密度峰值原则启发,通过引入数据对象间的距离差异值构造邻近矩阵,根据邻近矩阵计算局部密度,不需要任何参数设置,采取最近邻矩阵与局部密度融合策略,自适应确定初始聚类中心数目和位置,同时完成非中心点的初分配。人工数据集和UCI数据集的实验测试,以及与传统K-means算法、基于离群点改进的K-means算法、基于密度改进的K-means算法的实验比较表明,提出的自适应K-means算法对人工数据集的孤立点免疫度较高,对UCI数据集具有更准确的聚类结果。 展开更多
关键词 自适应K-means算法 密度峰值原则 近吸收原则 局部密度
在线阅读 下载PDF
自然反向最近邻优化的密度峰值聚类算法 被引量:12
5
作者 刘娟 万静 《计算机科学与探索》 CSCD 北大核心 2021年第10期1888-1899,共12页
密度峰值聚类算法是一种基于密度的聚类算法。针对密度峰值聚类算法存在的参数敏感和对复杂流形数据得到的聚类结果较差的缺陷,提出一种新的密度峰值聚类算法,该算法基于自然反向最近邻结构。首先,该算法引入反向最近邻计算数据对象的... 密度峰值聚类算法是一种基于密度的聚类算法。针对密度峰值聚类算法存在的参数敏感和对复杂流形数据得到的聚类结果较差的缺陷,提出一种新的密度峰值聚类算法,该算法基于自然反向最近邻结构。首先,该算法引入反向最近邻计算数据对象的局部密度;其次,通过代表点和密度相结合的方式选取初始聚类中心;然后,应用密度自适应距离计算初始聚类中心之间的距离,利用基于反向最近邻计算出的局部密度和密度自适应距离在初始聚类中心上构建决策图,并通过决策图选择最终的聚类中心;最后,将剩余的数据对象分配到距离其最近的初始聚类中心所在的簇中。实验结果表明,该算法在合成数据集和UCI真实数据集上与实验对比算法相比较,具有较好的聚类效果和准确性,并且在处理复杂流形数据上的优越性较强。 展开更多
关键词 自然 反向最近 代表点 局部密度
在线阅读 下载PDF
结合自然和共享最近邻的密度峰值聚类算法 被引量:7
6
作者 柏锷湘 罗可 罗潇 《计算机科学与探索》 CSCD 北大核心 2021年第5期931-940,共10页
基于快速搜索和寻找密度峰值聚类算法(DPC)具有无需迭代且需要较少参数的优点,但其仍然存在一些缺点:需要人为选取截断距离参数;在流形数据集上的处理效果不佳。针对这些问题,提出一种密度峰值聚类改进算法。该算法结合了自然和共享最... 基于快速搜索和寻找密度峰值聚类算法(DPC)具有无需迭代且需要较少参数的优点,但其仍然存在一些缺点:需要人为选取截断距离参数;在流形数据集上的处理效果不佳。针对这些问题,提出一种密度峰值聚类改进算法。该算法结合了自然和共享最近邻算法,重新定义了截断距离和局部密度的计算方法,并且算法融合了候选聚类中心计算概念,通过算法选出不同的候选聚类中心,然后以这些候选中心为新的数据集,再次开始密度峰值聚类,最后将剩余的点分配到所对应的候选中心点所在类簇中。改进的算法在合成数据集和UCI数据集上进行验证,并与K-means、DBSCAN和DPC算法进行比较。实验结果表明,提出的算法在性能方面有明显提升。 展开更多
关键词 密度峰值算法 自然最近 共享最近
在线阅读 下载PDF
K近邻和加权相似性的密度峰值聚类算法 被引量:23
7
作者 赵嘉 陈磊 +2 位作者 吴润秀 张波 韩龙哲 《控制理论与应用》 EI CAS CSCD 北大核心 2022年第12期2349-2357,共9页
密度峰值聚类算法的局部密度定义未考虑密度分布不均数据类簇间的样本密度差异影响,易导致误选类簇中心;其分配策略依据欧氏距离通过密度峰值进行链式分配,而流形数据通常有较多样本距离其密度峰值较远,导致大量本应属于同一个类簇的样... 密度峰值聚类算法的局部密度定义未考虑密度分布不均数据类簇间的样本密度差异影响,易导致误选类簇中心;其分配策略依据欧氏距离通过密度峰值进行链式分配,而流形数据通常有较多样本距离其密度峰值较远,导致大量本应属于同一个类簇的样本被错误分配给其他类簇,致使聚类精度不高.鉴于此,本文提出了一种K近邻和加权相似性的密度峰值聚类算法.该算法基于样本的K近邻信息重新定义了样本局部密度,此定义方式可以调节样本局部密度的大小,能够准确找到密度峰值;采用样本的共享最近邻及自然最近邻信息定义样本间的相似性,摒弃了欧氏距离对分配策略的影响,避免了样本分配策略产生的错误连带效应.流形及密度分布不均数据集上的对比实验表明,本文算法能准确找到疏密程度相差较大数据集的密度峰值,避免了流形数据的分配错误连带效应,得到了满意的聚类效果;同时在真实数据集上的聚类效果也十分优秀. 展开更多
关键词 密度峰值 局部密度 K近 共享最近 自然最近
在线阅读 下载PDF
基于改进局部密度的可扩展层次聚类算法 被引量:1
8
作者 陈斌 谢文波 +2 位作者 付勋 张恒基 王欣 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期370-382,共13页
层次聚类是无监督学习的重点研究方向,由于其结果易于分析,因此被广泛应用于数据挖掘领域.目前大多数层次聚类算法都需要根据数据的成对距离进行簇合并操作,因此具有较高的复杂度(不论是时间或空间),无法用于大规模数据的处理.针对以上... 层次聚类是无监督学习的重点研究方向,由于其结果易于分析,因此被广泛应用于数据挖掘领域.目前大多数层次聚类算法都需要根据数据的成对距离进行簇合并操作,因此具有较高的复杂度(不论是时间或空间),无法用于大规模数据的处理.针对以上问题,提出了一种基于改进局部密度的可扩展层次聚类算法(Density-based Scalable Hierarchical Clustering,DBSC).该算法根据数据间的最近邻关系构造最近邻图,并在每个最近邻分量上根据互惠最近邻结点的局部密度选择代表点.为了降低孤立最近邻分量对计算局部密度的干扰,算法利用二阶最近邻将孤立最近邻分量重连至最近邻分量.通过以上步骤算法选择代表点,以迭代的方式自下而上地构建聚类树.大量真实数据集的实验结果表明,该算法可以在保证较高的聚类精度和较快的响应速度的前提下将处理数据的规模提升至数十万项. 展开更多
关键词 层次 局部密度 最近 互惠最近
在线阅读 下载PDF
最近邻的密度峰值聚类标签传播算法 被引量:1
9
作者 宋鹏 葛洪伟 《计算机科学与探索》 CSCD 北大核心 2022年第12期2809-2819,共11页
基于动态图的密度峰值聚类标签传播算法(DPC-DLP)是密度峰值聚类算法(DPC)的一种改进算法,该算法涉及的相关参数过于复杂,并且算法在每次迭代时都会使用标签数据,会出现标签错误扩大化现象,存在迭代次数过多导致聚类效果恶化等问题。针... 基于动态图的密度峰值聚类标签传播算法(DPC-DLP)是密度峰值聚类算法(DPC)的一种改进算法,该算法涉及的相关参数过于复杂,并且算法在每次迭代时都会使用标签数据,会出现标签错误扩大化现象,存在迭代次数过多导致聚类效果恶化等问题。针对上述问题,提出了一种最近邻的密度峰值聚类标签传播算法(DPC-NLP)。该算法主要有三个步骤:首先利用局部密度和最小距离对样本点进行打分,根据分数确定聚类中心,然后使用聚类中心的标签在其最近邻内形成簇骨干,最后使用最近邻的标签传播方法将簇骨干的标签传播到剩余样本上,并形成最终的聚类结果。最近邻标签传播算法充分考虑数据间的结构关联性情况,并在传播的过程中不断更新数据的状态,利用更充分的信息提高分配正确率。在人工和真实数据集上对算法进行验证,并与目前主流的聚类算法进行比较,实验结果表明,DPC-NLP在性能和鲁棒性方面表现优越,并可以处理流形和非线性等复杂数据。 展开更多
关键词 密度峰值 标签传播 最近
在线阅读 下载PDF
结合K近邻的改进密度峰值聚类算法 被引量:22
10
作者 薛小娜 高淑萍 +1 位作者 彭弘铭 吴会会 《计算机工程与应用》 CSCD 北大核心 2018年第7期36-43,共8页
针对密度峰值聚类算法(DPC)在处理维数较高、含噪声及结构复杂数据集时聚类性能不佳问题,提出一种结合K近邻的改进密度峰值聚类算法(IDPCA)。该算法首先给出新的局部密度度量方法来描述每个样本在空间中的分布情况,然后引入核心点的概... 针对密度峰值聚类算法(DPC)在处理维数较高、含噪声及结构复杂数据集时聚类性能不佳问题,提出一种结合K近邻的改进密度峰值聚类算法(IDPCA)。该算法首先给出新的局部密度度量方法来描述每个样本在空间中的分布情况,然后引入核心点的概念并结合K近邻思想设计了全局搜索分配策略,通过不断将核心点的未分配K近邻正确归类以加快聚类速度,进而提出一种基于K近邻加权的统计学习分配策略,利用剩余点的K近邻加权信息来确定其被分配到各局部类的概率,有效提高了聚类质量。实验结果表明,IDPCA算法在21个典型的测试数据集上均有良好的适用性,而在与DPC算法及另外3种典型聚类算法的性能指标对比上,其优势更为明显。 展开更多
关键词 数据挖掘 算法 局部密度 密度峰值 K近
在线阅读 下载PDF
基于局部结构自表达的鲁棒演化聚类算法
11
作者 李春忠 鞠文亮 +1 位作者 靖凯立 桂扬 《工程数学学报》 CSCD 北大核心 2024年第6期1006-1020,共15页
聚类是一种无监督学习方法,它通过对样本特征分析度量数据间的相似性和差异性,利用簇内相似性高、簇间差异性大的特性对数据进行自动化分组,被广泛应用于计算机视觉、文本挖掘、生物信息等领域。聚类算法在鲁棒性、普适性、类数选择等... 聚类是一种无监督学习方法,它通过对样本特征分析度量数据间的相似性和差异性,利用簇内相似性高、簇间差异性大的特性对数据进行自动化分组,被广泛应用于计算机视觉、文本挖掘、生物信息等领域。聚类算法在鲁棒性、普适性、类数选择等方面存在提升空间,且算法的效果很大程度上受到数据集密度和流形的影响。提出了基于局部结构自表达的鲁棒演化聚类算法,该算法通过使用径向基函数并加入先验信息获取数据的局部密度差异特征,构建全新的相似性度量,在此过程融入了数据局部结构特征的提取机制和稳定类的识别机制,使聚类具有更好的鲁棒性和普适性。动态演化聚类在这两个方面有着天然的优势,可在动态的聚类过程中持续优化聚类结果,使得聚类效果得到了很大改进。新算法通过数据集结构信息自表达对局部和整体特征进行信息融合,同时在动态的演化过程中监控类的稳定性,从而得到更好的聚类结果。在人工数据集和真实数据集上的实验结果表明,新算法的聚类性能更优越。 展开更多
关键词 相似性度量 相对局部密度 最近 自表达
在线阅读 下载PDF
罚处共享最近邻密度峰聚类算法 被引量:2
12
作者 高润峰 苏一丹 覃华 《计算机工程与设计》 北大核心 2021年第12期3407-3414,共8页
为解决传统密度峰聚类算法容易忽略低密度簇中心以及难以自动选择聚类中心的问题,提出罚处共享最近邻密度峰聚类算法。设计罚处系数,减少高密度簇中非中心点的共享最近邻局部密度值,降低低密度簇中心点被忽视的机率;采用迭代阈值法实现... 为解决传统密度峰聚类算法容易忽略低密度簇中心以及难以自动选择聚类中心的问题,提出罚处共享最近邻密度峰聚类算法。设计罚处系数,减少高密度簇中非中心点的共享最近邻局部密度值,降低低密度簇中心点被忽视的机率;采用迭代阈值法实现簇中心点的自动选择。在人工数据集、UCI真实数据集以及图像数据集上进行仿真实验,其结果表明,该算法能找到数据集的簇中心和簇数目,聚类精度优于相比较的其它算法,该算法是可行的、有效的。 展开更多
关键词 密度算法 共享最近局部密度 簇中心点 罚处系数 迭代阈值法
在线阅读 下载PDF
融合相对密度和最近邻关系的密度峰值聚类 被引量:2
13
作者 王威娜 朱钰 任艳 《计算机科学与探索》 CSCD 北大核心 2023年第8期1879-1892,共14页
密度峰值算法在处理密度不均匀的数据时对中心点的选取不准确,并在样本分配时易产生连带错误,导致聚类效果不佳。针对上述问题,提出一种融合相对局部密度和最近邻关系的密度峰值聚类算法。在局部密度的定义中引入稀疏平和权重,提出相对... 密度峰值算法在处理密度不均匀的数据时对中心点的选取不准确,并在样本分配时易产生连带错误,导致聚类效果不佳。针对上述问题,提出一种融合相对局部密度和最近邻关系的密度峰值聚类算法。在局部密度的定义中引入稀疏平和权重,提出相对局部密度的定义,根据相对局部密度寻找密度峰值,避免稀疏差异较大的数据集在选取密度峰值时出现的错误,确保中心点选择的正确性;针对分配策略,结合最邻近点准则和阈值限制,提出最近邻分配策略,根据阈值条件有效抑制分配连带错误;基于类内距离均值定义距离比例,提出修正分配策略,提升算法对边界点聚类的准确性。在5个合成数据集和5个UCI数据集上,将提出算法与DPC、DPC-MND、FKNN-DPC、DBSCAN、OPTICS、AP、K-means算法进行比较,实验结果表明,所提算法在调整互信息、调整兰德系数和Fowlkes-Mallows指数上均表现出良好的聚类效果,并通过Friedman检验表明该算法具有最优的性能。 展开更多
关键词 算法 密度峰值 相对局部密度 最近关系 分配策略
在线阅读 下载PDF
动态最近邻聚类算法的优化研究 被引量:5
14
作者 储岳中 徐波 《计算机工程与设计》 CSCD 北大核心 2011年第5期1687-1690,共4页
针对最近邻聚类算法对聚类半径敏感、不易获得最优解的问题,提出了基于贝叶斯信息测度BIC(Bayesianinformationcriterion)的优化方法。通过DBSCAN算法对初始数据集进行预处理,去除噪声数据。在参数空间内逐步调整聚类半径,利用最近邻聚... 针对最近邻聚类算法对聚类半径敏感、不易获得最优解的问题,提出了基于贝叶斯信息测度BIC(Bayesianinformationcriterion)的优化方法。通过DBSCAN算法对初始数据集进行预处理,去除噪声数据。在参数空间内逐步调整聚类半径,利用最近邻聚类算法对数据集进行聚类,并计算每次聚类结果的贝叶斯信息测度值。比较各次聚类结果的贝叶斯信息测度值,最大贝叶斯信息测度值对应的聚类即为最优聚类结果。实验结果表明,优化的最近邻聚类算法很好地解决了合适的聚类半径选取问题。 展开更多
关键词 数据挖掘 密度算法 贝叶斯信息测度 最近 优化
在线阅读 下载PDF
基于MapReduce和改进密度峰值的划分聚类算法 被引量:7
15
作者 黄学雨 向驰 陶涛 《计算机应用研究》 CSCD 北大核心 2021年第10期2988-2993,3024,共7页
对于基于划分的聚类算法随机选取初始聚类中心导致初始中心敏感,聚类结果不稳定、集群效率低等问题,提出一种基于MapReduce框架和改进的密度峰值的划分聚类算法(based on MapReduce framework and improved density peak partition clus... 对于基于划分的聚类算法随机选取初始聚类中心导致初始中心敏感,聚类结果不稳定、集群效率低等问题,提出一种基于MapReduce框架和改进的密度峰值的划分聚类算法(based on MapReduce framework and improved density peak partition clustering algorithm,MR-IDPACA)。首先,通过自然最近邻定义新的局部密度计算方式,将搜索样本密度峰值点作为划分聚类算法的初始聚类中心;其次针对算法在大规模数据下运行时间复杂,提出基于E2LSH(exact Euclidean locality sensitive hashing)的一种分区方法,即KLSH(K of locality sensitive hashing)。通过该方法对数据分区后结合MapReduce框架并行搜寻初始聚类中心,有效减少了算法在搜索初始聚类中心时的运行时间;对于MapReduce框架中的数据倾斜问题,提出ME(multistage equilibrium)策略对中间数据进行多段均衡分区,以提升算法运行效率;在MapReduce框架下并行聚类,得到最终聚类结果。实验得出MR-IDPACA算法在单机环境下有着较高的准确率和较强的稳定性,集群性能上也有着较好的加速比和运行时间,聚类效果有所提升。 展开更多
关键词 划分算法 密度峰值 自然最近 MAPREDUCE 数据倾斜
在线阅读 下载PDF
结合密度比和系统演化的密度峰值聚类算法 被引量:5
16
作者 曹俊茸 张德生 肖燕婷 《计算机工程与应用》 CSCD 北大核心 2022年第21期75-82,共8页
密度峰值聚类算法(DPC)能够有效地进行非球形数据的聚类,该算法需要输入截断距离,人工截取聚类中心,导致DPC算法的聚类效果有时较差。针对这些问题,提出一种结合密度比和系统演化的密度峰值聚类算法(DS-DPC)。利用自然最近邻搜索得出各... 密度峰值聚类算法(DPC)能够有效地进行非球形数据的聚类,该算法需要输入截断距离,人工截取聚类中心,导致DPC算法的聚类效果有时较差。针对这些问题,提出一种结合密度比和系统演化的密度峰值聚类算法(DS-DPC)。利用自然最近邻搜索得出各样本点的邻居数目,根据密度比思想改进密度计算公式,使其能够反映周围样本的分布情况;对局部密度与相对距离的乘积进行降序排列,根据排序值选出聚类中心,将剩余样本按照DPC算法的分配策略进行聚类,避免了手动选择聚类中心的主观性;利用系统演化方法判断聚类结果是否需要合并或分离。通过在多个数据集上进行实验,并与其他聚类算法进行比较,实验结果表明,该算法具有较好的聚类效果。 展开更多
关键词 密度峰值算法 自然最近 密度 系统演化方法
在线阅读 下载PDF
基于相对密度的密度峰值聚类算法 被引量:9
17
作者 位雅 张正军 +1 位作者 何凯琳 唐莉 《计算机工程》 CAS CSCD 北大核心 2023年第6期53-61,共9页
密度峰值聚类算法在处理密度不均匀的数据集时易将低密度簇划分到高密度簇中或将高密度簇分为多个子簇,且在样本点分配过程中存在误差传递问题。提出一种基于相对密度的密度峰值聚类算法。引入自然最近邻域内的样本点信息,给出新的局部... 密度峰值聚类算法在处理密度不均匀的数据集时易将低密度簇划分到高密度簇中或将高密度簇分为多个子簇,且在样本点分配过程中存在误差传递问题。提出一种基于相对密度的密度峰值聚类算法。引入自然最近邻域内的样本点信息,给出新的局部密度计算方法并计算相对密度。在绘制决策图确定聚类中心后,基于对簇间密度差异的考虑,提出密度因子计算各个簇的聚类距离,根据聚类距离对剩余样本点进行划分,实现不同形状、不同密度数据集的聚类。在合成数据集和真实数据集上进行实验,结果表明,该算法的FMI、ARI和NMI指标较经典的密度峰值聚类算法和其他3种聚类算法分别平均提高约14、26和21个百分点,并且在簇间密度相差较大的数据集上能够准确识别聚类中心和分配剩余的样本点。 展开更多
关键词 密度峰值 相对密度 密度因子 距离 自然最近
在线阅读 下载PDF
物理学优化的密度峰值聚类算法 被引量:14
18
作者 贾露 张德生 吕端端 《计算机工程与应用》 CSCD 北大核心 2020年第13期47-53,共7页
针对密度峰值聚类算法(DPC)在计算样本的局部密度时随机选取截断距离、分配剩余样本点错误率高等问题,提出了一种物理学改进的密度峰值聚类算法W-DPC。通过万有引力定律定义样本的局部密度;基于第一宇宙速度建立了两步策略对剩余样本点... 针对密度峰值聚类算法(DPC)在计算样本的局部密度时随机选取截断距离、分配剩余样本点错误率高等问题,提出了一种物理学改进的密度峰值聚类算法W-DPC。通过万有引力定律定义样本的局部密度;基于第一宇宙速度建立了两步策略对剩余样本点进行分配,即必须属于点的分配和可能属于点的分配,使剩余样本点的分配更加精确。利用人工合成数据集与UCI上的真实数据集对W-DPC算法进行测试,并与KNN-DPC算法、DPC算法、DBSCAN算法、AP算法以及K-Means算法进行比较,数值实验表明:W-DPC算法的聚类效果明显优于其他算法。 展开更多
关键词 密度峰值算法 分析 引力定律 局部密度 第一宇宙速度
在线阅读 下载PDF
基于自适应近邻参数的密度峰聚类算法 被引量:2
19
作者 周欢欢 郑伯川 +1 位作者 张征 张琦 《计算机应用》 CSCD 北大核心 2022年第5期1464-1471,共8页
针对基于共享最近邻的密度峰聚类算法中的近邻参数需要人为设定的问题,提出了一种基于自适应近邻参数的密度峰聚类算法。首先,利用所提出的近邻参数搜索算法自动获得近邻参数;然后,通过决策图选取聚类中心;最后,根据所提出的代表点分配... 针对基于共享最近邻的密度峰聚类算法中的近邻参数需要人为设定的问题,提出了一种基于自适应近邻参数的密度峰聚类算法。首先,利用所提出的近邻参数搜索算法自动获得近邻参数;然后,通过决策图选取聚类中心;最后,根据所提出的代表点分配策略,先分配代表点,后分配非代表点,从而实现所有样本点的聚类。将所提出的算法与基于共享最近邻的快速密度峰搜索聚类(SNN-DPC)、基于密度峰值的聚类(DPC)、近邻传播聚类(AP)、对点排序来确定聚类结构(OPTICS)、基于密度的噪声应用空间聚类(DBSCAN)和K-means这6种算法在合成数据集以及UCI数据集上进行聚类结果对比。实验结果表明,所提出的算法在调整互信息(AMI)、调整兰德系数(ARI)和FM指数(FMI)等评价指标上整体优于其他6种算法。所提算法能自动获得有效的近邻参数,且能较好地分配簇边缘区域的样本点。 展开更多
关键词 共享最近 局部密度 密度 K-近 逆近
在线阅读 下载PDF
基于两阶段搜索的密度聚类算法 被引量:1
20
作者 汪勇 李巧娜 艾学轶 《计算机工程与设计》 北大核心 2023年第1期188-193,共6页
为克服当前密度聚类算法存在的随机性、主观性和连带错误等问题,提出一种基于两阶段搜索的密度聚类算法。给出密度阈值和簇最近邻定义及计算方法。采用密度排序、簇最近邻分配和自适应搜索策略构建算法的两阶段聚类机制,设计邻域递归搜... 为克服当前密度聚类算法存在的随机性、主观性和连带错误等问题,提出一种基于两阶段搜索的密度聚类算法。给出密度阈值和簇最近邻定义及计算方法。采用密度排序、簇最近邻分配和自适应搜索策略构建算法的两阶段聚类机制,设计邻域递归搜索和簇最近邻搜索两个阶段的聚类算法,实现不同密度数据点的准确聚类。8个数据集聚类实验结果表明,该密度聚类算法聚类稳定,无噪声,且自动确定类簇数,聚类精度优于比较的密度聚类算法。 展开更多
关键词 算法 密度 算法设计 两阶段搜索 密度阈值 最近 分配策略
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部