期刊文献+
共找到113篇文章
< 1 2 6 >
每页显示 20 50 100
基于K互近邻与核密度估计的DPC算法 被引量:1
1
作者 周玉 夏浩 +1 位作者 刘虹瑜 白磊 《北京航空航天大学学报》 北大核心 2025年第6期1978-1990,共13页
快速搜索和发现密度峰值聚类(DPC)算法是一种基于密度的聚类算法。该算法不需要迭代和过多的设定参数,但由于计算局部密度时没有考虑数据的局部结构,导致无法识别簇密度小的聚类中心。针对此问题,提出基于K互近邻(KN)和核密度估计(KDE)... 快速搜索和发现密度峰值聚类(DPC)算法是一种基于密度的聚类算法。该算法不需要迭代和过多的设定参数,但由于计算局部密度时没有考虑数据的局部结构,导致无法识别簇密度小的聚类中心。针对此问题,提出基于K互近邻(KN)和核密度估计(KDE)的DPC(KKDPC)算法。通过K近邻和核密度估计方法得到数据点的K互近邻数量和局部核密度;将K互近邻数量与局部核密度进行加和获得新的局部密度;根据数据点的局部密度得到相对距离,并通过构建决策图选取聚类中心及分配非中心点。利用人工数据集和真实数据集进行实验,并与DPC、基于密度的噪声空间聚类应用(DBSCAN)、K-means、模糊C均值聚类算法(FCM)、基于K近邻的DPC(DPCKNN)、近邻优化DPC(DPC-NNO)、基于模糊加权共享邻居的DPC(DPC-FWSN)算法进行对比。通过计算调整互信息(AMI)、调整兰德指数(ARI)、归一化互信息(NMI)来验证KKDPC算法的性能。实验结果表明:KKDPC算法能更加准确地识别聚类中心,有效地提高聚类精度。 展开更多
关键词 算法 密度峰值 k近邻 k近邻 核密度估计
在线阅读 下载PDF
采用聚类算法优化的K近邻协同过滤算法 被引量:20
2
作者 尹航 常桂然 王兴伟 《小型微型计算机系统》 CSCD 北大核心 2013年第4期806-809,共4页
协同过滤推荐是电子商务系统最重要的技术之一,而协同过滤技术中一种被广泛使用的算法就是基于用户评分相似度的K近邻算法.该算法简单有效,易于实现.但K近邻算法在决定待预测样本的预测评分时,并未考虑这K个最近邻与其隶属类别的关联程... 协同过滤推荐是电子商务系统最重要的技术之一,而协同过滤技术中一种被广泛使用的算法就是基于用户评分相似度的K近邻算法.该算法简单有效,易于实现.但K近邻算法在决定待预测样本的预测评分时,并未考虑这K个最近邻与其隶属类别的关联程度.作为评分矩阵中的不同样本,由于它们对分类贡献各不相同,因此在评分预测时需要区别对待.本文采用中心聚类算法,先求出各样本与其所属类别的类别关联度,再利用类别关联度来区别对待待预测样本的K个最近邻.通过实验证明,优化后的K近邻算法能较好的提高推荐精度. 展开更多
关键词 k近邻 协同过滤 算法 别关联度
在线阅读 下载PDF
基于K近邻和优化分配策略的密度峰值聚类算法 被引量:30
3
作者 孙林 秦小营 +1 位作者 徐久成 薛占熬 《软件学报》 EI CSCD 北大核心 2022年第4期1390-1411,共22页
密度峰值聚类(density peak clustering,DPC)是一种简单有效的聚类分析方法.但在实际应用中,对于簇间密度差别大或者簇中存在多密度峰的数据集,DPC很难选择正确的簇中心;同时,DPC中点的分配方法存在多米诺骨牌效应.针对这些问题,提出一... 密度峰值聚类(density peak clustering,DPC)是一种简单有效的聚类分析方法.但在实际应用中,对于簇间密度差别大或者簇中存在多密度峰的数据集,DPC很难选择正确的簇中心;同时,DPC中点的分配方法存在多米诺骨牌效应.针对这些问题,提出一种基于K近邻(K-nearest neighbors,KNN)和优化分配策略的密度峰值聚类算法.首先,基于KNN、点的局部密度和边界点确定候选簇中心;定义路径距离以反映候选簇中心之间的相似度,基于路径距离提出密度因子和距离因子来量化候选簇中心作为簇中心的可能性,确定簇中心.然后,为了提升点的分配的准确性,依据共享近邻、高密度最近邻、密度差值和KNN之间距离构建相似度,并给出邻域、相似集和相似域等概念,以协助点的分配;根据相似域和边界点确定初始聚类结果,并基于簇中心获得中间聚类结果.最后,依据中间聚类结果和相似集,从簇中心到簇边界将簇划分为多层,分别设计点的分配策略;对于具体层次中的点,基于相似域和积极域提出积极值以确定点的分配顺序,将点分配给其积极域中占主导地位的簇,获得最终聚类结果.在11个合成数据集和27个真实数据集上进行仿真实验,与最新的基于密度峰值的聚类算法作对比,结果表明:所提算法在纯度、F度量、准确度、兰德系数、调整兰德系数和标准互信息上均表现出良好的聚类性能. 展开更多
关键词 密度峰值 k近邻 簇中心 积极值 分配策略
在线阅读 下载PDF
K近邻的自适应谱聚类快速算法 被引量:4
4
作者 范敏 王芬 +2 位作者 李泽明 李志勇 张晓波 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第6期147-152,共6页
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过... 谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。 展开更多
关键词 k近邻 稀疏矩阵 自适应 快速算法
在线阅读 下载PDF
基于代表点与K近邻的密度峰值聚类算法 被引量:12
5
作者 张清华 周靖鹏 +1 位作者 代永杨 王国胤 《软件学报》 EI CSCD 北大核心 2023年第12期5629-5648,共20页
密度峰值聚类(density peaks clustering,DPC)是一种基于密度的聚类算法,该算法可以直观地确定类簇数量,识别任意形状的类簇,并且自动检测、排除异常点.然而,DPC仍存在些许不足:一方面,DPC算法仅考虑全局分布,在类簇密度差距较大的数据... 密度峰值聚类(density peaks clustering,DPC)是一种基于密度的聚类算法,该算法可以直观地确定类簇数量,识别任意形状的类簇,并且自动检测、排除异常点.然而,DPC仍存在些许不足:一方面,DPC算法仅考虑全局分布,在类簇密度差距较大的数据集聚类效果较差;另一方面,DPC中点的分配策略容易导致“多米诺效应”.为此,基于代表点(representative points)与K近邻(K-nearest neighbors,KNN)提出了RKNN-DPC算法.首先,构造了K近邻密度,再引入代表点刻画样本的全局分布,提出了新的局部密度;然后,利用样本的K近邻信息,提出一种加权的K近邻分配策略以缓解“多米诺效应”;最后,在人工数据集和真实数据集上与5种聚类算法进行了对比实验,实验结果表明,所提出的RKNN-DPC可以更准确地识别类簇中心并且获得更好的聚类结果. 展开更多
关键词 分析 密度峰值 代表点 k近邻(knn)
在线阅读 下载PDF
混合属性数据流的二重k近邻聚类算法 被引量:8
6
作者 黄德才 沈仙桥 陆亿红 《计算机科学》 CSCD 北大核心 2013年第10期226-230,共5页
现有的数据流聚类算法大都只能处理单一数值属性的数据,不能应对同时包含数值属性与分类属性特征的数据,且已存在的混合属性数据流聚类算法在对数据的标准化处理和聚类上还有很大的改进之处,为此,提出二重k近邻混合属性数据流聚类算法... 现有的数据流聚类算法大都只能处理单一数值属性的数据,不能应对同时包含数值属性与分类属性特征的数据,且已存在的混合属性数据流聚类算法在对数据的标准化处理和聚类上还有很大的改进之处,为此,提出二重k近邻混合属性数据流聚类算法。该算法采用CluStream算法的在线、离线框架,并提出了混合属性数据流下三步聚类的思想。算法先运用二重k近邻和改进的维度距离生成微聚类,然后利用动态标准化数据方法和基于均值的余弦模型生成初始宏聚类,最后利用基于均值的余弦模型和先验聚类结果进行宏聚类优化。实验结果表明,所提出的算法具有良好的聚类质量及可扩展性。 展开更多
关键词 数据流 混合属性 二重k近邻
在线阅读 下载PDF
面向混合数据的对称邻域和微簇合并密度峰值聚类算法
7
作者 陈威 吕莉 +2 位作者 肖人彬 谭德坤 潘正祥 《智能系统学报》 北大核心 2025年第1期172-184,共13页
混合数据是指包含密度分布不均和流形特征的数据集。密度峰值聚类算法局部密度定义方式易忽略密度分布不均数据集类簇间样本的疏密差异,导致误选聚类中心;分配策略依据欧氏距离进行样本分配,不适用于流形数据集同一类簇样本相距较远的情... 混合数据是指包含密度分布不均和流形特征的数据集。密度峰值聚类算法局部密度定义方式易忽略密度分布不均数据集类簇间样本的疏密差异,导致误选聚类中心;分配策略依据欧氏距离进行样本分配,不适用于流形数据集同一类簇样本相距较远的情况,致使样本被错误分配。针对这些问题,本文提出一种面向混合数据的对称邻域和微簇合并密度峰值聚类算法。该算法引入对称邻域概念,采用对数倒数累加方法重新定义局部密度,有效提升了聚类中心的识别度;同时,提出了一种基于密度差的微簇个数选取方法,使微簇个数的选取处于合理范围;此外,设计了一种微簇间相似性度量方法进行微簇合并,避免了分配时产生的连带错误。实验表明,相较于对比算法,本文算法在混合数据集、UCI数据集和图像数据集上均取得较好的聚类效果。 展开更多
关键词 密度峰值 密度分布不均 流形数据 k近邻 近邻 对称邻域 微簇间相似性 微簇合并
在线阅读 下载PDF
K近邻和加权相似性的密度峰值聚类算法 被引量:21
8
作者 赵嘉 陈磊 +2 位作者 吴润秀 张波 韩龙哲 《控制理论与应用》 EI CAS CSCD 北大核心 2022年第12期2349-2357,共9页
密度峰值聚类算法的局部密度定义未考虑密度分布不均数据类簇间的样本密度差异影响,易导致误选类簇中心;其分配策略依据欧氏距离通过密度峰值进行链式分配,而流形数据通常有较多样本距离其密度峰值较远,导致大量本应属于同一个类簇的样... 密度峰值聚类算法的局部密度定义未考虑密度分布不均数据类簇间的样本密度差异影响,易导致误选类簇中心;其分配策略依据欧氏距离通过密度峰值进行链式分配,而流形数据通常有较多样本距离其密度峰值较远,导致大量本应属于同一个类簇的样本被错误分配给其他类簇,致使聚类精度不高.鉴于此,本文提出了一种K近邻和加权相似性的密度峰值聚类算法.该算法基于样本的K近邻信息重新定义了样本局部密度,此定义方式可以调节样本局部密度的大小,能够准确找到密度峰值;采用样本的共享最近邻及自然最近邻信息定义样本间的相似性,摒弃了欧氏距离对分配策略的影响,避免了样本分配策略产生的错误连带效应.流形及密度分布不均数据集上的对比实验表明,本文算法能准确找到疏密程度相差较大数据集的密度峰值,避免了流形数据的分配错误连带效应,得到了满意的聚类效果;同时在真实数据集上的聚类效果也十分优秀. 展开更多
关键词 密度峰值 局部密度 k近邻 共享最近邻 自然最近邻
在线阅读 下载PDF
基于聚类和K近邻算法的井下人员定位算法 被引量:13
9
作者 莫树培 唐琎 +2 位作者 汪郁 赖普坚 金礼模 《工矿自动化》 北大核心 2019年第4期43-48,76,共7页
针对现有基于指纹模的井下定位算法存在的计算量大、实时性低、定位精度较低的问题,提出了基于聚类和K近邻算法的井下人员定位算法。用二分k-means聚类算法对采集的RSSI数据进行分类,建立离线指纹数据库;无线移动终端和动态修正器实时采... 针对现有基于指纹模的井下定位算法存在的计算量大、实时性低、定位精度较低的问题,提出了基于聚类和K近邻算法的井下人员定位算法。用二分k-means聚类算法对采集的RSSI数据进行分类,建立离线指纹数据库;无线移动终端和动态修正器实时采集RSSI值,分别存储到在线定位数据库和动态修正数据库;根据待测点和动态修正器的离线数据和实时数据,采用软硬件动态修正加权K近邻算法计算权重值,结合离线指纹数据库中待测点的物理位置信息估算其实时位置。实验分析结果表明,所提定位算法的最小标准误差为0.46m,最大标准误差为3.26m,平均误差为1.62m。对比分析结果表明,与未进行聚类分析的算法相比,本文算法的精度更高,实时性更好;与未动态修正权重值的算法相比,本文算法的运算时间略有增加,但定位精度提高了37.21%。 展开更多
关键词 井下人员定位 指纹定位 二分k-means算法 软硬件动态修正加权k近邻算法 动态修正
在线阅读 下载PDF
基于密度聚类的K近邻法在储层流体识别中的应用 被引量:11
10
作者 赵军 卢一凡 +1 位作者 李宗杰 柳建华 《中国石油大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第5期65-71,共7页
针对传统储层流体识别方法识别精度低、运算量大、过于依赖个人经验的缺点,提出基于密度聚类的K近邻法,根据待测层段测井数据的空间分布规律,将样本按相对密度聚类成数据簇,并利用K近邻投票获得各簇所属类别。将该方法应用在某油田奥陶... 针对传统储层流体识别方法识别精度低、运算量大、过于依赖个人经验的缺点,提出基于密度聚类的K近邻法,根据待测层段测井数据的空间分布规律,将样本按相对密度聚类成数据簇,并利用K近邻投票获得各簇所属类别。将该方法应用在某油田奥陶系鹰山组碳酸盐岩储层识别中。结果表明,较之其他常用识别方法,该算法识别精度高,泛化性和鲁棒性强,在处理大数据分类问题时具有明显优势,且在识别常规方法难以识别的油水同层时取得了较好的效果,具有良好的应用前景,为利用数据挖掘方法解决油田勘探开发中的复杂问题提供了新思路。 展开更多
关键词 测井解释 流体识别 k近邻 相对密度 数据挖掘
在线阅读 下载PDF
融合KNN优化的密度峰值和FCM聚类算法 被引量:11
11
作者 兰红 黄敏 《计算机工程与应用》 CSCD 北大核心 2021年第9期81-88,共8页
针对模糊C均值(Fuzzy C-Means,FCM)聚类算法对初始聚类中心和噪声敏感、对边界样本聚类不够准确且易收敛于局部极小值等问题,提出了一种K邻近(KNN)优化的密度峰值(DPC)算法和FCM相结合的融合聚类算法(KDPC-FCM)。算法利用样本的K近邻信... 针对模糊C均值(Fuzzy C-Means,FCM)聚类算法对初始聚类中心和噪声敏感、对边界样本聚类不够准确且易收敛于局部极小值等问题,提出了一种K邻近(KNN)优化的密度峰值(DPC)算法和FCM相结合的融合聚类算法(KDPC-FCM)。算法利用样本的K近邻信息定义样本局部密度,快速准确搜索样本的密度峰值点样本作为初始类簇中心,改善FCM聚类算法存在的不足,从而达到优化FCM聚类算法效果的目的。在多个UCI数据集、单个人造数据集、多种基准数据集和Geolife项目中的6个较大规模数据集上的实验结果表明,改进后的新算法与传统FCM算法、DSFCM算法对比,有着更好的抗噪性、聚类效果和更快的全局收敛速度,证明了新算法的可行性和有效性。 展开更多
关键词 模糊C均值 密度峰值 k近邻 算法优化
在线阅读 下载PDF
基于反向K近邻和密度峰值初始化的加权Kmeans聚类入侵检测算法 被引量:10
12
作者 张喜梅 解滨 +1 位作者 徐童童 张春昊 《南京理工大学学报》 CAS CSCD 北大核心 2023年第1期56-65,共10页
传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向... 传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻,针对不同规模、不同密度分布数据集,可以自适应地搜索密度峰值点作为初始类簇中心;自适应设定相对簇半径,并通过样本加权进行类簇中心迭代,在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明,该算法在聚类性能提升的同时迭代次数大幅降低,随着入侵行为类型和数据规模的增加,该文聚类算法仍体现出较好的性能,且在发现未知攻击类型上效果显著。 展开更多
关键词 kmeans 入侵检测 密度峰值 样本加权 反向k近邻
在线阅读 下载PDF
一种组合K近邻聚类在煤与瓦斯突出预测中的应用 被引量:6
13
作者 张宇 邵良杉 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2010年第6期1039-1041,共3页
针对煤与瓦斯突出影响因素复杂,即不仅具有随机性,又具有模糊性。为了保证预测的准确性,采用组合聚类策略。通过建立多个k近邻聚类器,可以产生多个簇集。来自不同簇集的子簇之间必然存在交集,最后利用子簇的加权连通图合并子簇。以平顶... 针对煤与瓦斯突出影响因素复杂,即不仅具有随机性,又具有模糊性。为了保证预测的准确性,采用组合聚类策略。通过建立多个k近邻聚类器,可以产生多个簇集。来自不同簇集的子簇之间必然存在交集,最后利用子簇的加权连通图合并子簇。以平顶山八煤矿煤与瓦斯突出的相关因素指标为基础,对历年的煤与瓦斯突出的数据进行聚类分析,预测结果表明,该方法具有较好的预测效果,为煤与瓦斯突出预测提供了一种新的解决方案。 展开更多
关键词 煤与瓦斯突出 k均值 组合技术 k近邻 预测
在线阅读 下载PDF
基于K近邻隶属度的聚类算法研究 被引量:11
14
作者 马闯 吴涛 段梦雅 《计算机工程与应用》 CSCD 北大核心 2016年第10期55-58,117,共5页
经典模糊C均值聚类算法(FCM)基于欧氏距离,存在不同规模类簇不能正确聚类问题,针对此问题提出一种基于K近邻隶属度的模糊C均值聚类算法(KNN_FCM)。讨论了基于K近邻隶属度的粗糙C均值聚类算法(KNN_RCM)和粗糙模糊C均值聚类算法(KNN_RFCM)... 经典模糊C均值聚类算法(FCM)基于欧氏距离,存在不同规模类簇不能正确聚类问题,针对此问题提出一种基于K近邻隶属度的模糊C均值聚类算法(KNN_FCM)。讨论了基于K近邻隶属度的粗糙C均值聚类算法(KNN_RCM)和粗糙模糊C均值聚类算法(KNN_RFCM),此方法避免了传统粗糙C均值聚类算法(RCM)和粗糙模糊C均值聚类算法(RFCM)中阈值选择问题。将KNN_FCM、KNN_RCM、KNN_RFCM分别与FCM、RFM、RFCM在UCI数据集上进行仿真比较,结果表明新方法是可行、有效的。 展开更多
关键词 k近邻隶属度 模糊C均值 粗糙C均值 粗糙模糊C均值
在线阅读 下载PDF
用于雷达信号分选的连通k近邻聚类算法 被引量:6
15
作者 司伟建 张悦 邓志安 《系统工程与电子技术》 EI CSCD 北大核心 2023年第8期2463-2470,共8页
为了能够在密集且复杂多变的信号环境中进行实时有效的信号分选,需要一种具有较低复杂度且能够根据信号环境自动调整参数的聚类方法。在模糊聚类算法的基础上结合k近邻搜索,将λ邻域范围搜索变为λ邻域内k近邻搜索,提出了连通k近邻聚类(... 为了能够在密集且复杂多变的信号环境中进行实时有效的信号分选,需要一种具有较低复杂度且能够根据信号环境自动调整参数的聚类方法。在模糊聚类算法的基础上结合k近邻搜索,将λ邻域范围搜索变为λ邻域内k近邻搜索,提出了连通k近邻聚类(connected k-nearest neighbor clustering,CkNNC)算法。相比模糊聚类算法,所提算法时间复杂度降低而空间复杂度稍有增加。为使得该算法能够根据信号环境自动进行参数调整,提出了基于k距离图的阈值参数确定方法。所提算法具有时间复杂度低与阈值参数自动确定的特点,仿真结果表明所提算法与使用Calinski-Harabasz指标确定最佳阈值的低复杂度模糊聚类算法相比,分选效果差距不大、性能相近,而时间复杂度大幅下降。 展开更多
关键词 电子对抗 信号分选 k近邻 k距离图
在线阅读 下载PDF
面向非球形分布数据的自适应K近邻聚类算法 被引量:3
16
作者 黄晓斌 万建伟 张燕 《计算机工程》 CAS CSCD 北大核心 2003年第11期21-22,165,共3页
针对传统聚类算法处理非球形分布数据的不足,提出了一种新型的自适应K近邻 聚类算法。该算法由数据集归一化、初始类别构造和初始类别融合3个步骤构成。仿真结果 表明,该算法在无须聚类数目的前提下,对非球型分布数据具有很好的聚类... 针对传统聚类算法处理非球形分布数据的不足,提出了一种新型的自适应K近邻 聚类算法。该算法由数据集归一化、初始类别构造和初始类别融合3个步骤构成。仿真结果 表明,该算法在无须聚类数目的前提下,对非球型分布数据具有很好的聚类效果。 展开更多
关键词 非球形分布 模糊C均值算法(FCA) 自适应k近邻算法(AknnCA)
在线阅读 下载PDF
一种改进的自适应K近邻聚类算法 被引量:2
17
作者 黄晓斌 万建伟 张燕 《计算机工程与应用》 CSCD 北大核心 2004年第15期76-78,130,共4页
为解决传统聚类算法不能处理非球形分布数据的问题,文犤5犦提出了一种自适应k近邻聚类算法。该算法在无需聚类数目的前提下,能有效解决非球形分布数据的聚类问题。但进一步的研究表明,该算法在处理带“奇异”样本的数据集时失去效果。为... 为解决传统聚类算法不能处理非球形分布数据的问题,文犤5犦提出了一种自适应k近邻聚类算法。该算法在无需聚类数目的前提下,能有效解决非球形分布数据的聚类问题。但进一步的研究表明,该算法在处理带“奇异”样本的数据集时失去效果。为此,该文给出了一种改进的自适应k近邻聚类算法。仿真结果表明,新算法不仅保持了原算法在处理非球形分布数据时的优良特性,还成功解决了“奇异”样本问题。 展开更多
关键词 非球形分布 模糊C均值算法(FCA) 自适应k近邻算法(AknnCA)改进自适应k近邻算法(IAknnCA)
在线阅读 下载PDF
基于加权K近邻的改进密度峰值聚类算法 被引量:10
18
作者 杨震 王红军 《计算机应用研究》 CSCD 北大核心 2020年第3期667-671,共5页
密度峰值聚类算法是一种新颖的密度聚类算法,但是原算法仅仅考虑了数据的全局结构,在对分布不均匀的数据集进行聚类时效果不理想,并且原算法仅仅依据决策图上各点的分布情况来选取聚类中心,缺乏可靠的选取标准。针对上述问题,提出了一... 密度峰值聚类算法是一种新颖的密度聚类算法,但是原算法仅仅考虑了数据的全局结构,在对分布不均匀的数据集进行聚类时效果不理想,并且原算法仅仅依据决策图上各点的分布情况来选取聚类中心,缺乏可靠的选取标准。针对上述问题,提出了一种基于加权K近邻的改进密度峰值聚类算法,将最近邻算法的思想引入密度峰值聚类算法,重新定义并计算了各数据点的局部密度,并通过权值斜率变化趋势来判别聚类中心临界点。通过在人工数据集上与UCI真实数据集上的实验,将该改进算法与原密度峰值聚类、K-means及DBSCAN算法进行了对比,证明了改进算法能够在密度不均匀数据集上有效完成聚类,能够发现任意形状簇,且在三个聚类性能指标上普遍高于另外三种算法。 展开更多
关键词 数据挖掘 加权k近邻 密度峰值
在线阅读 下载PDF
可拓K近邻算法在数据聚类分析中的应用 被引量:1
19
作者 杨仪 向长城 魏代俊 《计算机工程与应用》 CSCD 北大核心 2010年第21期156-159,共4页
针对区间值数据的数据聚类问题,根据可拓学关联函数的定义,提出可拓距离的概念来度量数据之间的距离,利用K近邻的思想,根据可拓距离的大小对数据集的目标属性进行投票选择进行分类,设计了可拓K近邻算法(Extension K Nearest Neighbor,EK... 针对区间值数据的数据聚类问题,根据可拓学关联函数的定义,提出可拓距离的概念来度量数据之间的距离,利用K近邻的思想,根据可拓距离的大小对数据集的目标属性进行投票选择进行分类,设计了可拓K近邻算法(Extension K Nearest Neighbor,EKNN)。最后利用UCI的两个基准数据集Iris植物样本数据和糖尿病数据库PIDD进行验证,首先通过免疫网络约简算法对条件属性进行最小属性约简,然后利用EKNN算法分析和比较不同最小约简属性下的分类准确率。 展开更多
关键词 数据 可拓距离 可拓k近邻算法 属性约简
在线阅读 下载PDF
基于邻域互信息与K-means特征聚类的特征选择 被引量:3
20
作者 孙林 梁娜 徐久成 《智能系统学报》 CSCD 北大核心 2024年第4期983-996,共14页
针对多数邻域系统通过人工调试很难搜索到最佳邻域半径,以及传统的K-means聚类需要随机选取簇中心和指定簇的数目等问题,提出了一种基于邻域互信息与K-means特征聚类的特征选择方法。首先,将样本在各特征下与其他样本距离的平均值作为... 针对多数邻域系统通过人工调试很难搜索到最佳邻域半径,以及传统的K-means聚类需要随机选取簇中心和指定簇的数目等问题,提出了一种基于邻域互信息与K-means特征聚类的特征选择方法。首先,将样本在各特征下与其他样本距离的平均值作为自适应邻域半径,确定样本的邻域集,并由此构建自适应邻域熵、邻域互信息、归一化邻域互信息等度量,反映特征之间的相关性;然后,基于归一化邻域互信息构建自适应K近邻集合,利用Pearson相关系数表示特征的权重定义加权K近邻密度,实现自动选取K-means算法的簇中心,进而完成K-means特征聚类;最后,给出加权平均冗余度,选出每个特征簇中加权平均冗余度最大的特征构成最优特征子集。实验结果表明所提算法不仅可以有效提升特征选择的分类结果而且可以获得更好的聚类效果。 展开更多
关键词 特征选择 邻域互信息 k-MEANS 特征 自适应k近邻 特征权重 加权k近邻密度
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部