期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于簇间相似度判定的自适应K均值算法 被引量:1
1
作者 陈杰 朱娟 《计算机工程与设计》 CSCD 北大核心 2010年第10期2270-2272,2375,共4页
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺陷,定义了簇间相似度度量对传统K-均值聚类进行改进。新算法可以在事先不确定K值的情况下,根据欧氏距离选取初始质心并按照K均值... 针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺陷,定义了簇间相似度度量对传统K-均值聚类进行改进。新算法可以在事先不确定K值的情况下,根据欧氏距离选取初始质心并按照K均值算法聚类,然后过滤噪声样本并确定簇半径,计算簇间相似度并合并相似簇确定数据集的类别数并得到较优的聚类结果。通过在UCI数据集的实验结果表明,新算法能准确确定类别数并有高于传统K均值算法聚类精度。 展开更多
关键词 半聚类 K均值算法 基本 相似 合并
在线阅读 下载PDF
基于高斯分布的自适应密度峰值聚类算法
2
作者 李启文 王治和 +1 位作者 杜辉 鲁德鹏 《计算机工程》 北大核心 2025年第4期137-148,共12页
密度峰值聚类(DPC)算法可以发现任意形状的簇,对噪声具有鲁棒性,因此被广泛应用于各个领域。但DPC算法需要人工选取聚类中心,对于密度不均匀型数据集表现较差。为此,提出一种基于高斯分布的自适应密度峰值聚类算法。首先,计算局部密度... 密度峰值聚类(DPC)算法可以发现任意形状的簇,对噪声具有鲁棒性,因此被广泛应用于各个领域。但DPC算法需要人工选取聚类中心,对于密度不均匀型数据集表现较差。为此,提出一种基于高斯分布的自适应密度峰值聚类算法。首先,计算局部密度和相对距离的乘积θ_(i),通过Z-score标准化方法,将θ_(i)映射到符合高斯分布的二维空间中,利用高斯分布的标准偏差来自适应选取聚类中心,得到聚类中心集合;其次,将其余数据点分配到离其最近的聚类中心所在的簇中,得到初步划分结果;最后,设计缝合因子模型,计算簇间缝合系数,当缝合系数大于阈值时合并初步划分结果中最相似簇并更新相似度矩阵,直至完成合并得到最终结果。在人工数据集和真实数据集上的实验结果表明,与DBSCAN算法、DPC算法和ICKDC算法对比,所提算法的聚类准确度更高,聚类性能更佳。 展开更多
关键词 峰值聚类算法 高斯分布 Z-score标准化 缝合因子 相似
在线阅读 下载PDF
自然最近邻优化的密度峰值聚类算法 被引量:23
3
作者 金辉 钱雪忠 《计算机科学与探索》 CSCD 北大核心 2019年第4期711-720,共10页
针对现有的基于密度的聚类算法存在参数敏感,处理非球面数据和复杂流形数据聚类效果差的问题,提出一种新的基于密度峰值的聚类算法。该算法首先根据自然最近邻居的概念确定数据点的局部密度,然后根据密度峰局部密度最高并且被稀疏区域... 针对现有的基于密度的聚类算法存在参数敏感,处理非球面数据和复杂流形数据聚类效果差的问题,提出一种新的基于密度峰值的聚类算法。该算法首先根据自然最近邻居的概念确定数据点的局部密度,然后根据密度峰局部密度最高并且被稀疏区域分割来确定聚类中心,最后提出一种新的类簇间相似度概念来解决复杂流形问题。在实验中,该算法在合成和实际数据集中的表现比DPC(clustering by fast search and find of density peaks)、DBSCAN(density-based spatial clustering of applications with noise)和K-means算法要好,并且在非球面数据和复杂流形数据上的优越性特别大。 展开更多
关键词 自然最近邻居 局部密 稀疏区域 相似
在线阅读 下载PDF
结合语义的改进FTC文本聚类算法 被引量:5
4
作者 王秀慧 王丽珍 麻淑芳 《计算机工程与设计》 CSCD 北大核心 2014年第2期515-519,共5页
针对FTC文本聚类算法未考虑词语之间语义联系以及硬划分聚类的缺陷,提出了一种结合语义的改进FTC文本聚类算法SFTC。SFTC基于知网把文本的关键词集映射成概念集合,采用FP-Growth算法在概念层次上挖掘频繁项集并以此生成候选簇。考虑到... 针对FTC文本聚类算法未考虑词语之间语义联系以及硬划分聚类的缺陷,提出了一种结合语义的改进FTC文本聚类算法SFTC。SFTC基于知网把文本的关键词集映射成概念集合,采用FP-Growth算法在概念层次上挖掘频繁项集并以此生成候选簇。考虑到文本具有多主题性,定义了簇间相似度度量公式,在生成结果簇的过程中通过判断相似度大小来决定簇间是否应该存在重叠,实现了文本聚类在一定程度上的软划分。实验结果表明,SFTC算法具有更高的聚类准确度和更高的运行效率。 展开更多
关键词 文本聚类 频繁项集 知网 簇相似度 软划分
在线阅读 下载PDF
简单有效的确定聚类数目算法 被引量:23
5
作者 张忠平 王爱杰 柴旭光 《计算机工程与应用》 CSCD 北大核心 2009年第15期166-168,共3页
很多聚类算法要求用户在聚类之前给出聚类数目,这给用户带来了很大的困难。利用二分思想递归分裂簇内相似度大于给定阈值的簇,最后合并簇间相似度小于给定阈值的簇,来获得最终聚类数目。实验表明提出的算法确定的聚类数目和实际聚类数... 很多聚类算法要求用户在聚类之前给出聚类数目,这给用户带来了很大的困难。利用二分思想递归分裂簇内相似度大于给定阈值的簇,最后合并簇间相似度小于给定阈值的簇,来获得最终聚类数目。实验表明提出的算法确定的聚类数目和实际聚类数目相同,并且簇内数据的相似性高,簇间数据的相似性低,该算法简单高效。 展开更多
关键词 相似 相似 分裂 合并 聚类数目
在线阅读 下载PDF
面向实体识别的聚类算法 被引量:8
6
作者 孙琛琛 申德荣 +2 位作者 寇月 聂铁铮 于戈 《软件学报》 EI CSCD 北大核心 2016年第9期2303-2319,共17页
实体识别是数据质量的一个重要方面,对于大数据处理不可或缺.已有的实体识别研究工作聚焦于数据对象相似度算法、分块技术和监督的实体识别技术,而非监督的实体识别中匹配决定的问题很少被涉及.提出一种面向实体识别的聚类算法来弥补这... 实体识别是数据质量的一个重要方面,对于大数据处理不可或缺.已有的实体识别研究工作聚焦于数据对象相似度算法、分块技术和监督的实体识别技术,而非监督的实体识别中匹配决定的问题很少被涉及.提出一种面向实体识别的聚类算法来弥补这个缺失.利用数据对象及其相似度构建带权重的数据对象相似图.聚类过程中,利用相似图上重启式随机游走来动态地计算类簇与结点的相似度.聚类的基本逻辑是,类簇迭代地吸收离它最近的结点.提出数据对象排序方法来优化聚类的顺序,提高聚类精确性;提出了优化的随机游走平稳概率分布计算方法,降低聚类算法开销.通过在真实数据集和生成数据集上的对比实验,验证了该算法的有效性. 展开更多
关键词 实体识别 聚类 随机游走模型 相似 数据对象排序
在线阅读 下载PDF
位置加权文本聚类算法 被引量:6
7
作者 金春霞 周海岩 《计算机工程与科学》 CSCD 北大核心 2011年第6期154-158,共5页
文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同,提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通... 文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同,提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量,采用层次聚类和K-means文本聚类相结合的改进算法实现文本聚类。实验结果表明,提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度,在稳定性和纯度上都有显著提高,获得了较好的聚类效果。 展开更多
关键词 文本聚类 文本向量 特征选择 位置加权 相似
在线阅读 下载PDF
基于中心距序降维的聚类算法 被引量:1
8
作者 向剑平 唐常杰 +1 位作者 郑皎凌 易树鸿 《计算机工程》 CAS CSCD 北大核心 2010年第12期58-60,63,共4页
为提高金融业务数据集上的聚类质量和聚类效率,提出簇的直径、簇间的相似度这2个概念。利用距离尺度降维的中心距序降维法,将多维数据降至一维,在一维上利用自适应排序聚类算法ASC聚类。该算法和传统的Cobweb算法、K-means算法做对比,... 为提高金融业务数据集上的聚类质量和聚类效率,提出簇的直径、簇间的相似度这2个概念。利用距离尺度降维的中心距序降维法,将多维数据降至一维,在一维上利用自适应排序聚类算法ASC聚类。该算法和传统的Cobweb算法、K-means算法做对比,实验表明该方法能提高簇间相似度,最大提高200%。 展开更多
关键词 直径 相似 ASC算法 中心距序降维
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部