题名 基于簇间相似度判定的自适应K均值算法
被引量:1
1
作者
陈杰
朱娟
机构
华南理工大学计算机科学与工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2010年第10期2270-2272,2375,共4页
文摘
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺陷,定义了簇间相似度度量对传统K-均值聚类进行改进。新算法可以在事先不确定K值的情况下,根据欧氏距离选取初始质心并按照K均值算法聚类,然后过滤噪声样本并确定簇半径,计算簇间相似度并合并相似簇确定数据集的类别数并得到较优的聚类结果。通过在UCI数据集的实验结果表明,新算法能准确确定类别数并有高于传统K均值算法聚类精度。
关键词
半聚类
K均值算法
基本簇
簇 间相似 度
簇 合并
Keywords
clustering
K-means
basic cluster
similarity between clusters
cluster merger
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于高斯分布的自适应密度峰值聚类算法
2
作者
李启文
王治和
杜辉
鲁德鹏
机构
西北师范大学计算机科学与工程学院
出处
《计算机工程》
北大核心
2025年第4期137-148,共12页
基金
国家自然科学基金(62372353)。
文摘
密度峰值聚类(DPC)算法可以发现任意形状的簇,对噪声具有鲁棒性,因此被广泛应用于各个领域。但DPC算法需要人工选取聚类中心,对于密度不均匀型数据集表现较差。为此,提出一种基于高斯分布的自适应密度峰值聚类算法。首先,计算局部密度和相对距离的乘积θ_(i),通过Z-score标准化方法,将θ_(i)映射到符合高斯分布的二维空间中,利用高斯分布的标准偏差来自适应选取聚类中心,得到聚类中心集合;其次,将其余数据点分配到离其最近的聚类中心所在的簇中,得到初步划分结果;最后,设计缝合因子模型,计算簇间缝合系数,当缝合系数大于阈值时合并初步划分结果中最相似簇并更新相似度矩阵,直至完成合并得到最终结果。在人工数据集和真实数据集上的实验结果表明,与DBSCAN算法、DPC算法和ICKDC算法对比,所提算法的聚类准确度更高,聚类性能更佳。
关键词
密度 峰值聚类算法
高斯分布
Z-score标准化
缝合因子
簇 间相似 度
Keywords
Density Peak Clustering(DPC)algorithm
Gaussian distribution
Z-score standardization
suture factor
inter-cluster similarity
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 自然最近邻优化的密度峰值聚类算法
被引量:23
3
作者
金辉
钱雪忠
机构
江南大学物联网工程学院物联网技术应用教育部工程研究中心
出处
《计算机科学与探索》
CSCD
北大核心
2019年第4期711-720,共10页
基金
国家自然科学基金(No.61673193)
中央高校基本科研业务费专项资金(Nos.JUSRP51635B
JUSRP51510)~~
文摘
针对现有的基于密度的聚类算法存在参数敏感,处理非球面数据和复杂流形数据聚类效果差的问题,提出一种新的基于密度峰值的聚类算法。该算法首先根据自然最近邻居的概念确定数据点的局部密度,然后根据密度峰局部密度最高并且被稀疏区域分割来确定聚类中心,最后提出一种新的类簇间相似度概念来解决复杂流形问题。在实验中,该算法在合成和实际数据集中的表现比DPC(clustering by fast search and find of density peaks)、DBSCAN(density-based spatial clustering of applications with noise)和K-means算法要好,并且在非球面数据和复杂流形数据上的优越性特别大。
关键词
密度 峰
自然最近邻居
局部密度
稀疏区域
类簇 间相似 度
Keywords
density peak
natural nearest neighbor
local density
sparse regions
similarity between clusters
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 结合语义的改进FTC文本聚类算法
被引量:5
4
作者
王秀慧
王丽珍
麻淑芳
机构
山西大同大学教育科学与技术学院
出处
《计算机工程与设计》
CSCD
北大核心
2014年第2期515-519,共5页
基金
山西省科技基础条件平台基金项目(2011091002-0102)
山西大同大学青年科研基金项目(2010Q13)
文摘
针对FTC文本聚类算法未考虑词语之间语义联系以及硬划分聚类的缺陷,提出了一种结合语义的改进FTC文本聚类算法SFTC。SFTC基于知网把文本的关键词集映射成概念集合,采用FP-Growth算法在概念层次上挖掘频繁项集并以此生成候选簇。考虑到文本具有多主题性,定义了簇间相似度度量公式,在生成结果簇的过程中通过判断相似度大小来决定簇间是否应该存在重叠,实现了文本聚类在一定程度上的软划分。实验结果表明,SFTC算法具有更高的聚类准确度和更高的运行效率。
关键词
文本聚类
频繁项集
知网
簇相似度
软划分
Keywords
text clustering
frequent term set
HowNet
cluster similarity
elastic classification
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 简单有效的确定聚类数目算法
被引量:23
5
作者
张忠平
王爱杰
柴旭光
机构
燕山大学信息科学与工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2009年第15期166-168,共3页
基金
国家自然科学基金No.60773100
教育部科学技术研究重点项目No.205014~~
文摘
很多聚类算法要求用户在聚类之前给出聚类数目,这给用户带来了很大的困难。利用二分思想递归分裂簇内相似度大于给定阈值的簇,最后合并簇间相似度小于给定阈值的簇,来获得最终聚类数目。实验表明提出的算法确定的聚类数目和实际聚类数目相同,并且簇内数据的相似性高,簇间数据的相似性低,该算法简单高效。
关键词
簇 内相似 度
簇 间相似 度
分裂
合并
聚类数目
Keywords
intra similarity
inter similarity
split
merge
the number of clusters
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 面向实体识别的聚类算法
被引量:8
6
作者
孙琛琛
申德荣
寇月
聂铁铮
于戈
机构
东北大学计算机科学与工程学院
出处
《软件学报》
EI
CSCD
北大核心
2016年第9期2303-2319,共17页
基金
国家自然科学基金(61472070
61402213)
+1 种基金
国家重点基础研究发展计划(973)(2012CB316201)
教育部基本科研业务费项目(N110404010)~~
文摘
实体识别是数据质量的一个重要方面,对于大数据处理不可或缺.已有的实体识别研究工作聚焦于数据对象相似度算法、分块技术和监督的实体识别技术,而非监督的实体识别中匹配决定的问题很少被涉及.提出一种面向实体识别的聚类算法来弥补这个缺失.利用数据对象及其相似度构建带权重的数据对象相似图.聚类过程中,利用相似图上重启式随机游走来动态地计算类簇与结点的相似度.聚类的基本逻辑是,类簇迭代地吸收离它最近的结点.提出数据对象排序方法来优化聚类的顺序,提高聚类精确性;提出了优化的随机游走平稳概率分布计算方法,降低聚类算法开销.通过在真实数据集和生成数据集上的对比实验,验证了该算法的有效性.
关键词
实体识别
聚类
随机游走模型
簇 点相似 度
数据对象排序
Keywords
entity resolution
clustering
random walk model
cluster-vertex similarity
data object ordering
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 位置加权文本聚类算法
被引量:6
7
作者
金春霞
周海岩
机构
淮阴工学院计算机工程学院
出处
《计算机工程与科学》
CSCD
北大核心
2011年第6期154-158,共5页
基金
江苏省科技攻关项目(BE2006357)
文摘
文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同,提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量,采用层次聚类和K-means文本聚类相结合的改进算法实现文本聚类。实验结果表明,提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度,在稳定性和纯度上都有显著提高,获得了较好的聚类效果。
关键词
文本聚类
文本向量
特征选择
位置加权
簇 间相似 度
Keywords
text clustering
text vector
feature selecting
position weighting
similarity between clusters
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于中心距序降维的聚类算法
被引量:1
8
作者
向剑平
唐常杰
郑皎凌
易树鸿
机构
遵义师范学院计算机科学系
四川大学计算机学院
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第12期58-60,63,共4页
基金
国家自然科学基金资助项目(60773169)
贵州省科技厅自然科学基金资助项目(黔科合J字[2010])
遵义市科技局自然科学基金资助项目(遵市科合社字[2009]27号)
文摘
为提高金融业务数据集上的聚类质量和聚类效率,提出簇的直径、簇间的相似度这2个概念。利用距离尺度降维的中心距序降维法,将多维数据降至一维,在一维上利用自适应排序聚类算法ASC聚类。该算法和传统的Cobweb算法、K-means算法做对比,实验表明该方法能提高簇间相似度,最大提高200%。
关键词
簇 直径
簇 间相似 度
ASC算法
中心距序降维
Keywords
cluster diameter
cluster similarity
self-Adaptive Sort Clustering(ASC) algorithm
dimension reduction by center distance order
分类号
TP311
[自动化与计算机技术—计算机软件与理论]