-
题名基于可变染色体长度的遗传K均值聚类算法
被引量:7
- 1
-
-
作者
严宇平
肖菁
-
机构
中山大学软件学院
中山大学广东省信息安全技术重点实验室
-
出处
《计算机工程与设计》
CSCD
北大核心
2008年第14期3709-3713,共5页
-
基金
中山大学青年教师基金项目(1131161)
-
文摘
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺点,使用了一种基于可变染色体编码长度的遗传算法对传统K-均值聚类进行改进。该算法可以在事先不确定K值的情况下,通过多次的选择、交叉、变异的遗传操作,最终得到最优的聚类数,以及最优的初始质心集。通过Reuters数据集的实验结果表明,基于该算法的聚类划分结果明显优于传统K-均值聚类算法,并且好过基于固定染色体编码长度遗传算法的K-均值聚类算法。
-
关键词
文本聚类
K-均值算法
遗传算法
可变染色体长度编码
Reuters数据集
-
Keywords
text clustering
K-Means
genetic algorithm
modified variable string length
Reuters data set
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名结合遗传k均值改进的密度峰值聚类算法
被引量:8
- 2
-
-
作者
卜秋瑾
段隆振
段文影
-
机构
南昌大学信息工程学院
-
出处
《计算机工程与设计》
北大核心
2020年第4期1012-1016,共5页
-
基金
国家自然科学基金项目(61262047)。
-
文摘
针对密度峰值聚类(CFSFDP)算法处理多密度峰值数据集时,人工选择聚类中心易造成簇的误划分问题,提出一种结合遗传k均值改进的密度峰值聚类算法。在CFSFDP求得的可能簇中心中,利用基于可变染色体长度编码的遗传k均值的全局搜索能力自动搜索出最优聚类中心,同时自适应确定遗传k均值的交叉概率,避免早熟问题的出现。在UCI数据集上的实验结果表明,改进算法具有较好的聚类质量和较少的迭代次数,验证了所提算法的可行性和有效性。
-
关键词
聚类
密度峰值聚类
簇中心
遗传k均值
可变染色体长度编码
-
Keywords
clustering
clustering by fast search and find of density peaks
cluster centers
genetic k-means algorithm
modified variable string length
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-