-
题名基于聚类准则函数的改进K-means算法
被引量:41
- 1
-
-
作者
张雪凤
张桂珍
刘鹏
-
机构
上海财经大学信息管理与工程学院
上海财经大学继续教育学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第11期123-127,共5页
-
基金
上海财经大学"211工程"三期重点学科建设项目
-
文摘
K-means算法所使用的聚类准则函数是将数据集中各个簇的误差平方值直接相加而得到的,不能有效处理簇的密度不均且大小差异较大的数据集。为此,将K-means算法的聚类准则函数定义为加权的簇内标准差之和,权重为簇内数据对象数占总数目的比例。同时,调整了传统K-means算法将数据对象重新分配给簇的方法,采用一个数据对象到中心点的加权距离代替传统K-means算法中的距离,将数据对象分配给使加权距离最小的中心点所在的簇。实验结果表明,针对模拟数据集的聚类,改进K-means算法可以明显减少大而稀的簇中数据对象被错误地分配到相邻的小而密簇的可能性,改善了聚类的质量;针对UCI数据集的聚类,改进算法使得各个簇更为紧凑,从而验证了改进K-means算法的有效性。
-
关键词
K-MEANS算法
簇
聚类准则函数
-
Keywords
K-means algorithm
cluster
clustering criterion function
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-