-
题名基于模糊粒度计算的K-means文本聚类算法研究
被引量:12
- 1
-
-
作者
张霞
王素贞
尹怡欣
赵海龙
-
机构
河北经贸大学计算机中心
北京科技大学信息工程学院
-
出处
《计算机科学》
CSCD
北大核心
2010年第2期209-211,共3页
-
基金
国家自然科学基金项目(60374032)
河北省教育厅科研计划项目(2009116)资助
-
文摘
传统的K-means算法对初始聚类中心非常敏感,聚类结果随不同的初始输入而波动,算法的稳定性下降。针对这个问题,提出了一种优化初始聚类中心的新算法:在数据对象的模糊粒度空间上给定一个归一化的距离函数,用此函数对所有距离小于粒度d_λ的数据对象进行初始聚类,对初始聚类簇计算其中心,得到一组优化的聚类初始值。实验对比证明,新算法有效地消除了传统K-means算法对初始输入的敏感性,提高了算法的稳定性和准确率。
-
关键词
模糊
粒度
K-MEANS
文本聚类
归一化距离函数
-
Keywords
Fuzzy,Granular computing,K-means,Text cluster,Normalized distance function
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于模糊粒度计算的文本聚类研究
被引量:5
- 2
-
-
作者
张霞
尹怡欣
于海燕
赵海龙
-
机构
北京科技大学信息工程学院
河北经贸大学计算机中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第13期53-55,共3页
-
基金
国家自然科学基金No.60374032
河北省教育厅科研计划项目No.2009116~~
-
文摘
典型的文本聚类算法是一种硬划分,但是实际上由于中文文本的多样性和大量性更适合进行软划分,模糊集理论的提出为这种软划分提供了有力的分析工具。传统的模糊聚类方法大都是通过对隶属度的矩阵逐步迭代得到模糊等价矩阵或模糊划分的方法实现聚类,这个过程需要大量的存储空间。基于模糊粒度计算的文本聚类算法是在文档集合的模糊粒度空间上给定一个归一化的距离函数d(di,d)j,对距离小于粒度dλ的文本进行动态聚类。通过实验证明此方法在解决文本聚类问题时具有降低计算复杂度和空间复杂度,适于大量文本的聚类处理。
-
关键词
模糊
粒度计算
文本聚类
归一化距离函数
-
Keywords
fuzzy
granular computing
text cluster
normalized distance function
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-