-
题名一种优化的基于网格的聚类算法
被引量:6
- 1
-
-
作者
刘俊岭
孙焕良
王大玲
牛志成
-
机构
沈阳建筑大学计算中心
沈阳建筑大学信息与控制工程学院
东北大学信息科学与工程学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第10期1927-1930,共4页
-
基金
国家自然科学基金项目(60573090)资助
辽宁自然科学基金项目(20052006)资助
辽宁省教育厅攻关计(05L354)资助.
-
文摘
聚类是数据挖掘领域中一个重要的研究课题.与其它算法相比,基于网格的聚类算法可以高效处理低维的海量数据.然而,由于划分的单元数与数据的维数呈指数增长,因此对于维数较高的数据集,生成的单元数过多,导致算法的效率较低.本文基于CD-Tree设计了新的基于网格的聚类算法,该算法的效率远高于传统的基于网格聚类算法的效率.此外,本文设计了一种剪枝优化策略,以提高算法的效率.实验表明,与传统的聚类算法相比,基于CD-Tree的聚类算法在数据集的大小及维度的可伸缩性方面均有显著提高.
-
关键词
数据挖掘
聚类分析
CD—Tree
基于网格的算法
-
Keywords
data mining
clustering analysis
CD-Tree
the cell-based algorithm
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于CD-Tree的高效聚类算法
- 2
-
-
作者
孙焕良
刘俊岭
于戈
鲍玉斌
王大玲
-
机构
沈阳建筑大学信息与控制工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第z3期371-375,共5页
-
基金
国家自然科学基金项目(60473073,60573090)
辽宁省自然科学基金项目(20052006)
辽宁省教育厅攻关计划基金项目(05L354)
-
文摘
基于网格的聚类算法可以高效处理低维的海量数据.然而,对于维数较高的数据集,生成的单元数过多导致算法的效率较低.CD-Tree是一种只保存非空单元的索引结构,基于CD-Tree设计了新的基于网格的聚类算法,利用CD-Tree的优点提高了传统的基于网格的聚类算法的效率.此外,该算法聚类时只需访问稠密单元,设计了优化策略,在聚类之前剪枝掉非稠密单元,进一步提高了算法的效率.实验表明,与传统的聚类算法相比,基于CD-Tree的聚类算法有更好的可伸缩性.
-
关键词
数据挖掘
聚类分析
CD-Tree
基于网格的算法
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-