提出一种基于密度的簇结构挖掘算法(mining density-based clustering structure over data streams,简称MClu Stream),以解决数据流密度聚类中输入参数选择困难和重叠簇识别等问题.首先,设计了一种树拓扑CR-Tree索引结构,将直接核心可...提出一种基于密度的簇结构挖掘算法(mining density-based clustering structure over data streams,简称MClu Stream),以解决数据流密度聚类中输入参数选择困难和重叠簇识别等问题.首先,设计了一种树拓扑CR-Tree索引结构,将直接核心可达的一对数据点映射成树结构中的父子关系,蕴含了数据点依赖关系的CR-Tree涵盖了一系列sub Eps参数下的基于密度的簇结构;其次,MClu Stream算法采用滑动窗口的方式更新CR-Tree,在线维护当前窗口上的簇结构,实现了对海量数据流的快速演化聚类分析;再次,设计了一种快速从CR-Tree提取簇结构的方法,根据可视化的簇结构,选择合理的聚类结果;最后,在真实和合成海量数据上的实验验证了MClu Stream算法具有有效的挖掘效果、较高的聚类效率和较小的空间开销.MClu Stream可适用于海量数据流应用中自适应的密度聚类演化分析.展开更多
基金国家自然科学基金(the National Natural Science Foundation of China under Grant No.70371007No.70771004)北京市自然科学基金(the Natural Science Foundation of Beijing City of China under Grant No.9052006)
基金国家自然科学基金(the National Natural Science Foundation of China under Grant No.60573096) 山东理工大学科研基金(the ScienceFoundation of Shandong University of Technology under Grant No.2006KJM15) 。