已有的聚类集算法基本上都是非监督聚类集成算法,这样不能利用已知信息,使得聚类集成的准确性、鲁棒性和稳定性降低.把半监督学习和聚类集成结合起来,设计半监督聚类集成模型来克服这些缺点.主要工作包括:第一,设计了基于贝叶斯网络的...已有的聚类集算法基本上都是非监督聚类集成算法,这样不能利用已知信息,使得聚类集成的准确性、鲁棒性和稳定性降低.把半监督学习和聚类集成结合起来,设计半监督聚类集成模型来克服这些缺点.主要工作包括:第一,设计了基于贝叶斯网络的半监督聚类集成(semi-supervised cluster ensemble,简称SCE)模型,并对模型用变分法进行了推理求解;第二,在此基础上,给出了EM(expectation maximization)框架下的具体算法;第三,从UCI(University of California,Irvine)机器学习库中选取部分数据来做实验.实验结果表明,SCE模型本身及其变分推理后所设计的EM算法都能进行半监督聚类集成,总的来说,效果比NMFS(algorithm of nonnegative-matrix-factorization based semi-supervised)、半监督SVM(support vector machine)、LVCE(latentvariable model for cluster ensemble)等算法要好.该半监督聚类集成模型聚集了半监督学习和聚类集成两者的优点,最后的聚类结果比单纯的半监督聚类或聚类集成的效果都要好.展开更多
仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射传播大数据聚类分析方法...仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射传播大数据聚类分析方法,简称APCH)。通过在Hadoop环境下重新设计算法流程,APCH算法成为了一个并行化的大数据聚类分析方法。此外APCH算法能够高效操作大数据,并能够直接决定聚类的个数。为了验证方法的性能,在多个数据集上进行了实验。实验结果表明APCH对大数据处理有很好的适应性和延展性。APCH采用开源的方式提供可执行软件程序和源代码,用户可以下载后部署在自己的分布式集群中或者是部署在亚马逊EC2等云计算环境中。所有编译后的执行程序,源代码,用户手册,部分测试数据集均可以从https://github.com/Hello World CN/Map Reduce APC上下载。展开更多
文摘已有的聚类集算法基本上都是非监督聚类集成算法,这样不能利用已知信息,使得聚类集成的准确性、鲁棒性和稳定性降低.把半监督学习和聚类集成结合起来,设计半监督聚类集成模型来克服这些缺点.主要工作包括:第一,设计了基于贝叶斯网络的半监督聚类集成(semi-supervised cluster ensemble,简称SCE)模型,并对模型用变分法进行了推理求解;第二,在此基础上,给出了EM(expectation maximization)框架下的具体算法;第三,从UCI(University of California,Irvine)机器学习库中选取部分数据来做实验.实验结果表明,SCE模型本身及其变分推理后所设计的EM算法都能进行半监督聚类集成,总的来说,效果比NMFS(algorithm of nonnegative-matrix-factorization based semi-supervised)、半监督SVM(support vector machine)、LVCE(latentvariable model for cluster ensemble)等算法要好.该半监督聚类集成模型聚集了半监督学习和聚类集成两者的优点,最后的聚类结果比单纯的半监督聚类或聚类集成的效果都要好.
文摘仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射传播大数据聚类分析方法,简称APCH)。通过在Hadoop环境下重新设计算法流程,APCH算法成为了一个并行化的大数据聚类分析方法。此外APCH算法能够高效操作大数据,并能够直接决定聚类的个数。为了验证方法的性能,在多个数据集上进行了实验。实验结果表明APCH对大数据处理有很好的适应性和延展性。APCH采用开源的方式提供可执行软件程序和源代码,用户可以下载后部署在自己的分布式集群中或者是部署在亚马逊EC2等云计算环境中。所有编译后的执行程序,源代码,用户手册,部分测试数据集均可以从https://github.com/Hello World CN/Map Reduce APC上下载。