聚类技术是数据挖掘中的一个重要方法,PAM(Partitioning Around Medoids)是基于分区的聚类算法的一种,它试图将n个数据对象分成k个部分。在并行粒子群PSO(Particle Swarm Optimization)算法中,需要划分整个种群为几个相互不重叠的子种...聚类技术是数据挖掘中的一个重要方法,PAM(Partitioning Around Medoids)是基于分区的聚类算法的一种,它试图将n个数据对象分成k个部分。在并行粒子群PSO(Particle Swarm Optimization)算法中,需要划分整个种群为几个相互不重叠的子种群。因此,引入PAM来划分整个种群。通过聚类,相同子种群的粒子相对集中,从而能够较容易地相互学习。这使得有限的时间能够花费在最有效的搜索上,以便提高算法的搜索效率。为了均匀地探测整个解空间,引入均匀设计来产生初始种群,使种群成员均匀地分散在可行解空间中。进化过程中,均匀设计也被引入来替换种群中的较差个体。提出基于PAM和均匀设计的并行粒子群算法,它结合并充分利用了二者的优点。对几个测试问题的实验结果证明,提出的算法比传统的并行粒子群算法具有更高的性能和更好的收敛准确性。展开更多
传统PAM(Partitioning Around Medoids)算法时间复杂度较高,处理大数据集时效率低下.近年来,越来越多研究者使用MapReduce模型来使聚类算法获得更高的性能,然而MapReduce模型在算法迭代过程中需要多次重启任务、从文件系统读取数据和数...传统PAM(Partitioning Around Medoids)算法时间复杂度较高,处理大数据集时效率低下.近年来,越来越多研究者使用MapReduce模型来使聚类算法获得更高的性能,然而MapReduce模型在算法迭代过程中需要多次重启任务、从文件系统读取数据和数据洗牌,影响数据处理效率.本文提出两种基于MapReduce的融合PAM算法与仔细播种的聚类处理模型,在保持PAM算法聚类有效性的同时,在算法性能上获得显著提高.性能试验和聚类有效性实验的结果表明本文提出的方法达到了预期的效果且具有很好的可扩展性.展开更多
文摘聚类技术是数据挖掘中的一个重要方法,PAM(Partitioning Around Medoids)是基于分区的聚类算法的一种,它试图将n个数据对象分成k个部分。在并行粒子群PSO(Particle Swarm Optimization)算法中,需要划分整个种群为几个相互不重叠的子种群。因此,引入PAM来划分整个种群。通过聚类,相同子种群的粒子相对集中,从而能够较容易地相互学习。这使得有限的时间能够花费在最有效的搜索上,以便提高算法的搜索效率。为了均匀地探测整个解空间,引入均匀设计来产生初始种群,使种群成员均匀地分散在可行解空间中。进化过程中,均匀设计也被引入来替换种群中的较差个体。提出基于PAM和均匀设计的并行粒子群算法,它结合并充分利用了二者的优点。对几个测试问题的实验结果证明,提出的算法比传统的并行粒子群算法具有更高的性能和更好的收敛准确性。
文摘传统PAM(Partitioning Around Medoids)算法时间复杂度较高,处理大数据集时效率低下.近年来,越来越多研究者使用MapReduce模型来使聚类算法获得更高的性能,然而MapReduce模型在算法迭代过程中需要多次重启任务、从文件系统读取数据和数据洗牌,影响数据处理效率.本文提出两种基于MapReduce的融合PAM算法与仔细播种的聚类处理模型,在保持PAM算法聚类有效性的同时,在算法性能上获得显著提高.性能试验和聚类有效性实验的结果表明本文提出的方法达到了预期的效果且具有很好的可扩展性.