为解决一些决策树受到数据噪声等因素的影响,导致它们对随机森林聚类产生有限甚至负面贡献这一问题,提出一种基于聚类集成选择的随机森林聚类方法(random forest clustering method based on cluster ensemble selection,RFCCES)。将每...为解决一些决策树受到数据噪声等因素的影响,导致它们对随机森林聚类产生有限甚至负面贡献这一问题,提出一种基于聚类集成选择的随机森林聚类方法(random forest clustering method based on cluster ensemble selection,RFCCES)。将每一棵决策树视为一个基聚类器,根据基聚类器集合的稳定和不稳定性设计两种不同的聚类集成选择方法,将评估单个决策树对随机森林的增益问题,转化为基聚类器对最终的聚类集成结果的增益问题。该算法与5种对比方法在10个数据集上进行比较,实验结果验证了RFCCES的独特优势和整体有效性。展开更多
K-means聚类算法随机确定初始聚类数目,而且原始数据集中含有大量的冗余特征会导致聚类时精度降低,而布谷鸟搜索(CS)算法存在收敛速度慢和局部搜索能力弱等问题,为此提出一种基于自适应布谷鸟优化特征选择的K-means聚类算法(DCFSK)。首...K-means聚类算法随机确定初始聚类数目,而且原始数据集中含有大量的冗余特征会导致聚类时精度降低,而布谷鸟搜索(CS)算法存在收敛速度慢和局部搜索能力弱等问题,为此提出一种基于自适应布谷鸟优化特征选择的K-means聚类算法(DCFSK)。首先,为提升CS算法的搜索速度和精度,在莱维飞行阶段,设计了自适应步长因子;为调节CS算法全局搜索和局部搜索之间的平衡、加快CS算法的收敛,动态调整发现概率,进而提出改进的动态CS算法(IDCS),在IDCS的基础上构建了结合动态CS的特征选择算法(DCFS)。其次,为提升传统欧氏距离的计算精确度,设计同时考虑样本和特征对距离计算贡献程度的加权欧氏距离;为了确定最佳聚类数目的选取方法,依据改进的加权欧氏距离构造了加权簇内距离和簇间距离。最后,为克服传统K-means聚类目标函数仅考虑簇内的距离而未考虑簇间距离的缺陷,提出基于中位数的轮廓系数的目标函数,进而设计了DCFSK。实验结果表明,在10个基准测试函数上,IDCS的各项指标取得了较优的结果;相较于K-means、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)等算法,在6个合成数据集与6个UCI数据集上,DCFSK的聚类效果最佳。展开更多
在高维多目标进化算法中,通常利用重组算子产生优质子代来引导种群搜索,已有研究表明,利用相似个体进行重组可以提高子代个体质量.由于自组织映射(Self-Organizing Mapping,SOM)网络能够通过聚类的方式保持种群个体原有的拓扑逻辑关系...在高维多目标进化算法中,通常利用重组算子产生优质子代来引导种群搜索,已有研究表明,利用相似个体进行重组可以提高子代个体质量.由于自组织映射(Self-Organizing Mapping,SOM)网络能够通过聚类的方式保持种群个体原有的拓扑逻辑关系并获得个体的相似信息,因此本文提出一种基于SOM聚类和自适应算子选择的高维多目标进化算法(Many-Objective Evolutionary Algorithm based on SOM Clustering and Adaptive Operator Selection,MaOEASCAOS).本文首先通过自组织映射网络进行种群分类,提取个体数据结构信息,并利用相似性构建邻域交配池;然后根据类内个体支配信息进行自适应算子选择,提高算法搜索和收敛性能;最后,采用环境选择策略对种群进行多样性管理以保证种群在帕累托前沿均匀分布.仿真结果表明,本文提出的基于SOM聚类和自适应算子选择(SOM Clustering and Adaptive Operator Selection,SCAOS)方法在处理高维多目标优化问题时具有较强的竞争力并且性能指标整体优于其他方法.展开更多
文摘为解决一些决策树受到数据噪声等因素的影响,导致它们对随机森林聚类产生有限甚至负面贡献这一问题,提出一种基于聚类集成选择的随机森林聚类方法(random forest clustering method based on cluster ensemble selection,RFCCES)。将每一棵决策树视为一个基聚类器,根据基聚类器集合的稳定和不稳定性设计两种不同的聚类集成选择方法,将评估单个决策树对随机森林的增益问题,转化为基聚类器对最终的聚类集成结果的增益问题。该算法与5种对比方法在10个数据集上进行比较,实验结果验证了RFCCES的独特优势和整体有效性。
基金the 11th Five Years Key Programs for Science & Technology Development of China under Grant No.2006BAI05A01( 国家“十一五”科技支撑计划)the National Natural Science Foundation of China under Grant No.60773169( 国家自然科学基金)the Software Innovation Project of Sichuan Youth under Grant No.2007AA0155( 四川青年软件创新项目) .
基金国家重点基础研究发展规划(973)(the National Grand Fundamental Research 973 Program of China under Grant No.2004CB318108)安徽省自然科学基金(the Natural Science Foundation of Anhui Province of China under Grant No.0504200208)安徽省教育厅重点自然科学研究项目(No.2006KJ015A)。
文摘K-means聚类算法随机确定初始聚类数目,而且原始数据集中含有大量的冗余特征会导致聚类时精度降低,而布谷鸟搜索(CS)算法存在收敛速度慢和局部搜索能力弱等问题,为此提出一种基于自适应布谷鸟优化特征选择的K-means聚类算法(DCFSK)。首先,为提升CS算法的搜索速度和精度,在莱维飞行阶段,设计了自适应步长因子;为调节CS算法全局搜索和局部搜索之间的平衡、加快CS算法的收敛,动态调整发现概率,进而提出改进的动态CS算法(IDCS),在IDCS的基础上构建了结合动态CS的特征选择算法(DCFS)。其次,为提升传统欧氏距离的计算精确度,设计同时考虑样本和特征对距离计算贡献程度的加权欧氏距离;为了确定最佳聚类数目的选取方法,依据改进的加权欧氏距离构造了加权簇内距离和簇间距离。最后,为克服传统K-means聚类目标函数仅考虑簇内的距离而未考虑簇间距离的缺陷,提出基于中位数的轮廓系数的目标函数,进而设计了DCFSK。实验结果表明,在10个基准测试函数上,IDCS的各项指标取得了较优的结果;相较于K-means、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)等算法,在6个合成数据集与6个UCI数据集上,DCFSK的聚类效果最佳。
文摘在高维多目标进化算法中,通常利用重组算子产生优质子代来引导种群搜索,已有研究表明,利用相似个体进行重组可以提高子代个体质量.由于自组织映射(Self-Organizing Mapping,SOM)网络能够通过聚类的方式保持种群个体原有的拓扑逻辑关系并获得个体的相似信息,因此本文提出一种基于SOM聚类和自适应算子选择的高维多目标进化算法(Many-Objective Evolutionary Algorithm based on SOM Clustering and Adaptive Operator Selection,MaOEASCAOS).本文首先通过自组织映射网络进行种群分类,提取个体数据结构信息,并利用相似性构建邻域交配池;然后根据类内个体支配信息进行自适应算子选择,提高算法搜索和收敛性能;最后,采用环境选择策略对种群进行多样性管理以保证种群在帕累托前沿均匀分布.仿真结果表明,本文提出的基于SOM聚类和自适应算子选择(SOM Clustering and Adaptive Operator Selection,SCAOS)方法在处理高维多目标优化问题时具有较强的竞争力并且性能指标整体优于其他方法.