期刊文献+
共找到185篇文章
< 1 2 10 >
每页显示 20 50 100
基于聚类集成选择的随机森林聚类方法
1
作者 李金玉 刘静玮 +1 位作者 杜明晶 吴福玉 《计算机工程与设计》 北大核心 2025年第4期990-996,共7页
为解决一些决策树受到数据噪声等因素的影响,导致它们对随机森林聚类产生有限甚至负面贡献这一问题,提出一种基于聚类集成选择的随机森林聚类方法(random forest clustering method based on cluster ensemble selection,RFCCES)。将每... 为解决一些决策树受到数据噪声等因素的影响,导致它们对随机森林聚类产生有限甚至负面贡献这一问题,提出一种基于聚类集成选择的随机森林聚类方法(random forest clustering method based on cluster ensemble selection,RFCCES)。将每一棵决策树视为一个基聚类器,根据基聚类器集合的稳定和不稳定性设计两种不同的聚类集成选择方法,将评估单个决策树对随机森林的增益问题,转化为基聚类器对最终的聚类集成结果的增益问题。该算法与5种对比方法在10个数据集上进行比较,实验结果验证了RFCCES的独特优势和整体有效性。 展开更多
关键词 随机森林 决策树 稳定性 集成 集成选择
在线阅读 下载PDF
基于随机取样的选择性K-means聚类融合算法 被引量:4
2
作者 王丽娟 郝志峰 +1 位作者 蔡瑞初 温雯 《计算机应用》 CSCD 北大核心 2013年第7期1969-1972,共4页
由于缺少数据分布、参数和数据类别标记的先验信息,部分基聚类的正确性无法保证,进而影响聚类融合的性能;而且不同基聚类决策对于聚类融合的贡献程度不同,同等对待基聚类决策,将影响聚类融合结果的提升。为解决此问题,提出了基于随机取... 由于缺少数据分布、参数和数据类别标记的先验信息,部分基聚类的正确性无法保证,进而影响聚类融合的性能;而且不同基聚类决策对于聚类融合的贡献程度不同,同等对待基聚类决策,将影响聚类融合结果的提升。为解决此问题,提出了基于随机取样的选择性K-means聚类融合算法(RS-KMCE)。该算法中的随机取样策略可以避免基聚类决策选取陷入局部极小,而且依据多样性和正确性定义的综合评价值,有利于算法快速收敛到较优的基聚类子集,提升融合性能。通过2个仿真数据库和4个UCI数据库的实验结果显示:RS-KMCE的聚类性能优于K-means算法、K-means融合算法(KMCE)以及基于Bagging的选择性K-means聚类融合(BA-KMCE)。 展开更多
关键词 融合 选择融合 随机取样 决策评价 K-MEANS
在线阅读 下载PDF
基于随机抽样和聚类特征的聚类算法 被引量:6
3
作者 周兵 沈钧毅 彭勤科 《西安交通大学学报》 EI CAS CSCD 北大核心 2003年第12期1234-1237,共4页
在分析BIRCH算法不足的基础上,提出了一种基于随机抽样和聚类特征的聚类算法(CLAP).该算法采用随机抽样技术,从数据库中抽取一部分数据进行聚类的预处理过程,这样大大降低了运行时间.CLAP通过设立索引树的叶节点的直径和聚类直径,提高... 在分析BIRCH算法不足的基础上,提出了一种基于随机抽样和聚类特征的聚类算法(CLAP).该算法采用随机抽样技术,从数据库中抽取一部分数据进行聚类的预处理过程,这样大大降低了运行时间.CLAP通过设立索引树的叶节点的直径和聚类直径,提高了聚类的精度,并采用全局搜索和局部搜索相结合的方式,消除了输入顺序对聚类质量的影响.测试结果表明,CLAP算法不仅提高了聚类速度,而且改善了聚类质量. 展开更多
关键词 BIRCH算法 随机抽样
在线阅读 下载PDF
基于遗传算法及聚类的基因表达数据特征选择 被引量:4
4
作者 任江涛 黄焕宇 +1 位作者 孙婧昊 印鉴 《计算机科学》 CSCD 北大核心 2006年第9期155-156,224,共3页
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类及聚类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病密切相关的重要基因。针对此问题,本文提出... 特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类及聚类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病密切相关的重要基因。针对此问题,本文提出了一种新的面向基因表达数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用聚类算法及聚类错误率作为学习算法及评价指标。实验结果表明,该算法可有效地找出具有较好可分离性的特征子集,从而实现降维并提高聚类及分类精度。 展开更多
关键词 特征选择 遗传算法 基因表达数据
在线阅读 下载PDF
基于聚类排序选择方法的进化算法 被引量:4
5
作者 徐开阔 唐常杰 +2 位作者 刘胤田 张天庆 段磊 《计算机科学与探索》 CSCD 2008年第3期321-329,共9页
为提高进化算法的效率,提出了聚类排序选择方法。主要工作有:(1)提出了新的种群内个体相似度度量,并使用种群所包含不同簇的数量来描述和度量种群的多样性;(2)为解决早熟问题提出了新的基于种群聚类和排序选择的聚类-排序选择方法;(3)... 为提高进化算法的效率,提出了聚类排序选择方法。主要工作有:(1)提出了新的种群内个体相似度度量,并使用种群所包含不同簇的数量来描述和度量种群的多样性;(2)为解决早熟问题提出了新的基于种群聚类和排序选择的聚类-排序选择方法;(3)导出了选择压力-种群多样性(SP-PD)方程,该方程能描述进化过程中选择压力随种群多样性变化的规律。在基于全面学习粒子群算法环境中作了详实的实验,对16个多峰函数进行了优化。实验结果表明,在10维和30维条件下,在15个函数优化中,新方法明显优于指数排序选择方法,最高能使精度提高4个数量级。 展开更多
关键词 排序选择 进化计算 指数排序选择 早熟问题 基于全面学习的粒子群算法
在线阅读 下载PDF
基于类信息的文本聚类中特征选择算法 被引量:7
6
作者 严莉莉 张燕平 《计算机工程与应用》 CSCD 北大核心 2007年第12期144-146,217,共4页
文本聚类属于无监督的学习方法,由于缺乏类信息还很难直接应用有监督的特征选择方法,因此提出了一种基于类信息的特征选择算法,此算法在密度聚类算法的聚类结果上使用信息增益特征选择法重新选择最有分类能力的特征,实验验证了算法的可... 文本聚类属于无监督的学习方法,由于缺乏类信息还很难直接应用有监督的特征选择方法,因此提出了一种基于类信息的特征选择算法,此算法在密度聚类算法的聚类结果上使用信息增益特征选择法重新选择最有分类能力的特征,实验验证了算法的可行性和有效性。 展开更多
关键词 文本 特征选择 密度算法
在线阅读 下载PDF
基于网格的聚类算法的虚拟物流企业伙伴选择方法研究 被引量:4
7
作者 沈立新 陈燕 +2 位作者 崔春雷 王军 李玖晖 《计算机科学》 CSCD 北大核心 2005年第8期114-117,共4页
虚拟物流企业已成为 21世纪信息社会生产、物流的主流组织形式。准确地选择和确定合作伙伴是建立虚拟物流企业的关键。本文提出了应用基于网格的聚类算法来选择虚拟物流企业合作伙伴。该算法能对虚拟物流企业信息平台提供的庞大的高维... 虚拟物流企业已成为 21世纪信息社会生产、物流的主流组织形式。准确地选择和确定合作伙伴是建立虚拟物流企业的关键。本文提出了应用基于网格的聚类算法来选择虚拟物流企业合作伙伴。该算法能对虚拟物流企业信息平台提供的庞大的高维的成员企业信息数据库进行快速有效的数据挖掘,从而在全球范围内寻找潜在的合作伙伴,以供虚拟物流企业核心企业作为下一步精选的根据。实例仿真说明了该算法的有效性。 展开更多
关键词 虚拟物流企业 伙伴选择 网格 算法 物流企业 虚拟 信息数据库 合作伙伴 企业信息平台 社会生产
在线阅读 下载PDF
基于网格和密度的随机样例的聚类算法 被引量:2
8
作者 孙志伟 赵政 王红梅 《天津大学学报》 EI CAS CSCD 北大核心 2006年第5期621-626,共6页
为提高密度聚类算法效率并处理非空间属性约束,提出了基于网格和密度的聚类算法(GDRS).它使用网格区域表示点的邻域,非空间属性被分为数值和字符类型.首先通过网格方法找到能准确反映数据空间几何特征的参考点;然后随机选择没有分类... 为提高密度聚类算法效率并处理非空间属性约束,提出了基于网格和密度的聚类算法(GDRS).它使用网格区域表示点的邻域,非空间属性被分为数值和字符类型.首先通过网格方法找到能准确反映数据空间几何特征的参考点;然后随机选择没有分类的参考点,并测试其邻域的稀疏状况、与其他聚类的关系以及非空间属性的约束来决定加入、合并聚类或形成新的聚类;最后把参考点映射回数据.把此算法和DBSCAN及DBRS算法进行了理论比较,并使用合成和真实数据集对GDRS和DBSCAN进行了对比.实验表明,GDRS具有密度算法的优点,即可发现各种形状的聚类并能屏蔽噪声点,且执行效率明显优于密度算法. 展开更多
关键词 数据挖掘 算法 密度 网格 参考点 随机样例 约束
在线阅读 下载PDF
基于相异性选择的密度聚类算法研究 被引量:2
9
作者 胡文瑜 孙志挥 周晓云 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1601-1604,共4页
在最优K相异性算法(OptiSim)的基础上,提出一种扩展的最优K相异性算法(EOptiSim),由于EOptiSim在处理组合数据库和分布式数据库方面能弥补基本的OptiSim方法的不足,所以通过在DBSCAN算法之前应用OptiSim或EOptiSim多样化代表性子集选择... 在最优K相异性算法(OptiSim)的基础上,提出一种扩展的最优K相异性算法(EOptiSim),由于EOptiSim在处理组合数据库和分布式数据库方面能弥补基本的OptiSim方法的不足,所以通过在DBSCAN算法之前应用OptiSim或EOptiSim多样化代表性子集选择技术,在显著降低I/O耗费和内存需求的同时,不仅能够有效地聚类单一的大规模空间数据库,而且还能聚类大规模组合数据库或分布式数据库.实验结果表明本文的算法是可行、有效的. 展开更多
关键词 分析 多样化代表性子集选择 相异性选择算法 密度算法
在线阅读 下载PDF
采用多样性选择的量子粒子群双向聚类算法 被引量:3
10
作者 陈佳瑜 李梁 罗云 《计算机工程与应用》 CSCD 北大核心 2018年第9期42-46,共5页
双向聚类已成为分析基因表达数据的一种重要工具,可以同时从基因和条件两个方向寻找具有相同表达波动的簇。但双向聚类是一种多目标优化的局部搜索算法,处理繁杂的基因数据时容易陷入局部最优。为提高算法的全局搜索能力,提出了一种多... 双向聚类已成为分析基因表达数据的一种重要工具,可以同时从基因和条件两个方向寻找具有相同表达波动的簇。但双向聚类是一种多目标优化的局部搜索算法,处理繁杂的基因数据时容易陷入局部最优。为提高算法的全局搜索能力,提出了一种多样性选择的量子粒子群双向聚类算法(Diversify-Optional QPSO,DOQPSO)。算法首先采用DOQPSO处理基因数据,然后用改进的FLOC算法进行贪心迭代寻找双向聚类,以求得更为理想的结果。算法通过实验仿真,并与FLOC算法和QPSO算法进行比较,结果证明DOQPSO双向聚类算法具有更好的全局寻优能力,且聚类效果更佳。 展开更多
关键词 双向 基因表达数据 量子粒子群算法 多样性选择 FLOC算法
在线阅读 下载PDF
基于聚类和随机森林的协同过滤推荐算法 被引量:10
11
作者 杨兴雨 李华平 张宇波 《计算机工程与应用》 CSCD 北大核心 2018年第16期152-157,共6页
针对基于邻近关系的协同过滤算法在线推荐效率低的问题,提出了一种可离线训练评分预测模型的算法。通过聚类算法降低用户-项目评分矩阵中用户向量和项目向量的维数,并对数据进行转换使其适用于监督模型;利用转换后的数据离线训练随机森... 针对基于邻近关系的协同过滤算法在线推荐效率低的问题,提出了一种可离线训练评分预测模型的算法。通过聚类算法降低用户-项目评分矩阵中用户向量和项目向量的维数,并对数据进行转换使其适用于监督模型;利用转换后的数据离线训练随机森林模型,在线推荐时只需根据随机森林模型的规则进行评分预测,无需查找最邻近用户或项目。实验结果表明,该算法在不降低评分预测精度的情况下,在线推荐效率远高于基于邻近关系的协同过滤算法。 展开更多
关键词 协同过滤 推荐算法 随机森林
在线阅读 下载PDF
基于优势集聚类和马尔科夫随机场的高光谱图像分类算法 被引量:5
12
作者 曲海成 郭月 王媛媛 《国土资源遥感》 CSCD 北大核心 2019年第2期24-31,共8页
为充分利用高光谱图像自身丰富的光谱信息和空间信息,提出一种基于优势集聚类和马尔科夫随机场相结合的高光谱图像分类算法。首先,分析高光谱图像局部空谱一致性,完成对波段信息量和差异程度的度量,构造无向加权图,利用优势集聚类方法... 为充分利用高光谱图像自身丰富的光谱信息和空间信息,提出一种基于优势集聚类和马尔科夫随机场相结合的高光谱图像分类算法。首先,分析高光谱图像局部空谱一致性,完成对波段信息量和差异程度的度量,构造无向加权图,利用优势集聚类方法选择出保留良好结构信息的最优波段子集;其次,通过马尔科夫随机场对波段选择后的相邻像元建立局部空谱一致性,有效利用图像空间上下文信息;最后,根据贝叶斯定理,将高光谱图像分类问题转化为最大后验概率的求解问题,从而获得分类结果。2个经典数据集(Indian Pines和Pavia University)的实验表明,相比其他同类算法,该算法能达到更高的总体分类精度和Kappa系数。 展开更多
关键词 优势集 波段选择 马尔科夫随机 高光谱图像
在线阅读 下载PDF
基于自适应布谷鸟优化特征选择的K-means聚类 被引量:8
13
作者 孙林 刘梦含 《计算机应用》 CSCD 北大核心 2024年第3期831-841,共11页
K-means聚类算法随机确定初始聚类数目,而且原始数据集中含有大量的冗余特征会导致聚类时精度降低,而布谷鸟搜索(CS)算法存在收敛速度慢和局部搜索能力弱等问题,为此提出一种基于自适应布谷鸟优化特征选择的K-means聚类算法(DCFSK)。首... K-means聚类算法随机确定初始聚类数目,而且原始数据集中含有大量的冗余特征会导致聚类时精度降低,而布谷鸟搜索(CS)算法存在收敛速度慢和局部搜索能力弱等问题,为此提出一种基于自适应布谷鸟优化特征选择的K-means聚类算法(DCFSK)。首先,为提升CS算法的搜索速度和精度,在莱维飞行阶段,设计了自适应步长因子;为调节CS算法全局搜索和局部搜索之间的平衡、加快CS算法的收敛,动态调整发现概率,进而提出改进的动态CS算法(IDCS),在IDCS的基础上构建了结合动态CS的特征选择算法(DCFS)。其次,为提升传统欧氏距离的计算精确度,设计同时考虑样本和特征对距离计算贡献程度的加权欧氏距离;为了确定最佳聚类数目的选取方法,依据改进的加权欧氏距离构造了加权簇内距离和簇间距离。最后,为克服传统K-means聚类目标函数仅考虑簇内的距离而未考虑簇间距离的缺陷,提出基于中位数的轮廓系数的目标函数,进而设计了DCFSK。实验结果表明,在10个基准测试函数上,IDCS的各项指标取得了较优的结果;相较于K-means、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)等算法,在6个合成数据集与6个UCI数据集上,DCFSK的聚类效果最佳。 展开更多
关键词 布谷鸟搜索算法 K-MEANS 欧氏距离 特征选择 轮廓系数
在线阅读 下载PDF
基于随机跳跃蝠鲼算法优化的电影信息数据聚类
14
作者 黄鹤 李潇磊 +2 位作者 王珺 王会峰 茹锋 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第5期856-867,共12页
针对传统K均值聚类(K-Means Clustering,KMC)算法在对电影信息数据聚类的过程中,初始聚类中心选取随机性较大、聚类结果不稳定且算法容易陷入局部最优、影响迭代精度等不足,提出一种基于随机跳跃式翻滚觅食蝠鲼优化的K均值联合迭代聚类... 针对传统K均值聚类(K-Means Clustering,KMC)算法在对电影信息数据聚类的过程中,初始聚类中心选取随机性较大、聚类结果不稳定且算法容易陷入局部最优、影响迭代精度等不足,提出一种基于随机跳跃式翻滚觅食蝠鲼优化的K均值联合迭代聚类算法(MRRJRFO-KMC),实现对电影信息数据的聚类.首先,提出一种均值最大最小距离积法来初始化聚类中心,改善聚类中心选取的随机性,避免随机初始化对聚类结果造成的不稳定性.其次,在迭代的过程中加入蝠鲼觅食优化算法,并对蝠鲼觅食优化算法中螺旋觅食和翻滚觅食进行改进,提出一种随机跳跃式翻滚觅食蝠鲼优化的策略,解决了蝠鲼觅食优化算法易陷入局部最优的问题.将随机跳跃式翻滚觅食蝠鲼优化算法加入KMC算法,对KMC算法迭代过程中的聚类中心进行优化,提高了聚类精度.在Iris,Aggregation,Ecoli和Seeds国际标准数据集上对MRRJRFO-KMC算法、MRFO-KMC算法、KMC算法、K-Means++算法、模糊C均值(Fuzzy C-Means,FCM)聚类算法进行比较测试,实验结果表明,MRRJRFO-KMC算法和其他算法相比,准确性和收敛速度都有所提升.在电影信息数据处理过程中,该算法能够根据所给的信息进行有效的聚类,应用价值明显. 展开更多
关键词 蝠鲼觅食优化算法 K均值 均值最大最小距离积法 随机跳跃式翻滚 电影信息数据
在线阅读 下载PDF
基于聚类的小生境克隆选择算法
15
作者 郑士芹 邓凡星 《计算机工程与应用》 CSCD 北大核心 2009年第33期25-27,34,共4页
基于聚类的小生境克隆选择算法是针对小生境克隆选择算法计算复杂、参数设置困难等缺点而提出的。新算法删除了计算复杂度较大的抑制算子,引入聚类算子,并对算法的部分流程进行了调整。新算法不仅计算复杂度降低,而且无需预知峰的个数... 基于聚类的小生境克隆选择算法是针对小生境克隆选择算法计算复杂、参数设置困难等缺点而提出的。新算法删除了计算复杂度较大的抑制算子,引入聚类算子,并对算法的部分流程进行了调整。新算法不仅计算复杂度降低,而且无需预知峰的个数等先验知识,仅根据样本数据即可找到全部峰值点。仿真实验验证了C-NCSA的完全收敛性;并且通过与小生境克隆选择算法的对比实验证明:在相同的实验条件下,C-NCSA的执行时间比NCSA明显降低。 展开更多
关键词 人工免疫系统 免疫算法 基于的小生镜克隆选择算法
在线阅读 下载PDF
基于随机数三角阵映射的高维大数据二分聚类初始中心高效鲁棒生成算法 被引量:7
16
作者 李旻 何婷婷 《电子与信息学报》 EI CSCD 北大核心 2021年第4期948-955,共8页
Bisecting K-means算法通过使用一组初始中心对分割簇,得到多个二分聚类结果,然后从中选优以减轻局部最优收敛问题对算法性能的不良影响。然而,现有的随机采样初始中心对生成方法存在效率低、稳定性差、缺失值等不同问题,难以胜任大数... Bisecting K-means算法通过使用一组初始中心对分割簇,得到多个二分聚类结果,然后从中选优以减轻局部最优收敛问题对算法性能的不良影响。然而,现有的随机采样初始中心对生成方法存在效率低、稳定性差、缺失值等不同问题,难以胜任大数据聚类场景。针对这些问题,该文首先创建出了初始中心对组合三角阵和初始中心对编号三角阵,然后通过建立两矩阵中元素及元素位置间的若干映射,从而实现了一种从随机整数集合中生成二分聚类初始中心对的线性复杂度算法。理论分析与实验结果均表明,该方法的时间效率及效率稳定性均明显优于常用的随机采样方法,特别适用于高维大数据聚类场景。 展开更多
关键词 Bisecting K-means 初始中心生成 三角矩阵映射 随机整数 高维大数据 线性算法
在线阅读 下载PDF
基于遗传算法的文本聚类特征选择 被引量:3
17
作者 张锋 樊孝忠 许云 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第z1期133-136,共4页
传统的文本聚类特征选择方法不能发现最优特征集,而遗传算法能获得全局最优解且具有高的寻优效率,因此提出利用遗传算法进行文本聚类的特征选择.把一种特征组合看作一个染色体,对其进行二进制编码,引入文本集密度作为适应度函数进行特... 传统的文本聚类特征选择方法不能发现最优特征集,而遗传算法能获得全局最优解且具有高的寻优效率,因此提出利用遗传算法进行文本聚类的特征选择.把一种特征组合看作一个染色体,对其进行二进制编码,引入文本集密度作为适应度函数进行特征个体适应度的评价.通过选择、交叉和变异的遗传操作,能较为快速地求出最优特征集.对公开的文本分类语料所进行的实验表明,基于遗传算法的特征选择使文本聚类结果的精度较之特征选择前提高了5.9%,而聚类时间减少了15s. 展开更多
关键词 遗传算法 文本 特征选择 中文信息处理
在线阅读 下载PDF
基于SOM聚类和自适应算子选择的高维多目标进化算法 被引量:3
18
作者 钟沛龙 黎明 +1 位作者 何超 陈昊 《电子学报》 EI CAS CSCD 北大核心 2022年第8期1959-1974,共16页
在高维多目标进化算法中,通常利用重组算子产生优质子代来引导种群搜索,已有研究表明,利用相似个体进行重组可以提高子代个体质量.由于自组织映射(Self-Organizing Mapping,SOM)网络能够通过聚类的方式保持种群个体原有的拓扑逻辑关系... 在高维多目标进化算法中,通常利用重组算子产生优质子代来引导种群搜索,已有研究表明,利用相似个体进行重组可以提高子代个体质量.由于自组织映射(Self-Organizing Mapping,SOM)网络能够通过聚类的方式保持种群个体原有的拓扑逻辑关系并获得个体的相似信息,因此本文提出一种基于SOM聚类和自适应算子选择的高维多目标进化算法(Many-Objective Evolutionary Algorithm based on SOM Clustering and Adaptive Operator Selection,MaOEASCAOS).本文首先通过自组织映射网络进行种群分类,提取个体数据结构信息,并利用相似性构建邻域交配池;然后根据类内个体支配信息进行自适应算子选择,提高算法搜索和收敛性能;最后,采用环境选择策略对种群进行多样性管理以保证种群在帕累托前沿均匀分布.仿真结果表明,本文提出的基于SOM聚类和自适应算子选择(SOM Clustering and Adaptive Operator Selection,SCAOS)方法在处理高维多目标优化问题时具有较强的竞争力并且性能指标整体优于其他方法. 展开更多
关键词 高维多目标优化 自组织映射网络 自适应选择 进化算法
在线阅读 下载PDF
融合分类信息的随机森林特征选择算法及应用 被引量:21
19
作者 武炜杰 张景祥 《计算机工程与应用》 CSCD 北大核心 2021年第17期147-156,共10页
针对传统随机森林随特征数增加计算消耗高的问题,提出了一种随机森林多特征置换算法。该算法对数据特征进行聚类,保持其他特征簇不变,逐一对同簇特征同时随机置换,得到全部特征簇的重要性得分及簇间排序。簇内特征按与分类信息的相关程... 针对传统随机森林随特征数增加计算消耗高的问题,提出了一种随机森林多特征置换算法。该算法对数据特征进行聚类,保持其他特征簇不变,逐一对同簇特征同时随机置换,得到全部特征簇的重要性得分及簇间排序。簇内特征按与分类信息的相关程度排序,引入相关性阈值选出重要特征,对剩余特征按先簇间、再簇内的规则进行排序。为了进一步比较该方法的有效性,基于K均值聚类、层次聚类、模糊C均值聚类算法,设计了三种随机森林多特征置换的特征选择算法。实验结果表明,与传统随机森林方法相比,新算法可选择较少特征时仍取得较高分类精度,且时间效率更高。 展开更多
关键词 特征选择 随机森林 多特征置换
在线阅读 下载PDF
基于二进制蜉蝣优化的特征选择及文本聚类算法 被引量:3
20
作者 高新成 周中雨 +2 位作者 王莉利 邵国铭 张强 《吉林大学学报(理学版)》 CAS 北大核心 2023年第3期631-640,共10页
针对文本冗余特征导致聚类精度较低的问题,提出一种基于二进制蜉蝣优化的特征选择及文本聚类算法.首先,对传统蜉蝣算法的位置更新、交配与变异策略进行改进;然后,将其与特征选择模型相结合,以逆文档频率为目标函数对文本特征进行选择;最... 针对文本冗余特征导致聚类精度较低的问题,提出一种基于二进制蜉蝣优化的特征选择及文本聚类算法.首先,对传统蜉蝣算法的位置更新、交配与变异策略进行改进;然后,将其与特征选择模型相结合,以逆文档频率为目标函数对文本特征进行选择;最后,在新特征子集的基础上,利用K-means++算法对文本进行聚类,得到最优文本聚类结果.在多个数据集上进行实验的结果表明,该算法能有效缩短特征维数,提高文本聚类效率. 展开更多
关键词 二进制蜉蝣算法 文本 收敛速度 特征选择
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部