期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
面向高维小样本数据的层次子空间ReliefF特征选择算法 被引量:2
1
作者 程凤伟 王文剑 张珍珍 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期928-936,共9页
高维小样本数据的特征维数远远高于样本数,因为其通常包含大量的冗余特征,ReliefF算法在处理这类数据时存在以下挑战:传统ReliefF算法无法剔除冗余特征,而现有的改进ReliefF算法大多通过启发式地计算特征与特征之间的互信息来剔除冗余特... 高维小样本数据的特征维数远远高于样本数,因为其通常包含大量的冗余特征,ReliefF算法在处理这类数据时存在以下挑战:传统ReliefF算法无法剔除冗余特征,而现有的改进ReliefF算法大多通过启发式地计算特征与特征之间的互信息来剔除冗余特征,不适用于高维数据;通过截取与标记相关性最大的若干特征来进行分类,可能不是最优选择,因其没有考虑不同特征组合对分类性能的影响.为了解决以上问题,提出一种基于层次子空间的ReliefF特征选择算法,将原始特征集划分为具有层次结构的子空间,并利用邻域粗糙集理论来计算低层子空间的局部依赖度,能在高维小样本数据上高效率地批量剔除冗余特征.此外,为了考量不同特征组合对结果的影响,引入“局部领导力”的概念,保留部分子空间中“带队”能力较强的特征,从局部和全局的角度共同给予特征更加客观的评价.在六个微阵列基因数据集上的实验表明,与现有方法相比,提出的方法更高效,而且能保持良好的分类性能. 展开更多
关键词 高维小样本数据 特征选择 RELIEFF 层次子空间 邻域粗糙集
在线阅读 下载PDF
基于混合遗传算法与互信息分析的高维小样本特征选择 被引量:6
2
作者 姚树春 刘正 张强 《计算机应用与软件》 北大核心 2020年第1期247-255,共9页
针对高维小样本数据特征选择冗余度高和过拟合的问题,提出一种基于混合遗传算法与互信息分析的高维小样本特征选择算法。对互信息理论与特征选择问题进行深入分析,利用互信息消除特征冗余度能力强的优点,推理出基于互信息的目标函数和... 针对高维小样本数据特征选择冗余度高和过拟合的问题,提出一种基于混合遗传算法与互信息分析的高维小样本特征选择算法。对互信息理论与特征选择问题进行深入分析,利用互信息消除特征冗余度能力强的优点,推理出基于互信息的目标函数和优化的边界条件;设计混合的遗传算法来充分利用高维小样本数据集不同角度的属性数据,混合遗传算法设立主种群和次种群,在每次迭代中利用次种群的结果引导主种群的演化,从而缓解小样本数据带来的过拟合问题。基于医学数据集的对比实验结果表明,该算法有效地增强了遗传算法的稳定性和鲁棒性,并且实现了较好的特征选择效果。 展开更多
关键词 高维小样本数据 特征选择 互信息 遗传算法 过拟合问题 微阵列数据
在线阅读 下载PDF
一种基于最优集成随机森林的小样本数据特征提取方法 被引量:12
3
作者 张维 张浩晨 《西北工业大学学报》 EI CAS CSCD 北大核心 2022年第6期1261-1268,共8页
高维小样本数据作为数据挖掘的难点,用传统的随机森林算法进行特征选择时极易出现分类结果过拟合而导致的特征重要度排序稳定性差、精度低等问题。针对随机森林在小样本数据降维过程中出现的难点,提出了一种基于小样本数据特征提取算法O... 高维小样本数据作为数据挖掘的难点,用传统的随机森林算法进行特征选择时极易出现分类结果过拟合而导致的特征重要度排序稳定性差、精度低等问题。针对随机森林在小样本数据降维过程中出现的难点,提出了一种基于小样本数据特征提取算法OTE-GWRFFS。基于生成对抗网络GAN进行样本扩充,避免传统随机森林在小样本分类过程中的过拟合现象;在数据扩充的基础上采用基于权重的最优树集合算法,减小生成数据分布误差对特征提取精度的影响,提升决策树集合的整体稳定性;采用单棵决策树的权重与特征重要性度量值加权平均得到特征重要性排序,从而解决了小样本数据特征选择过程中精度低稳定性差的问题。通过UCI数据集将所提算法与传统随机森林以及基于权重的随机森林算法进行实验对比,OTE-GWRFFS算法在处理高维小样本数据时具有更高的稳定性和精度。 展开更多
关键词 高维小样本数据 最优树集合 随机森林 特征提取 数据扩充
在线阅读 下载PDF
p范数正则化支持向量机分类算法 被引量:19
4
作者 刘建伟 李双成 罗雄麟 《自动化学报》 EI CSCD 北大核心 2012年第1期76-87,共12页
L2范数罚支持向量机(Support vector machine,SVM)是目前使用最广泛的分类器算法之一,同时实现特征选择和分类器构造的L1范数和L0范数罚SVM算法也已经提出.但是,这两个方法中,正则化阶次都是事先给定,预设p=2或p=1.而我们的实验研究显示... L2范数罚支持向量机(Support vector machine,SVM)是目前使用最广泛的分类器算法之一,同时实现特征选择和分类器构造的L1范数和L0范数罚SVM算法也已经提出.但是,这两个方法中,正则化阶次都是事先给定,预设p=2或p=1.而我们的实验研究显示,对于不同的数据,使用不同的正则化阶次,可以改进分类算法的预测准确率.本文提出p范数正则化SVM分类器算法设计新模式,正则化范数的阶次p可取范围为0<p≤2.使用网格法选择模型参数值,使用迭代再权方法求解分类器目标函数,找出最小分类预测误差的模型参数值.在实际数据集上的实验结果验证了提出算法能够同时实现分类预测和特征选择,性能优于L2范数罚SVM,L1范数罚SVM和L0范数罚SVM. 展开更多
关键词 迭代再权方法 p范数(0 支持向量机 特征选择 稀疏化模型 高维小样本数据
在线阅读 下载PDF
一种基于MA-LSSVM的封装式特征选择算法 被引量:7
5
作者 林棋 张宏 李千目 《南京理工大学学报》 EI CAS CSCD 北大核心 2016年第1期10-16,共7页
为了解决高维小样本的特征选择问题,该文结合文化基因算法(Memetic algorithm,MA)与最小二乘支持向量机(Memetic algorithm and least squares support vector machine,MALSSVM),设计了一种封装式(Wrapper)特征选择算法。该方法将全局... 为了解决高维小样本的特征选择问题,该文结合文化基因算法(Memetic algorithm,MA)与最小二乘支持向量机(Memetic algorithm and least squares support vector machine,MALSSVM),设计了一种封装式(Wrapper)特征选择算法。该方法将全局搜索与局部搜索相结合作为求解策略,利用了最小二乘支持向量机易于求解的特点,构造分类器,以分类的准确率作为文化基因算法寻优过程中适应度函数的主要成分。实验表明,MA-LSSVM可以较高效稳定地获取对分类贡献较大的特征,降低数据维度,提高了分类效率。 展开更多
关键词 特征选择 文化基因算法 最小二乘支持向量机 高维小样本数据 机器学习 全局搜索 局部搜索
在线阅读 下载PDF
基于文化基因算法和犹豫模糊集的聚类算法及其分布并行实现 被引量:2
6
作者 王超英 《计算机应用与软件》 北大核心 2021年第4期295-304,共10页
为了提高海量高维小样本数据的聚类准确率和效率,提出一种基于递归文化基因和云计算分布式计算的高维大数据聚类系统。基于Spark分布式计算平台设计迭代的聚类系统,分为基于递归文化基因的特征归简处理和基于密度的聚类处理。前者将基... 为了提高海量高维小样本数据的聚类准确率和效率,提出一种基于递归文化基因和云计算分布式计算的高维大数据聚类系统。基于Spark分布式计算平台设计迭代的聚类系统,分为基于递归文化基因的特征归简处理和基于密度的聚类处理。前者将基因微阵列的聚类准确率结果作为主目标,特征数量作为次目标,递归地化简特征空间;后者基于犹豫模糊集理论设计基于密度的聚类算法,采用加权的犹豫模糊集相关系数度量数据之间的距离。基于人工合成数据集和临床实验数据集均进行仿真实验,结果表明该算法在聚类准确率、扩展性和时间效率上均实现了较好的效果。 展开更多
关键词 数据分析 高维小样本数据 文化基因算法 分布式计算 犹豫模糊集
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部