期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于类区分度的高维不平衡特征选择算法 被引量:2
1
作者 杨杰明 高聪 +3 位作者 曲朝阳 刘鹏 陈宇阳 赵才博 《科技通报》 2019年第1期218-223,共6页
传统特征选择算法没有考虑特征之间的关联性,并且基于类别平衡假设,在不平衡问题上偏向多数类而忽略少数类。针对以上不足,本文综合考虑特征相关性与不平衡性,提出一种基于类区分度的高维不平衡特征选择算法CDHI,该算法通过k-means进行... 传统特征选择算法没有考虑特征之间的关联性,并且基于类别平衡假设,在不平衡问题上偏向多数类而忽略少数类。针对以上不足,本文综合考虑特征相关性与不平衡性,提出一种基于类区分度的高维不平衡特征选择算法CDHI,该算法通过k-means进行特征聚类,并计算簇中每个特征的类区分度,利用类区分度对聚类簇中特征进行重要性排序,然后选择各簇中类区分度较高的特征组成特征子集,达到去除高维特征冗余与处理不平衡数据的双重目的。实验结果表明,与传统特征选择方法相比,CDHI算法有效降低了特征空间的维度,提高了少数类的识别率。 展开更多
关键词 特征选择 类区分度 高维不平衡数据 特征冗余
在线阅读 下载PDF
基于混合采样和特征选择的改进随机森林算法研究 被引量:19
2
作者 汪力纯 刘水生 《南京邮电大学学报(自然科学版)》 北大核心 2022年第1期81-89,共9页
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法。与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用。然而随机森林算... 随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法。与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用。然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制。为了更好地处理高维不平衡数据,文中提出了一种基于混合采样和特征选择的改进随机森林算法(Hybrid Samping&Feature Selection Random Forest,HF_RF)。该算法首先从数据层面出发,通过SMOTE算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对SMOTE算法进行改进,提高对负类样本的处理性能;然后从算法层面出发,通过ReliefF算法对平衡后的高维数据赋予不同的权值,剔除不相关和冗余特征,对高维数据进行维度约简;最后采用加权投票原则进一步提高算法的分类性能。实验结果显示,改进后的算法与原算法相比,在处理高维不平衡数据方面的各评价指标更高,证明HF_RF算法对于高维不平衡数据的分类性能高于传统随机森林算法。 展开更多
关键词 随机森林 混合采样 特征选择 高维不平衡数据 HF_RF算法
在线阅读 下载PDF
基于LRSFFS和LightGBM的二手车价格预测研究
3
作者 张蝶依 《湖南邮电职业技术学院学报》 2023年第4期33-38,共6页
数据的高维和分布不平衡是回归问题求解的两大难题。高维数据包含的无关特征以及冗余特征会影响特征子集的质量,数据分布不平衡导致模型在学习过程中更偏向于大样本,丢失小样本的重要信息。针对上述问题,提出结合LRSFFS特征搜索和GMM聚... 数据的高维和分布不平衡是回归问题求解的两大难题。高维数据包含的无关特征以及冗余特征会影响特征子集的质量,数据分布不平衡导致模型在学习过程中更偏向于大样本,丢失小样本的重要信息。针对上述问题,提出结合LRSFFS特征搜索和GMM聚类分析的LightGBM集成方法LightGBMLG。所提出的算法与3种传统回归算法(SVR、XGBoost、CatBoost)在5个标准UCI高维数据集(YearPredictionMSD、PM2.5 Data of Five Chinese Cities、Superconductivty Data、BlogFeedback、Automobile)上进行对比,均取得最优结果。二手车价格预测的平均绝对误差比传统DNN、XGBoost模型降低了34.41%和11.83%,可为二手车定价提供可供参考的数据。 展开更多
关键词 高维不平衡数据 GMM聚类 LightGBM 特征选择 回归问题
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部