期刊文献+
共找到44篇文章
< 1 2 3 >
每页显示 20 50 100
不均衡数据集上文本分类的特征选择研究 被引量:20
1
作者 徐燕 李锦涛 +2 位作者 王斌 孙春明 张森 《计算机研究与发展》 EI CSCD 北大核心 2007年第z2期58-62,共5页
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择... 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进. 展开更多
关键词 不均衡数据集 特征选择 文本分类 信息检索
在线阅读 下载PDF
不均衡数据集学习中基于初分类的过抽样算法 被引量:12
2
作者 韩慧 王路 +1 位作者 温明 王文渊 《计算机应用》 CSCD 北大核心 2006年第8期1894-1897,共4页
为了有效地提高不均衡数据集中少数类的分类性能,提出了基于初分类的过抽样算法。首先,对测试集进行初分类,以尽可能多地保留多数类的有用信息;其次,对于被初分类预测为少数类的样本进行再次分类,以有效地提高少数类的分类性能。使用美... 为了有效地提高不均衡数据集中少数类的分类性能,提出了基于初分类的过抽样算法。首先,对测试集进行初分类,以尽可能多地保留多数类的有用信息;其次,对于被初分类预测为少数类的样本进行再次分类,以有效地提高少数类的分类性能。使用美国加州大学欧文分校的数据集将基于初分类的过抽样算法与合成少数类过抽样算法、欠抽样方法进行了实验比较。结果表明,基于初分类的过抽样算法的少数类与多数类的分类性能都优于其他两种算法。 展开更多
关键词 不均衡数据集 过抽样 欠抽样
在线阅读 下载PDF
不均衡数据集中基于Adaboost的过抽样算法 被引量:13
3
作者 韩慧 王文渊 毛炳寰 《计算机工程》 CAS CSCD 北大核心 2007年第10期207-209,共3页
为了提高不均衡数据集中少数类的分类性能,该文融合了提升和过抽样的优点,提出了基于提升算法Adaboost的过抽样算法MCMO-Boost,并且将其与决策树算法C4.5、提升算法Adaboost和过抽样算法SMOTE进行了实验比较与分析。结果表明,MCMO-Boos... 为了提高不均衡数据集中少数类的分类性能,该文融合了提升和过抽样的优点,提出了基于提升算法Adaboost的过抽样算法MCMO-Boost,并且将其与决策树算法C4.5、提升算法Adaboost和过抽样算法SMOTE进行了实验比较与分析。结果表明,MCMO-Boost算法在少数类和数据集的总体分类性能方面都优于其它算法。 展开更多
关键词 不均衡数据集 过抽样 提升算法
在线阅读 下载PDF
不均衡数据集上文本分类方法研究 被引量:11
4
作者 谢娜娜 房斌 吴磊 《计算机工程与应用》 CSCD 2013年第20期118-121,共4页
文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题。从特征选择优化和分类器性能提升两方面出发,提出了一种组合的不均衡数据集文本分类方法。在特征选择方面,综合考虑特征项与类别的正负相关特性及类别区分强度对传统CH... 文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题。从特征选择优化和分类器性能提升两方面出发,提出了一种组合的不均衡数据集文本分类方法。在特征选择方面,综合考虑特征项与类别的正负相关特性及类别区分强度对传统CHI统计特征选择方法予以改进。在数据层上,采用数据重取样方法对不均衡训练语料的不平衡性过滤减少其对分类性能的影响。实验结果表明该方法对不均衡数据集上文本可达到较好分类效果。 展开更多
关键词 特征选择 CHI统计 文本分类 不均衡数据集 重取样
在线阅读 下载PDF
面向不均衡数据集的ISMOTE算法 被引量:13
5
作者 许丹丹 王勇 蔡立军 《计算机应用》 CSCD 北大核心 2011年第9期2399-2401,共3页
为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能... 为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能比较结果表明,ISMOTE算法具有更高的分类精度,可以有效地改进分类器的性能。 展开更多
关键词 不均衡数据集 分类 虚拟实例 少数类过抽样算法
在线阅读 下载PDF
面向不均衡数据集中少数类细分的过采样算法 被引量:20
6
作者 古平 杨炀 《计算机工程》 CAS CSCD 北大核心 2017年第2期241-247,共7页
在不均衡数据集中,少数类样本的分布相对于决策边界具有差异性,而传统的过抽样算法通常并未对差异性做不同处理。为此,提出一种面向不均衡数据集的过采样算法SD-ISMOTE。该算法根据少数类样本的k近邻分布将其细分为DANGER,AL_SAFE,SAFE ... 在不均衡数据集中,少数类样本的分布相对于决策边界具有差异性,而传统的过抽样算法通常并未对差异性做不同处理。为此,提出一种面向不均衡数据集的过采样算法SD-ISMOTE。该算法根据少数类样本的k近邻分布将其细分为DANGER,AL_SAFE,SAFE 3个集合,DANGER和AL_SAFE中的样本更靠近决策边界。借助ISMOTE思想在n维球体内随机插值,扩大两类样本的过采样范围,同时引入轮盘赌选择算法进行采样选择,避免新生成的样本冗余。实验结果表明,SD-ISMOTE算法在C4.5和朴素贝叶斯分类器下的分类性能相较于Borderline-SMOTE和ISMOTE均有不同程度的提高,可有效解决数据集中样本分布不均衡的问题。 展开更多
关键词 不均衡数据集 决策边界 分类 随机插值 少数类细分
在线阅读 下载PDF
用于不均衡数据集分类的KNN算法 被引量:9
7
作者 孙晓燕 张化祥 计华 《计算机工程与应用》 CSCD 北大核心 2011年第28期143-145,236,共4页
针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,... 针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,则认为是有效样本,并把这类样本加入到下轮产生少数类的过程中。在UCI数据集上进行测试,实验结果表明,该方法与KNN算法中应用随机抽样相比,在提高少数类的分类精度方面取得了较好的效果。 展开更多
关键词 不均衡数据集 K最近邻居(KNN)算法 过抽样 交叉算子
在线阅读 下载PDF
不均衡数据集文本分类中少数类样本生成方法研究 被引量:5
8
作者 杜娟 姜丽丽 陈红丽 《计算机应用研究》 CSCD 北大核心 2009年第10期3731-3734,共4页
针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,... 针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(Knearestneighbor,KNN)及支持向量机(supportvector machine,SVM)分类器。实验结果表明此方法有效改善了少数类分类效果。 展开更多
关键词 不均衡数据集 分类 聚类 遗传算法 样本生成
在线阅读 下载PDF
用于不均衡数据集的挖掘方法 被引量:5
9
作者 赵凤英 王崇骏 陈世福 《计算机科学》 CSCD 北大核心 2007年第9期139-141,共3页
传统的分类算法大多是基于数据集中各类的样本数是基本均衡的假设的,而实际应用场合中面临的往往是不均衡数据。针对不均衡数据集,利用传统的分类方法往往不能获得良好的性能,因而研究用于处理不均衡数据集的分类方法就显得相当重要,本... 传统的分类算法大多是基于数据集中各类的样本数是基本均衡的假设的,而实际应用场合中面临的往往是不均衡数据。针对不均衡数据集,利用传统的分类方法往往不能获得良好的性能,因而研究用于处理不均衡数据集的分类方法就显得相当重要,本文对相关的研究做了综述。 展开更多
关键词 不均衡数据集 过取样 欠取样 代价敏感学习
在线阅读 下载PDF
不均衡数据集下基于SVM的托攻击检测方法 被引量:5
10
作者 吕成戍 王维国 《计算机工程》 CAS CSCD 2013年第5期132-135,共4页
传统支持向量机(SVM)方法在数据不均衡情况下无法有效实现托攻击检测。在研究SVM的基础上,提出一种基于欠采样和代价敏感SVM相结合的托攻击检测方法。利用边界样本修剪技术实现训练样本的均衡,在消除部分多数类样本显著减小数据不均衡... 传统支持向量机(SVM)方法在数据不均衡情况下无法有效实现托攻击检测。在研究SVM的基础上,提出一种基于欠采样和代价敏感SVM相结合的托攻击检测方法。利用边界样本修剪技术实现训练样本的均衡,在消除部分多数类样本显著减小数据不均衡程度的同时,保证信息损失最小。结合受试者工作特征分析技术,利用代价敏感SVM对重构后的样本集进行训练,在限定范围内自动搜索最优参数,进而调节阈值获得系统决策函数。实验结果表明,该方法能提高托攻击的检测精度。 展开更多
关键词 攻击检测 不均衡数据集 代价敏感学习 欠采样 支持向量机 接收机工作特性分析
在线阅读 下载PDF
一种适用于不均衡数据集分类的KNN算法 被引量:6
11
作者 杜娟 刘志刚 衣治安 《科学技术与工程》 2011年第12期2680-2685,共6页
传统的K-最邻近(K Nearest Neighbor,KNN)分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大。针对此问题从数据层的角度改进了传统的KNN算法。先通过K-means聚类算法将少数类样本聚类分组,将每个聚类内的样... 传统的K-最邻近(K Nearest Neighbor,KNN)分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大。针对此问题从数据层的角度改进了传统的KNN算法。先通过K-means聚类算法将少数类样本聚类分组,将每个聚类内的样本作为遗传算法的初始种群;再使用遗传交叉和变异操作获取新样本,并进行有效性验证。最终获取到各类别样本数量基本均衡的训练样本集合。实验结果表明此方法有效改善了KNN算法对少数类分类效果。此法同时适用于其他关注少数类分类精度的不均衡数据集分类问题。 展开更多
关键词 KNN 上采样 不均衡数据集 聚类 遗传交叉 遗传变异
在线阅读 下载PDF
基于SVM求解不均衡数据集分类的主观权重约束方法 被引量:2
12
作者 刁翠霞 陈思凤 刘业政 《管理工程学报》 CSSCI 北大核心 2012年第3期146-150,共5页
支持向量机(SVM)的二类分问题中针对不平衡数据集可以通过减少样本信息的不对称性和改进算法来解决。本文针对中小企业中有财务风险与无财务风险样本的不平衡性问题,使用一种带有主观权重约束条件的支持向量机新模型对样本进行分类。实... 支持向量机(SVM)的二类分问题中针对不平衡数据集可以通过减少样本信息的不对称性和改进算法来解决。本文针对中小企业中有财务风险与无财务风险样本的不平衡性问题,使用一种带有主观权重约束条件的支持向量机新模型对样本进行分类。实验表明新模型确实提高了财务风险企业即少类样本的识别性能,是一种类别不均衡学习(class imbalance learning)的新方法。 展开更多
关键词 主观权重约束 不均衡数据集 客观权重 融合法向量 SVM
在线阅读 下载PDF
面向不均衡数据集的过抽样算法 被引量:11
13
作者 崔鑫 徐华 宿晨 《计算机应用》 CSCD 北大核心 2020年第6期1662-1667,共6页
合成少数类过抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线... 合成少数类过抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线性插值合成新样本,并且对参与合成的样本进行了筛选,降低了噪声样本参与合成的可能。在六个实际数据集上,将CSMOTE算法与四个SMOTE的改进算法以及两种欠抽样算法进行了多次的对比实验,CSMOTE算法在所有数据集上均获得了最高的AUC值。实验结果表明,CSMOTE算法具有更高的分类性能,可以有效解决数据集中样本分布不均衡的问题。 展开更多
关键词 簇心 不均衡数据集 合成少数类过抽样技术 聚类 过采样
在线阅读 下载PDF
基于超球体密度聚类的自适应不均衡数据过采样算法
14
作者 陶新民 李俊轩 +3 位作者 郭心悦 史丽航 徐安南 张艳萍 《电子与信息学报》 北大核心 2025年第7期2347-2360,共14页
不平衡数据分类是机器学习中的常见问题,过采样是解决方案之一。但现有过采样方法在处理复杂不均衡数据集时容易引入噪声样本导致类重叠,且无法有效解决低密度、小析取等子概念引起的类内不平衡问题。为此,该文提出一种基于超球体密度... 不平衡数据分类是机器学习中的常见问题,过采样是解决方案之一。但现有过采样方法在处理复杂不均衡数据集时容易引入噪声样本导致类重叠,且无法有效解决低密度、小析取等子概念引起的类内不平衡问题。为此,该文提出一种基于超球体密度聚类的自适应过采样算法(DCHO),该算法通过计算少数类样本密度动态确定聚类中心,构建超球体并将超球体内少数类样本归入相应簇,再按照不均衡比调整超球体半径。同时,根据超球体内样本局部密度和半径大小自适应分配过采样权重,进而解决类内不平衡问题。为防止类重叠,过采样过程均在每个超球体内部进行。此外,为进一步增强少数类边界以及探索未知区域,该文还构建一种新的边界偏好随机过采样策略。实验结果表明,所提算法在避免类重叠的同时,强化了低密度子概念的表达,有效解决了类间与类内不平衡问题。 展开更多
关键词 不均衡数据集 分类 过采样 类内不平衡 超球体
在线阅读 下载PDF
基于激光解析技术在蛋白质关联图预测问题数据集不均衡的研究
15
作者 刘君 宋志坚 《激光杂志》 北大核心 2015年第6期114-117,共4页
随着融合了激光解析等新技术的蛋白质自动测序技术发展,蛋白质序列越来越容易获得,如何通过蛋白质序列预测其结构成为重要研究问题。蛋白质关联图预测是蛋白质三级结构预测的中间步骤,是典型的数据集极度不均衡的分类问题,非关联类别数... 随着融合了激光解析等新技术的蛋白质自动测序技术发展,蛋白质序列越来越容易获得,如何通过蛋白质序列预测其结构成为重要研究问题。蛋白质关联图预测是蛋白质三级结构预测的中间步骤,是典型的数据集极度不均衡的分类问题,非关联类别数据远远多于关联类别数据。与文本分类等问题不同,蛋白质关联图预测问题的特征维数不高,因而不能从特征选择上进行数据集优化。为了有效减少多数类样本的规模,提出结合聚类的数据下采样预处理方法,使关联和非关联类别的分布趋于平衡。实验表明,支持向量机方法在优化后的蛋白质数据集可以有效实现数据分类。 展开更多
关键词 激光 蛋白质关联图预测 不均衡数据集 下采样 聚类
在线阅读 下载PDF
面向不均衡医学数据集的疾病预测模型研究 被引量:45
16
作者 陈旭 刘鹏鹤 +5 位作者 孙毓忠 沈曦 张磊 王晓青 孙晓平 程伟 《计算机学报》 EI CSCD 北大核心 2019年第3期596-609,共14页
基于临床表现的疾病预测模型是临床决策支持系统(Clinical Decision Support System,CDSS)的一个重要研究内容.现有临床决策支持系统往往将临床病例作为训练数据集,以临床表现的描述文字为特征,采用统计机器学习方法构建疾病预测模型.然... 基于临床表现的疾病预测模型是临床决策支持系统(Clinical Decision Support System,CDSS)的一个重要研究内容.现有临床决策支持系统往往将临床病例作为训练数据集,以临床表现的描述文字为特征,采用统计机器学习方法构建疾病预测模型.然而,在医疗领域往往存在着样本数据集不均衡的问题,导致模型的预测效果降低.欠采样技术是目前解决样本不均衡问题的常用手段.其主要采用一定的方法从多数类样本中抽取部分样本,与少数类样本组成平衡数据集后再构建模型.现有的欠采样方法往往可以显著提高模型对少数类样本的召回率,然而其通常也会造成模型准确率的降低,从而限制了预测模型的整体提升效果.为此,该文提出了一种新的基于迭代提升欠采样的集成分类方法(Under-Sampling with Iteratively Boosting,USIB),该方法迭代地从多数类样本中进行欠抽样,构建多组弱分类器,并采用加权组合方式将这些弱分类器构成一个强分类器,从而提升样本不平衡条件下单种疾病预测效果.另外,医学病例样本数据集通常是多类别、多标签的,为此,该文将多个单种疾病的预测模型进行组合构成一个多标签疾病预测模型,以满足临床意义上的多病种以及并发症的诊断.为了进一步提升多标签预测模型的效果,该文设计了一种基于标签最大互信息生成树的标签选择方法(Labels Selection method based on Maximum Mutual Information Spanning Tree,LS-MMIST),该方法根据原始数据集的分布构建标签之间的最大互信息生成树,在每一次的样本预测阶段,借助树中疾病标签之间的关系确定最终的预测标签集合.实验方面,该文首先选择三种公开的不均衡二分类数据集和我们私有的四种稀有疾病的数据集,对该文提出的迭代提升欠采样方法进行性能评估.其次,分别对比了该文提出的多标签预测模型与现有的多标签预测技术在中医和西医两种多标签数据集上的预测性能.实验结果显示,相对于目前主流的八种欠采样以及两种集成采样技术,该文提出的迭代提升欠采样方法在各个不均衡二分类数据集上的F1值平均提升22.58%;与现有的各种多标签预测技术相比,该文提出的多标签预测方法在西医和中医数据集上正确率分别提升6.30%和12.43%,召回率分别提升4.33%和5.86%,F1值分别提升5.48%和11.16%. 展开更多
关键词 疾病预测 不均衡数据集 欠采样 二分类 多标签分类
在线阅读 下载PDF
基于特征注意匹配CYCLEGAN的高速列车轮对轴承数据均衡化方法 被引量:1
17
作者 刘素艳 汪浩宁 +1 位作者 马增强 苑宗昊 《振动与冲击》 EI CSCD 北大核心 2024年第15期32-43,共12页
高速列车滚动轴承一旦发生故障就会停车检修,导致样本数据极度不平衡。数据集的不平衡性会对故障诊断结果的准确性和稳定性产生重要影响。针对该问题,提出一种基于特征注意匹配(feature attention matching, FAM)和循环生成对抗网络(cyc... 高速列车滚动轴承一旦发生故障就会停车检修,导致样本数据极度不平衡。数据集的不平衡性会对故障诊断结果的准确性和稳定性产生重要影响。针对该问题,提出一种基于特征注意匹配(feature attention matching, FAM)和循环生成对抗网络(cycle-consistent generative adversarial networks, CYCLEGAN)的轴承不平衡数据处理CYCLEGAN-FAM方法,该方法在CYCLEGAN的判别器中加入特征注意匹配模块,对从真实图像和生成图像中提取的特征进行对齐,从而提高生成样本的质量。试验表明,该方法能够生成与真实样本高度相似的生成样本,并随着不平衡数据集被逐渐平衡,故障诊断的准确率在凯斯西储大学4类和10类数据集上分别达到了99.8%和99.2%,在QPZZ-II四类和十类数据集上分别达到了99.4%和99.6%。 展开更多
关键词 生成对抗网络 特征注意力匹配(FAM) 不均衡数据集 故障诊断
在线阅读 下载PDF
面向不均衡数据的多分类集成算法 被引量:7
18
作者 崔鑫 徐华 朱亮 《计算机工程与应用》 CSCD 北大核心 2022年第2期176-183,共8页
为解决不均衡多分类问题,提出了一种基于采样和特征选择的不均衡数据集成分类算法(IDESF)。基分类器的多样性会影响集成算法的分类性能,所以IDESF算法对数据集进行有放回采样+SMOTE的两阶段采样。两阶段采样在保证所得数据集中样本合理... 为解决不均衡多分类问题,提出了一种基于采样和特征选择的不均衡数据集成分类算法(IDESF)。基分类器的多样性会影响集成算法的分类性能,所以IDESF算法对数据集进行有放回采样+SMOTE的两阶段采样。两阶段采样在保证所得数据集中样本合理性的基础上,增加数据集间的差异性以此隐式地提高基分类器的多样性。两阶段采样同样可以平衡数据分布,防止分类器偏向多数类。在两阶段采样的基础上,IDESF算法引入了数据清洗和特征选择方法,试图进一步提高算法的分类性能。与其他不均衡分类算法在5组不均衡数据集上进行了对比实验,结果表明该算法可以获得较高的AUCarea和G-Mean值,具有较为优异的分类效果。 展开更多
关键词 不均衡数据集 过采样 数据清洗 特征选择 成算法 多分类
在线阅读 下载PDF
面向不平衡数据集分类模型的优化研究 被引量:13
19
作者 温雪岩 陈家男 +1 位作者 景维鹏 徐克生 《计算机工程》 CAS CSCD 北大核心 2018年第4期268-273,293,共7页
为提高不平衡数据集的分类效率,建立一种分类模型,从样本采样和分类算法两方面进行优化。对决策边界的少类样本进行循环过采样生成新样本集,并与决策边界外合成的少类样本集合并,提高样本的重要度。针对传统ε-支持向量机(ε-SVM)在对... 为提高不平衡数据集的分类效率,建立一种分类模型,从样本采样和分类算法两方面进行优化。对决策边界的少类样本进行循环过采样生成新样本集,并与决策边界外合成的少类样本集合并,提高样本的重要度。针对传统ε-支持向量机(ε-SVM)在对不平衡数据集分类时超平面偏移的问题,引入正负惩罚系数和混合核函数,并利用客观的熵值法选取惩罚系数,提高分类算法的性能。实验结果表明,与标准的SVM算法相比,该分类模型在不平衡数据集分类上F-measure值平均提高18.1%,具有较好的分类效果。 展开更多
关键词 文本分类 不均衡数据集 数据挖掘 样本重采样 熵值法
在线阅读 下载PDF
不均衡故障诊断数据上的特征选择 被引量:6
20
作者 刘天羽 李国正 尤鸣宇 《小型微型计算机系统》 CSCD 北大核心 2009年第5期924-927,共4页
不均衡数据在实际应用中广泛存在,它们已对机器学习领域构成了一个挑战,如何有效处理不均衡数据也成为目前的一个新的研究热点.在故障诊断数据集中,故障样本数通常比非故障样本数要少很多,由此引发了数据不均衡问题下故障诊断的问题.以... 不均衡数据在实际应用中广泛存在,它们已对机器学习领域构成了一个挑战,如何有效处理不均衡数据也成为目前的一个新的研究热点.在故障诊断数据集中,故障样本数通常比非故障样本数要少很多,由此引发了数据不均衡问题下故障诊断的问题.以往的研究很少关注这种数据不均衡问题对故障诊断的影响.此外,在故障数据集中有一些冗余甚至是不相关的特征,这些特征降低了学习器的泛化能力.为解决这类问题,提出了一种基于嵌入式特征选择的EasyEnsemble算法来解决故障诊断中的数据不均衡问题.在UCI数据集和柴油发动机数据集上的实验结果表明新算法提高了分类器在不均衡数据集上的分类性能和预报能力. 展开更多
关键词 特征选择 不均衡数据集 成学习 故障诊断 柴油发动机
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部