期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
类别不均衡学习中的抽样策略研究 被引量:8
1
作者 刘树栋 张可 《计算机工程与应用》 CSCD 北大核心 2019年第21期1-17,共17页
类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方... 类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方法:数据级解决方法、算法级解决方法和集成解决方法。侧重于对近年来类别不均衡学习中的抽样策略研究进展进行综述,介绍类别不均衡学习的基本框架,对类别不均衡学习中三种主要的抽样策略(过抽样、欠抽样和混合抽样)相关研究进展进行前沿概括、比较和分析,对类别不均衡学习的抽样策略中有待研究的难点、热点及发展趋势进行展望。 展开更多
关键词 不均衡学习 集成学习 欠抽样 特征选择 支持向量机 合成少数类过抽样技术 混合抽样
在线阅读 下载PDF
基于不均衡数据集成学习的大型电力变压器状态评价方法 被引量:26
2
作者 韩笑 王新迎 +2 位作者 韩帅 张玉天 王继业 《电网技术》 EI CSCD 北大核心 2021年第1期107-114,共8页
大型电力变压器构造复杂,设备成本高,是电力系统的关键组成部分,其运行状态与电力系统的安全稳定密切相关,因此变压器状态评价已成为常态运维业务工作。然而目前状态评价工作严重依赖导则与专家经验,人力成本高,易受到主观影响;而已有... 大型电力变压器构造复杂,设备成本高,是电力系统的关键组成部分,其运行状态与电力系统的安全稳定密切相关,因此变压器状态评价已成为常态运维业务工作。然而目前状态评价工作严重依赖导则与专家经验,人力成本高,易受到主观影响;而已有模型往往直接应用标准算法,在实际生产环境中表现不佳。针对目前大型电力变压器状态评价在数据质量、样本分布、应用需求与模型表现等方面存在的问题,提出了一种新的评价模型。首先,剔除了无效样本并设计了一种交叉权重方法来标记有效样本;之后,按照数据完整程度区分状态量并对其进行特征提取和高维映射,再拆分数据集得到多个完备训练数据集;然后,应用SMOTEBORDERLINE算法来合成正样本,得到多个完备均衡训练数据集;最后,并行化训练多个代价敏感修正的支持向量机(support vector machine,SVM)组件学习器,并通过权重投票法形成集成学习器。所提出的模型考虑了不均衡数据集与代价敏感所带来的影响,利用集成学习提高了模型的泛化能力,经过实际生产环境验证表现良好,与传统方法相比,显著降低了非正常状态样本的误判率与漏判率。 展开更多
关键词 状态评价 状态评估 电力变压器 不均衡学习 集成学习 机器学习 人工智能
在线阅读 下载PDF
价值样本选取的不均衡分类 被引量:5
3
作者 徐剑 王馨月 +2 位作者 才子昕 沈启航 景丽萍 《计算机科学与探索》 CSCD 北大核心 2020年第3期401-409,共9页
基于传统模型的实际分类问题,不均衡分类是一个常见的挑战问题。由于传统分类器较难学习少数类数据集内部的本质结构,导致更多地偏向于多数类,从而使少数类样本被误分为多数类样本。与此同时,样本集中的冗余数据和噪音数据也会对分类器... 基于传统模型的实际分类问题,不均衡分类是一个常见的挑战问题。由于传统分类器较难学习少数类数据集内部的本质结构,导致更多地偏向于多数类,从而使少数类样本被误分为多数类样本。与此同时,样本集中的冗余数据和噪音数据也会对分类器造成困扰。为有效处理上述问题,提出一种新的不均衡分类框架SSIC,该框架充分考虑数据统计特性,自适应从大小类中选取有价值样本,并结合代价敏感学习构建不均衡数据分类器。首先,SSIC通过组合部分多数类实例和所有少数类实例来构造几个平衡的数据子集。在每个子集上,SSIC充分利用数据的特征来提取可区分的高级特征并自适应地选择重要样本,从而可以去除冗余噪声数据。其次,SSIC通过在每个样本上自动分配适当的权重来引入一种代价敏感的支持向量机(SVM),以便将少数类视为与多数类相等。 展开更多
关键词 类的不均衡学习 分类 压缩激励网络 代价敏感度学习
在线阅读 下载PDF
摔倒检测中的样本失衡问题研究 被引量:2
4
作者 赵中堂 陈继光 马倩 《计算机工程与应用》 CSCD 北大核心 2017年第23期142-146,共5页
由于真实的摔倒数据难以获得,导致采集到的正常行为和摔倒行为样本比例严重失衡,从而基于此数据集训练的常规摔倒检测模型的漏警率和误警率都较高,不能满足实际的需求。针对该问题,提出一种基于样本加权极速学习机的摔倒检测方法,该方... 由于真实的摔倒数据难以获得,导致采集到的正常行为和摔倒行为样本比例严重失衡,从而基于此数据集训练的常规摔倒检测模型的漏警率和误警率都较高,不能满足实际的需求。针对该问题,提出一种基于样本加权极速学习机的摔倒检测方法,该方法综合考虑不同种类行为样本之间的比例关系,分别赋予其一定的权值,能较好地解决样本失衡问题。基于真实行为数据的实验结果表明,和传统非加权的行为识别方法相比较,基于样本加权极速学习机的摔倒检测方法能够将识别模型的性能提高10%左右。 展开更多
关键词 摔倒检测 行为识别 普适计算 迁移学习 机器学习 不均衡学习
在线阅读 下载PDF
基于谱聚类和成对数据表示的多层感知机分类算法 被引量:5
5
作者 刘树栋 魏嘉敏 《计算机科学》 CSCD 北大核心 2019年第S11期194-198,共5页
面向类别不均衡数据集的分类学习一直是数据挖掘和机器学习领域的研究热点。数据级、算法级和集成方法是目前解决类别不均衡学习的3种主流方法,其中欠抽样是类别不均衡学习一种常用的数据级解决方法,其缺点在于容易丢失多数类中部分有... 面向类别不均衡数据集的分类学习一直是数据挖掘和机器学习领域的研究热点。数据级、算法级和集成方法是目前解决类别不均衡学习的3种主流方法,其中欠抽样是类别不均衡学习一种常用的数据级解决方法,其缺点在于容易丢失多数类中部分有用信息。文中将谱聚类引入到成对数据表示的多数类欠抽样过程中,首先利用谱聚类方法,对多数类样本进行聚类,根据聚类簇大小和簇内样本点与少数类样本点的平均距离,在每个聚类簇内抽取不同个数有代表性的样本,并将簇内样本点之间及所有少数类样本点两两成对表示,从而有效降低了所有样本成对数据表示中两两组合而导致的数据暴涨问题,同时避免了随机抽样而可能导致的有效信息丢失问题。最后在9组UCI数据集上验证了所提算法的有效性。 展开更多
关键词 多层感知机 分类 欠抽样 谱聚类 不均衡学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部