期刊文献+
共找到99篇文章
< 1 2 5 >
每页显示 20 50 100
分类不平衡对软件缺陷预测模型性能的影响研究 被引量:30
1
作者 于巧 姜淑娟 +3 位作者 张艳梅 王兴亚 高鹏飞 钱俊彦 《计算机学报》 EI CSCD 北大核心 2018年第4期809-824,共16页
分类不平衡是指不同类别间样本数量分布不均衡的现象.在软件缺陷预测中,传统预测模型的性能可能会因数据集分类不平衡而受到影响.为了探究分类不平衡对软件缺陷预测模型性能的影响程度,该文提出一种分类不平衡影响分析方法.首先,设计一... 分类不平衡是指不同类别间样本数量分布不均衡的现象.在软件缺陷预测中,传统预测模型的性能可能会因数据集分类不平衡而受到影响.为了探究分类不平衡对软件缺陷预测模型性能的影响程度,该文提出一种分类不平衡影响分析方法.首先,设计一种新数据集构造算法,将原不平衡数据集转化为一组不平衡率依次递增的新数据集.然后,选取不同的分类模型作为缺陷预测模型,分别对构造的新数据集进行预测,并采用AUC指标来度量不同预测模型的分类性能.最后,采用变异系数C·V来评价各个预测模型在分类不平衡时的性能稳定程度.在8种典型的预测模型上进行实验验证,结果表明C4.5、RIPPER和SMO这3种预测模型的性能随着不平衡率的增大而下降,而代价敏感学习和集成学习能够有效提高它们在分类不平衡时的性能和性能稳定程度.与上述3种模型相比,逻辑回归、朴素贝叶斯和随机森林等模型的性能更加稳定. 展开更多
关键词 分类不平衡 软件缺陷预测 预测模型 不平衡 代价敏感学习 集成学习
在线阅读 下载PDF
克隆代码有害性预测中分类不平衡问题的解决方法
2
作者 王欢 张丽萍 闫盛 《计算机应用》 CSCD 北大核心 2016年第12期3468-3475,共8页
针对克隆代码有害性预测中有害和无害数据分类不平衡的问题,提出一种基于随机下采样(RUS)的能够自动调整分类不平衡的K-Balance算法。首先对克隆代码提取静态特征和演化特征构建样本数据集;然后选取比例不同的分类不平衡新数据集;... 针对克隆代码有害性预测中有害和无害数据分类不平衡的问题,提出一种基于随机下采样(RUS)的能够自动调整分类不平衡的K-Balance算法。首先对克隆代码提取静态特征和演化特征构建样本数据集;然后选取比例不同的分类不平衡新数据集;接着对已选取的新数据集进行有害性预测;最后,通过观察分类器的不同表现自动选择一个最适合的分类不平衡比例值。在7款C语言开源软件共170个版本上对克隆有害性预测模型的性能进行评估,并和其他分类不平衡解决方法进行对比,实验结果表明所提方法对有害和无害克隆的分类预测效果(受试者工作特征曲线下方面积(AUC)值)提高了2.62个百分点~36.70个百分点,能有效地改善分类不平衡的预测问题。 展开更多
关键词 克隆代码 有害性 不平衡分类 随机下采样 参数搜索
在线阅读 下载PDF
利用集成分类器处理链路预测中的分类不平衡问题 被引量:1
3
作者 贾承丰 韩华 +1 位作者 吕亚楠 王海军 《计算机应用研究》 CSCD 北大核心 2018年第12期3644-3647,3693,共5页
对于现实的复杂网络而言,有连边的节点对数目通常远小于无连边的节点对数目,在链路预测时,不同类别的样本数量不平衡会导致预测的分类结果与真实情况有较大的偏差。针对此问题,提出更优的链路预测算法,先对网络拓扑信息进行特征提取,再... 对于现实的复杂网络而言,有连边的节点对数目通常远小于无连边的节点对数目,在链路预测时,不同类别的样本数量不平衡会导致预测的分类结果与真实情况有较大的偏差。针对此问题,提出更优的链路预测算法,先对网络拓扑信息进行特征提取,再设计出一种集成分类器对数据样本进行平衡处理;然后基于网络的拓扑信息改进了分类器的集成规则;最后将训练出的集成分类器同现有的四个针对不平衡分类的链路预测学习算法进行对比研究。通过对四个不同规模的时序网络进行链路预测,结果表明,本链路预测学习算法具有更高的召回率,同时也保证了预测结果的准确性,从而更好地解决了链路预测中因类别不平衡导致的误分类问题。 展开更多
关键词 链路预测 不平衡分类 集成分类 机器学习
在线阅读 下载PDF
DRO框架下不平衡分类损失函数重加权优化 被引量:1
4
作者 李佳静 林耿 《计算机应用研究》 北大核心 2025年第8期2428-2436,共9页
在不平衡数据的多分类任务中,由于类别分布存在数量差异,分类器的决策边界往往偏向多数类别,从而导致模型难以实现准确分类。现有研究主要关注于数据平衡策略和损失函数的结构调整,忽视了样本标签可能存在标注错误或噪声,标签信息的不... 在不平衡数据的多分类任务中,由于类别分布存在数量差异,分类器的决策边界往往偏向多数类别,从而导致模型难以实现准确分类。现有研究主要关注于数据平衡策略和损失函数的结构调整,忽视了样本标签可能存在标注错误或噪声,标签信息的不确定性会进一步增加分类的难度。为解决这一问题,提出了一种名为加权标签分布稳健(weighted label distributionally robust Kullback-Leibler,WLDR-KL)的损失函数。该损失利用先验信息和标签权重显式地调整模型对少数类别的关注度,通过优化最不利的集合下的预测分布来应对数据标签不确定性下的不平衡分类任务。此外,利用Monte Carlo模拟提出了一种不平衡数据集的仿真方法,以更全面地评估各损失函数在不同类别和不同数量差异水平下的表现。在多组模拟数据集、UCI和Kaggle数据集上的实验结果表明,所提出的方法在处理不平衡数据时表现良好,并且在top-k准确率、F_(1)值、精度、召回率上均实现了一定程度的提升,为解决不平衡分类问题提供了一种有效的方法。 展开更多
关键词 不平衡分类 数据标签不确定性 加权标签分布稳健损失
在线阅读 下载PDF
基于核特征缩放和边界样本挖掘的不平衡图像分类方法
5
作者 冷强奎 陶抒清 《计算机科学与探索》 北大核心 2025年第7期1851-1867,共17页
不平衡图像分类是计算机视觉领域的一大挑战。尽管深度学习技术已被广泛应用,但类别不平衡问题仍然显著,导致模型偏向多数类而忽视少数类。传统的数据采样方法易引入噪声或丢失关键信息,限制了模型的泛化能力。研究表明,将几何思想融入... 不平衡图像分类是计算机视觉领域的一大挑战。尽管深度学习技术已被广泛应用,但类别不平衡问题仍然显著,导致模型偏向多数类而忽视少数类。传统的数据采样方法易引入噪声或丢失关键信息,限制了模型的泛化能力。研究表明,将几何思想融入深度学习方法中是一种有效且创新的解决方案。几何思想通过优化特征空间结构、改进决策边界和增强数据多样性,显著提升了不平衡图像分类的性能。提出了一种新的几何深度学习方法,该方法集成了基于核函数的层次特征缩放技术(KHFS)和相对邻域边界样本挖掘手段(RNBM)。KHFS借鉴了基于核函数的支持向量数据描述(SVDD),通过层次聚类确定每类的中心点,并计算以中心点为球心的超球体半径,对各类特征向量进行相应缩放,从而增强少数类样本的表示能力。RNBM方法则通过构建相对邻域图来捕捉样本间的邻域关系,从中挖掘出不同类别交界处的边界样本,以约束类内样本的紧凑性和类间样本的分散性。此外,也引入了卷积块自注意力机制(CBSA),应用于卷积神经网络(CNN)特征提取模块,旨在关注输入数据中的关键信息。在CIFAR-10、CIFAR-100、CINIC-10三个基准数据集上的大量实验验证了该几何深度学习方法在解决数据不平衡问题方面优于现有模型的显著性能。 展开更多
关键词 不平衡图像分类 几何方法 特征缩放 边界样本挖掘 支持向量数据描述
在线阅读 下载PDF
基于边界过采样的图节点不平衡分类算法 被引量:1
6
作者 武天昊 董明刚 谭若琦 《计算机工程与应用》 CSCD 北大核心 2024年第13期92-101,共10页
在现实世界中,金融欺诈检测和疾病诊断是典型的图不平衡问题,基于过采样的图神经网络是解决此类问题的常用方法之一。然而,该方法难以保证生成边界样本的多样性,易导致分类性能下降。提出一种基于边界过采样的图节点不平衡分类算法(ImBS... 在现实世界中,金融欺诈检测和疾病诊断是典型的图不平衡问题,基于过采样的图神经网络是解决此类问题的常用方法之一。然而,该方法难以保证生成边界样本的多样性,易导致分类性能下降。提出一种基于边界过采样的图节点不平衡分类算法(ImBS)来提升生成样本的多样性。ImBS通过双层图神经分类网络选择出每个类别中高置信度样本作为采样锚点,提高锚点的代表性。为了使生成样本分布更加合理,利用上一步得到的混淆矩阵,计算少数类误判的分布比例。并基于该分布比例,自适应计算不同类间生成的样本数量。在此基础上,提出基于锚点的混合过采样方法。通过混合异类锚点特征的方式过采样边界节点,达到增加样本多样性和扩展少数类决策边界的目的。此外,为了防止产生有害连接,引入个性化PageRank方法,为过采样样本生成邻域分布。在三个真实的数据集(Cora、CiteSeer和Cora-Ful)上的实验表明,该方法与9个代表性的方法对比具有明显优势。 展开更多
关键词 图神经网络 不平衡节点分类 边界过采样
在线阅读 下载PDF
跨类别样本迁移框架下的不平衡分类方法 被引量:1
7
作者 于海波 刘婧 +3 位作者 李强伟 高欣 谭煌 陈天阳 《计算机工程与应用》 CSCD 北大核心 2024年第16期143-158,共16页
对于不平衡分类问题,实现类别交叠区域中样本数目和分布的平衡是缓解后续决策偏移的关键,而现有的不平衡分类方法往往只从少数类样本生成新样本来达到样本数目的平衡,没有充分利用多数类样本丰富的信息。特别是在少数类样本绝对数量过... 对于不平衡分类问题,实现类别交叠区域中样本数目和分布的平衡是缓解后续决策偏移的关键,而现有的不平衡分类方法往往只从少数类样本生成新样本来达到样本数目的平衡,没有充分利用多数类样本丰富的信息。特别是在少数类样本绝对数量过少的情况下,仅利用原始少数类样本信息无法有效平衡交叠区域样本的分布。提出了一种跨类别样本迁移框架下的不平衡分类方法。在变分自编码器(variational autoencoder,VAE)隐编码采样过程中嵌入由全连接层构建的映射网络,在VAE充分学习不同类别样本的共性和特性的基础上,在隐编码先验约束和跨域一致性约束下对多数类样本的隐编码进行映射转换,使转换前后隐编码共享相同的分布空间,并通过VAE中解码器实现多数类样本向少数类样本的迁移。同时融入生成对抗机制,对原始样本和新样本以及转换前后的隐编码进行判别对抗,进一步提升迁移样本的可靠性。在此基础上,分别对新生成样本与原始不同类别样本的距离进行加权约束,并筛选得到更加靠近交叠区域的样本,使该区域不同类别样本的数目和分布更加平衡。在16个公共数据集上的实验结果表明,在F1测量值和G-均值上该方法显著优于10种典型的不平衡分类方法,特别是在11个不平衡比例较高、少数类样本绝对数量过少的公共数据集中,该方法性能提升更加显著。 展开更多
关键词 不平衡分类 跨类别样本迁移框架 变分自编码器 映射网络 生成对抗机制 加权欧式距离约束
在线阅读 下载PDF
基于不平衡数据的中文情感分类 被引量:11
8
作者 王中卿 李寿山 +2 位作者 朱巧明 李培峰 周国栋 《中文信息学报》 CSCD 北大核心 2012年第3期33-37,64,共6页
近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡的。该文收集四个产品领域的中文评论文本,发现正类样本的数目... 近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡的。该文收集四个产品领域的中文评论文本,发现正类样本的数目远远多于负类样本。针对不平衡数据的中文情感分类,提出了一种基于欠采样和多分类算法的集成学习框架。在四个不同领域的实验结果表明,我们的方法能够显著提高分类性能,并明显优于目前主流的多种不平衡分类方法。 展开更多
关键词 情感分类 不平衡分类 集成学习
在线阅读 下载PDF
基于Boosting的不平衡数据分类算法研究 被引量:17
9
作者 李秋洁 茅耀斌 王执铨 《计算机科学》 CSCD 北大核心 2011年第12期224-228,共5页
研究基于boosting的不平衡数据分类算法,归纳分析现有算法,在此基础上提出权重采样boosting算法。对样本进行权重采样,改变原有数据分布,从而得到适用于不平衡数据的分类器。算法本质是利用采样函数调整原始boosting损失函数形式,进一... 研究基于boosting的不平衡数据分类算法,归纳分析现有算法,在此基础上提出权重采样boosting算法。对样本进行权重采样,改变原有数据分布,从而得到适用于不平衡数据的分类器。算法本质是利用采样函数调整原始boosting损失函数形式,进一步强调正样本的分类损失,使得分类器侧重对正样本的有效判别,提高正样本的整体识别率。算法实现简单,实用性强,在UCI数据集上的实验结果表明,对于不平衡数据分类问题,权重采样boosting优于原始boosting及前人算法。 展开更多
关键词 不平衡数据分类 BOOSTING 采样
在线阅读 下载PDF
基于主动学习不平衡多分类AdaBoost算法的心脏病分类 被引量:11
10
作者 王莉莉 付忠良 +1 位作者 陶攀 胡鑫 《计算机应用》 CSCD 北大核心 2017年第7期1994-1998,共5页
针对不平衡分类中小类样本识别率低问题,提出一种基于主动学习不平衡多分类Ada Boost改进算法。首先,利用主动学习方法通过多次迭代抽样,选取少量的、对分类器最有价值的样本作为训练集;然后,基于不确定性动态间隔的样本选择策略,降低... 针对不平衡分类中小类样本识别率低问题,提出一种基于主动学习不平衡多分类Ada Boost改进算法。首先,利用主动学习方法通过多次迭代抽样,选取少量的、对分类器最有价值的样本作为训练集;然后,基于不确定性动态间隔的样本选择策略,降低训练集的不平衡性;最后,利用代价敏感方法对多分类Ada Boost算法进行改进,对不同的类别给予不同的错分代价,调整样本权重更新速度,强迫弱分类器"关注"小类样本。在临床经胸超声心动图(TTE)测量数据集上的实验分析表明:与多分类支持向量机(SVM)相比,心脏病总体识别率提升了5.9%,G-mean指标提升了18.2%,瓣膜病(VHD)识别率提升了0.8%,感染性心内膜炎(IE)(小类)识别率提升了12.7%,冠心病(CAD)(小类)识别率提升了79.73%;与SMOTE-Boost相比,总体识别率提升了6.11%,G-mean指标提升了0.64%,VHD识别率提升了11.07%,先心病(CHD)识别率提升了3.69%。在TTE数据集和4个UCI数据集上的实验结果表明,该算法在不平稳多分类时能有效提高小类样本识别率,并且保证其他类别识别率不会大幅度降低,综合提升分类器性能。 展开更多
关键词 主动学习 不平衡分类 分类Ada BOOST 多类别分类 心脏病分类
在线阅读 下载PDF
Spark环境下基于综合权重的不平衡数据集成分类方法 被引量:8
11
作者 丁家满 王思晨 +2 位作者 贾连印 游进国 姜瑛 《小型微型计算机系统》 CSCD 北大核心 2019年第2期255-259,共5页
不平衡数据分类经常面临样本严重不平衡、少数类样本分类精度低的问题,随着数据规模增大,分类效率也成为了瓶颈问题.针对以上问题,本文结合spark高效的数据处理能力,提出了一种Spark环境下基于综合权重的不平衡数据集成分类方法.该方法... 不平衡数据分类经常面临样本严重不平衡、少数类样本分类精度低的问题,随着数据规模增大,分类效率也成为了瓶颈问题.针对以上问题,本文结合spark高效的数据处理能力,提出了一种Spark环境下基于综合权重的不平衡数据集成分类方法.该方法首先依照多数类样本中每类样本的权重以及少数类样本量获得的综合权重进行采样,并与少数类样本组成平衡规模的训练数据集;其次,采用基于相关性的特征选择方法选择最优的特征子集,并对随机森林算法进行改进优化以及利用其获得子分类器.最后在Spark环境下,以UCI数据集进行实验验证.实验结果表明本文方法不仅提高了整体分类精度,而且提升了分类效率. 展开更多
关键词 不平衡数据分类 样本采集 综合权重 随机森林 SPARK
在线阅读 下载PDF
基于代价敏感的朴素贝叶斯不平衡数据分类研究 被引量:21
12
作者 蒋盛益 谢照青 余雯 《计算机研究与发展》 EI CSCD 北大核心 2011年第S1期387-390,共4页
传统数据挖掘分类算法在不平衡数据集上分类效果不佳,可以将代价敏感思想与传统分类算法相结合解决不平衡数据分类问题.但在代价敏感学习中,代价的确定需要足够的先验知识,难以把握.针对上述不足,构造针对不平衡数据分布的自适应代价函... 传统数据挖掘分类算法在不平衡数据集上分类效果不佳,可以将代价敏感思想与传统分类算法相结合解决不平衡数据分类问题.但在代价敏感学习中,代价的确定需要足够的先验知识,难以把握.针对上述不足,构造针对不平衡数据分布的自适应代价函数,引进全局代价矩阵,对传统的朴素贝叶斯分类算法进行改进.在UCI数据集上的实验结果表明,提出的基于代价敏感的朴素贝叶斯分类算法对于不平衡数据分类是有效可行的. 展开更多
关键词 代价敏感 朴素贝叶斯 不平衡数据分类
在线阅读 下载PDF
应用于不平衡多分类问题的损失平衡函数 被引量:13
13
作者 黄庆康 宋恺涛 陆建峰 《智能系统学报》 CSCD 北大核心 2019年第5期953-958,共6页
传统分类算法一般要求数据集类别分布平衡,然而在实际情况中往往面临的是不平衡的类别分布。目前存在的数据层面和模型层面算法试图从不同角度解决该问题,但面临着参数选择以及重复采样产生的额外计算等问题。针对此问题,提出了一种在... 传统分类算法一般要求数据集类别分布平衡,然而在实际情况中往往面临的是不平衡的类别分布。目前存在的数据层面和模型层面算法试图从不同角度解决该问题,但面临着参数选择以及重复采样产生的额外计算等问题。针对此问题,提出了一种在小批量内样本损失自适应均衡化的方法。该算法采用了一种动态学习损失函数的方式,根据小批量内样本标签信息调整各样本损失权重,从而实现在小批量内各类别样本总损失的平衡性。通过在caltech101和ILSVRC2014数据集上的实验表明,该算法能够有效地减少计算成本并提高分类精度,且一定程度上避免了过采样方法所带来的模型过拟合风险。 展开更多
关键词 不平衡学习 不平衡数据分类 分类不平衡 损失平衡 不平衡数据分类算法 不平衡数据集 F1调和平均 卷积神经网络 深度学习
在线阅读 下载PDF
融合CNN和EWC算法的不平衡文本情绪分类方法 被引量:7
14
作者 程艳 朱海 +3 位作者 项国雄 唐天伟 钟林辉 王国玮 《中文信息学报》 CSCD 北大核心 2020年第4期92-100,共9页
文本情绪分类是自然语言处理领域的一个基本任务。然而,基于不平衡数据的学习使得传统文本情绪分类方法的分类性能降低。针对这个问题,该文提出了一种融合CNN和EWC算法的不平衡文本情绪分类方法。首先,该方法使用随机欠采样方法得到多... 文本情绪分类是自然语言处理领域的一个基本任务。然而,基于不平衡数据的学习使得传统文本情绪分类方法的分类性能降低。针对这个问题,该文提出了一种融合CNN和EWC算法的不平衡文本情绪分类方法。首先,该方法使用随机欠采样方法得到多组平衡数据;其次,按顺序单独使用每一组平衡数据输入CNN训练,同时在训练过程中引入EWC算法用以克服CNN中的灾难性遗忘;最后,把使用最后一组平衡数据输入CNN训练得到的模型作为最终分类模型。实验结果表明,该方法在分类性能上明显优于基于欠采样和多分类算法的集成学习框架,且该方法比基于多通道LSTM神经网络的不平衡情绪分类方法在Accuracy和G-mean上分别提高了1.9%和2.1%。 展开更多
关键词 情绪分类 不平衡分类 CNN EWC算法
在线阅读 下载PDF
用于不平衡数据分类的代价敏感超网络算法 被引量:7
15
作者 郑燕 王杨 +1 位作者 郝青峰 甘振韬 《计算机应用》 CSCD 北大核心 2014年第5期1336-1340,1377,共6页
传统的超网络模型在处理不平衡数据分类问题时,具有很大的偏向性,正类的识别率远远高于负类。为此,提出了一种代价敏感超网络Boosting集成算法。首先,将代价敏感学习引入超网络模型,提出了代价敏感的超网络模型;同时,为了使算法能够自... 传统的超网络模型在处理不平衡数据分类问题时,具有很大的偏向性,正类的识别率远远高于负类。为此,提出了一种代价敏感超网络Boosting集成算法。首先,将代价敏感学习引入超网络模型,提出了代价敏感的超网络模型;同时,为了使算法能够自适应正类的错分代价,采用Boosting算法对代价敏感超网络进行集成。代价敏感超网络能很好地修正传统的超网络在处理不平衡数据分类问题时过分偏向正类的缺陷,提高对负类的分类准确性。实验结果表明,代价敏感超网络Boosting集成算法具有处理不平衡数据分类问题的优势。 展开更多
关键词 不平衡数据分类 超网络 代价敏感学习 自适应学习
在线阅读 下载PDF
一种SVM不平衡分类方法及在故障诊断的应用 被引量:15
16
作者 王德成 林辉 《电机与控制学报》 EI CSCD 北大核心 2012年第9期48-52,共5页
针对支持向量机不平衡样本分类倾斜性问题,提出一种欠采样支持向量机分类器。构建包含少类样本的最小封闭超球体,计算各个多类样本到包含少类样本最小封闭超球体球心的距离,利用该距离对多类样本进行欠采样,产生新的训练集,实现训练集... 针对支持向量机不平衡样本分类倾斜性问题,提出一种欠采样支持向量机分类器。构建包含少类样本的最小封闭超球体,计算各个多类样本到包含少类样本最小封闭超球体球心的距离,利用该距离对多类样本进行欠采样,产生新的训练集,实现训练集的平衡。该方法和其他不平衡分类方法在基准数据集的分类结果表明该方法在识别率和分类速度方面的有效性。将该方法应用于永磁同步电机驱动电路功率开关管开路故障诊断中,结果表明该方法缩短故障分类器的训练时间,提高了故障分类器的泛化能力和诊断速度。 展开更多
关键词 支持向量机 不平衡分类 欠采样 永磁同步电机 故障诊断
在线阅读 下载PDF
基于不平衡分类的人脸检测系统 被引量:3
17
作者 孙玉 刘贵全 汪中 《计算机应用与软件》 CSCD 北大核心 2012年第12期24-26,共3页
人脸检测是生物特征识别技术中一个关键技术。针对人脸检测中正负样本类别不平衡的特性,提出基于BalanceCascade不平衡分类算法的人脸检测系统。系统通过控制分类器的误报率使得每层正负样本的规模相当,然后加权所有弱分类器构建最终的... 人脸检测是生物特征识别技术中一个关键技术。针对人脸检测中正负样本类别不平衡的特性,提出基于BalanceCascade不平衡分类算法的人脸检测系统。系统通过控制分类器的误报率使得每层正负样本的规模相当,然后加权所有弱分类器构建最终的强分类器,消除训练正负样本不平衡的特点。在ORL人脸数据集上进行实验,采用F-measure和AUC作为评判标准,相比于传统的AdaBoost和UnderSamping不平衡分类算法,实验结果表明BalanceCascade算法优于传统的不平衡分类算法。 展开更多
关键词 人脸识别 不平衡分类 误报率
在线阅读 下载PDF
不平衡分类问题研究综述 被引量:73
18
作者 叶志飞 文益民 吕宝粮 《智能系统学报》 2009年第2期148-156,共9页
实际的分类问题往往都是不平衡分类问题,采用传统的分类方法,难以得到满意的分类效果.为此,十多年来,人们相继提出了各种解决方案.对国内外不平衡分类问题的研究做了比较详细地综述,讨论了数据不平衡性引发的问题,介绍了目前几种主要的... 实际的分类问题往往都是不平衡分类问题,采用传统的分类方法,难以得到满意的分类效果.为此,十多年来,人们相继提出了各种解决方案.对国内外不平衡分类问题的研究做了比较详细地综述,讨论了数据不平衡性引发的问题,介绍了目前几种主要的解决方案.通过仿真实验,比较了具有代表性的重采样法、代价敏感学习、训练集划分以及分类器集成在3个实际的不平衡数据集上的分类性能,发现训练集划分和分类器集成方法能较好地处理不平衡数据集,给出了针对不平衡分类问题的分类器评测指标和将来的工作. 展开更多
关键词 机器学习 不平衡模式分类 重采样 代价敏感学习 训练集划分 分类器集成 分类器性能评测
在线阅读 下载PDF
基于不平衡分类的Bagging集成污水处理故障诊断 被引量:6
19
作者 许玉格 赖春伶 罗飞 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第8期107-115,共9页
在污水处理过程故障会导致出水水质下降、运行费用增高甚至造成环境的二次污染,而污水处理故障诊断数据的典型不平衡特性,严重影响了故障诊断的效果,尤其会导致故障分类的正确率偏低.针对此问题,文中提出了一种基于加权极限学习机的改进... 在污水处理过程故障会导致出水水质下降、运行费用增高甚至造成环境的二次污染,而污水处理故障诊断数据的典型不平衡特性,严重影响了故障诊断的效果,尤其会导致故障分类的正确率偏低.针对此问题,文中提出了一种基于加权极限学习机的改进Bagging集成污水处理故障诊断建模方法;以加权极限学习机为基分类器,以Bagging集成框架建立集成分类器;定义可调整的过采样倍率公式,通过虚拟少数过采样算法(SMOTE)对少数类样本进行过采样,以保证基分类器间的多样性;以不平衡分类性能指标G-mean值为基础,定义新的基分类器输出权值更新公式,以提高故障类别识别率.仿真实验表明,该污水处理故障诊断模型的性能优于其他对比算法,可有效提高G-mean值和整体分类正确率,特别是提高了故障类别的识别正确率. 展开更多
关键词 不平衡分类 加权极限学习机 Bagging集成算法 污水处理 故障诊断
在线阅读 下载PDF
改进的不平衡贝叶斯学习分类模型研究 被引量:2
20
作者 韩忠明 刘聃 +2 位作者 段大高 杨伟杰 张珣 《计算机应用研究》 CSCD 北大核心 2020年第12期3561-3564,共4页
基于函数逼近的方法存在少数类样本不足时分类效果不佳的问题,针对此问题提出了不平衡贝叶斯学习分类模型。模型引入类间隔似然函数,用于降低后验分布在参数空间上存在的偏态性,以采样到对各类样本分类精确的参数点。在UCI、KEEL上的公... 基于函数逼近的方法存在少数类样本不足时分类效果不佳的问题,针对此问题提出了不平衡贝叶斯学习分类模型。模型引入类间隔似然函数,用于降低后验分布在参数空间上存在的偏态性,以采样到对各类样本分类精确的参数点。在UCI、KEEL上的公开不平衡数据集中的实验结果验证了所提方法的有效性;基于MINIST数据集构建了两个不平衡数据集,在这两个数据集中几何均值分别达到92.4%和81.6%。 展开更多
关键词 不平衡分类 数据挖掘 类间隔似然函数 贝叶斯学习
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部