期刊文献+
共找到146篇文章
< 1 2 8 >
每页显示 20 50 100
面向非平衡数据集的深度极限学习机模型
1
作者 张喻喻 李凤莲 +3 位作者 王伟丽 贾文辉 黄丽霞 陈桂军 《重庆理工大学学报(自然科学)》 北大核心 2025年第6期108-116,共9页
针对非平衡数据集对分类器性能造成的不利影响,提出一种基于Universum和改进哈里斯鹰算法优化的自适应深度极限学习机模型。在数据预处理阶段引入Universum样本,帮助更好地学习不同类别的样本;提出改进的哈里斯鹰算法,通过定义位置更新... 针对非平衡数据集对分类器性能造成的不利影响,提出一种基于Universum和改进哈里斯鹰算法优化的自适应深度极限学习机模型。在数据预处理阶段引入Universum样本,帮助更好地学习不同类别的样本;提出改进的哈里斯鹰算法,通过定义位置更新公式提升搜索能力,优化最小化问题公式以增强算法稳定性,生成更准确的特定类别成本调节极限学习机权重参数。基于多层感知机理论,构建自适应深度模型确定最佳隐藏层参数,进一步提高分类性能。基于公共数据集的实验结果表明,提出的自适应深度极限学习机模型可显著提高少数类样本的分类准确率。对脑卒中筛查数据进行的分类预测结果表明,该模型应用于临床数据可提供辅助诊断建议。 展开更多
关键词 非平衡数据 极限学习机 哈里斯鹰算法 Universum
在线阅读 下载PDF
基于方差迁移的非平衡数据过采样方法
2
作者 郑一凡 王卯宁 《计算机科学》 CSCD 北大核心 2024年第S01期645-650,共6页
重采样是解决非平衡数据分类问题的重要方法。但在数据集很小的情况下,欠采样会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然部分解决了类间不平衡问题,但是本质上并未给少数类引入额外的信息... 重采样是解决非平衡数据分类问题的重要方法。但在数据集很小的情况下,欠采样会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然部分解决了类间不平衡问题,但是本质上并未给少数类引入额外的信息,且仍然存在着过拟合的风险。针对这些问题,提出了一种基于多数类方差迁移的少数类合成方法(Variance Transfer Oversampling,VTO),从足够多样化的多数类中提取样本偏移向量,综合少数类和多数类的特征权重矩阵以调整,最终将经过置信条件筛选的偏移向量叠加至少数类样本中心,从而在少数类样本生成中引入多数类方差,进而丰富少数类特征空间。为了验证所提算法的有效性,使用决策树为分类模型在6个KEEL数据集上训练,对比SMOTEENN等其他过采样方法,以F-score和PR-AUC值为评价指标进行了实验。结果显示,该算法在处理非平衡数据分类问题时具有更大优势。 展开更多
关键词 非平衡数据 分类 过采样 方差迁移 协方差
在线阅读 下载PDF
一种基于核SMOTE的非平衡数据集分类方法 被引量:49
3
作者 曾志强 吴群 +1 位作者 廖备水 高济 《电子学报》 EI CAS CSCD 北大核心 2009年第11期2489-2495,共7页
本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空... 本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练.实验表明,核SMOTE方法所合成的样本质量高于SMOTE算法,从而有效提高SVM在非平衡数据集上的分类效果. 展开更多
关键词 非平衡数据 支持向量机 输入空间 特征空间 原像
在线阅读 下载PDF
基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法 被引量:18
4
作者 翟云 王树鹏 +2 位作者 马楠 杨炳儒 张德政 《电子学报》 EI CAS CSCD 北大核心 2014年第7期1311-1319,共9页
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合... 非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link&Distribution Density-SMOTE,OSLDD-SMOTE).OSLDDSMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率. 展开更多
关键词 非平衡数据分类 单边选择链 分布密度 重采样
在线阅读 下载PDF
基于改进SMOTE的非平衡数据集分类研究 被引量:19
5
作者 王超学 潘正茂 +2 位作者 董丽丽 马春森 张星 《计算机工程与应用》 CSCD 2013年第2期184-187,245,共5页
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少... 针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。 展开更多
关键词 非平衡数据 分类 支持度 轮盘赌选择 合成少数过采样技术(SMOTE)
在线阅读 下载PDF
处理非平衡数据的粒度SVM学习算法 被引量:15
6
作者 郭虎升 亓慧 王文剑 《计算机工程》 CAS CSCD 北大核心 2010年第2期181-183,共3页
针对支持向量机对于非平衡数据不能进行有效分类的问题,提出一种粒度支持向量机学习算法。根据粒度计算思想对多数类样本进行粒划分并从中获取信息粒,以使数据趋于平衡。通过这些信息粒来寻找局部支持向量,并在这些局部支持向量和少数... 针对支持向量机对于非平衡数据不能进行有效分类的问题,提出一种粒度支持向量机学习算法。根据粒度计算思想对多数类样本进行粒划分并从中获取信息粒,以使数据趋于平衡。通过这些信息粒来寻找局部支持向量,并在这些局部支持向量和少数类样本上进行有效学习,使SVM在非平衡数据集上获得令人满意的泛化能力。 展开更多
关键词 粒度支持向量机 非平衡数据 信息粒 局部支持向量
在线阅读 下载PDF
非平衡数据集分类方法探讨 被引量:9
7
作者 职为梅 郭华平 +1 位作者 范明 叶阳东 《计算机科学》 CSCD 北大核心 2012年第B06期304-308,共5页
由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质... 由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质、影响非平衡数据集分类的因素、非平衡数据集分类通常采用的方法、常用的评估标准以及该问题中存在的问题与挑战。 展开更多
关键词 非平衡数据 分类 抽样技术 代价敏感学习
在线阅读 下载PDF
一种面向非平衡数据集分类问题的组合选择方法 被引量:7
8
作者 职为梅 郭华平 +1 位作者 张银峰 范明 《小型微型计算机系统》 CSCD 北大核心 2014年第4期770-775,共6页
由于类分布的不平衡性,很多传统的分类方法在非平衡数据集上的分类效果不好.与传统的方法不同,论文从组合选择的角度考虑不平衡类学习问题,提出了一种基于实例的组合选择方法 CBES,提升组合分类器在不平衡数据集上的分类性能.CBES考察... 由于类分布的不平衡性,很多传统的分类方法在非平衡数据集上的分类效果不好.与传统的方法不同,论文从组合选择的角度考虑不平衡类学习问题,提出了一种基于实例的组合选择方法 CBES,提升组合分类器在不平衡数据集上的分类性能.CBES考察类标号未知的样本的k近邻,并以此为选择集,从分类器库中选择一个最优或次优的子组合分类器来预测未知样本的类标号.由于考虑了待分类样本的局部特征,更关注稀有类,因此CBES能够更好地对非平衡数据集进行分类.实验结果表明,本文的方法能够显著地降低模型的复杂度,有效地提高了非平衡数据集上的分类性能. 展开更多
关键词 非平衡数据 组合分类器 组合选择 K近邻 基分类器
在线阅读 下载PDF
非平衡数据训练方法概述 被引量:10
9
作者 张琦 吴斌 王柏 《计算机科学》 CSCD 北大核心 2005年第10期181-186,共6页
现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等。其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类。正类... 现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等。其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类。正类样本与负类样本可能数量上相差极大,这给训练非平衡数据提出了挑战。传统机器训练算法可能会产生偏向多数类的结果,因而对于正类来说,预测的性能可能会很差。本文分析了导致非平衡数据分类性能差的多方面原因,并针对这些原因列出了多种解决方法。 展开更多
关键词 非平衡数据 小析取项 元学习 训练方法 数据挖掘 评估度量
在线阅读 下载PDF
针对非平衡数据分类的新型模糊SVM模型 被引量:19
10
作者 蔡艳艳 宋晓东 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2015年第5期120-124,160,共6页
提出了一种新的模糊支持向量机模型——非平衡数据分类的支持向量机模型,通过改进惩罚函数,降低模型对于含有噪声点的非平衡样本数据的敏感性,并采用网格搜索算法来确定各个支持向量机模型中参数的优化取值.研究结果表明,非平衡数据分... 提出了一种新的模糊支持向量机模型——非平衡数据分类的支持向量机模型,通过改进惩罚函数,降低模型对于含有噪声点的非平衡样本数据的敏感性,并采用网格搜索算法来确定各个支持向量机模型中参数的优化取值.研究结果表明,非平衡数据分类的支持向量机模型对非平衡样本数据进行分类的效果优于其他方法,不仅总体判别精度较高,也提高了少数类样本的判别精度,取得了较好的改进效果. 展开更多
关键词 支持向量机 分类 非平衡数据 噪声 惩罚函数
在线阅读 下载PDF
非平衡数据集分类问题研究进展 被引量:16
11
作者 高嘉伟 梁吉业 《计算机科学》 CSCD 北大核心 2008年第4期10-13,共4页
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点。文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题。
关键词 非平衡数据 分类 算法
在线阅读 下载PDF
非平衡数据集Fisher线性判别模型 被引量:15
12
作者 谢纪刚 裘正定 《北京交通大学学报》 EI CAS CSCD 北大核心 2006年第5期15-18,共4页
非平衡数据是指两类问题中正类样本与负类样本个数不相等,甚至相比悬殊.非平衡数据集会导致许多分类器的性能下降,这与分类器的构造原理有关.本文首先阐述了Fisher线性判别的分类机制,指出当两类样本的协方差矩阵不同时,样本不平衡会导... 非平衡数据是指两类问题中正类样本与负类样本个数不相等,甚至相比悬殊.非平衡数据集会导致许多分类器的性能下降,这与分类器的构造原理有关.本文首先阐述了Fisher线性判别的分类机制,指出当两类样本的协方差矩阵不同时,样本不平衡会导致Fisher线性判别的性能下降.在此基础上,提出了一种加权Fisher线性判别(WFLD),以减小样本不平衡的影响.然后,从UCI中选择了8个非平衡数据集,并采用ROC曲线下面积作为评估指标进行比较,实验结果证明了WFLD模型的有效性. 展开更多
关键词 非平衡数据 FISHER线性判别 ROC曲线下面积(AUC)
在线阅读 下载PDF
代价敏感惩罚AdaBoost算法的非平衡数据分类 被引量:10
13
作者 鲁淑霞 张振莲 翟俊海 《南京航空航天大学学报》 CAS CSCD 北大核心 2023年第2期339-346,共8页
针对非平衡数据分类问题,提出了一种基于代价敏感的惩罚AdaBoost算法。在惩罚Adaboost算法中,引入一种新的自适应代价敏感函数,赋予少数类样本及分错的少数类样本更高的代价值,并通过引入惩罚机制增大了样本的平均间隔。选择加权支持向... 针对非平衡数据分类问题,提出了一种基于代价敏感的惩罚AdaBoost算法。在惩罚Adaboost算法中,引入一种新的自适应代价敏感函数,赋予少数类样本及分错的少数类样本更高的代价值,并通过引入惩罚机制增大了样本的平均间隔。选择加权支持向量机(Support vector machine,SVM)优化模型作为基分类器,采用带有方差减小的随机梯度下降方法(Stochastic variance reduced gradient,SVRG)对优化模型进行求解。对比实验表明,本文提出的算法不但在几何均值(G-mean)和ROC曲线下的面积(Area under ROC curve,AUC)上明显优于其他算法,而且获得了较大的平均间隔,显示了本文算法在处理非平衡数据分类问题上的有效性。 展开更多
关键词 非平衡数据 惩罚AdaBoost 自适应代价敏感函数 平均间隔 随机梯度下降
在线阅读 下载PDF
Logistic回归的非平衡数据问题及其解决方法 被引量:5
14
作者 李刚 李纯青 张莉 《统计与决策》 CSSCI 北大核心 2013年第20期8-10,共3页
文章使用典型仿真数据引出Logistic回归的非平衡数据问题;基于重构训练集思想,提出在不改变Logistic基本求解算法下的"小类配平"和"大类配平"解决方法,实验验证这两种解决方法的有效性,论述这两类方法的优缺点;理... 文章使用典型仿真数据引出Logistic回归的非平衡数据问题;基于重构训练集思想,提出在不改变Logistic基本求解算法下的"小类配平"和"大类配平"解决方法,实验验证这两种解决方法的有效性,论述这两类方法的优缺点;理论分析Logistic回归的非平衡数据问题存在的原因及"小类配平"和"大类配平"法的合理性。 展开更多
关键词 LOGISTIC回归 非平衡数据 极大似然法 训练集重构
在线阅读 下载PDF
结合样本局部密度的非平衡数据集成分类算法 被引量:11
15
作者 杨浩 陈红梅 《计算机科学与探索》 CSCD 北大核心 2020年第2期274-284,共11页
传统的过采样方法是解决非平衡数据分类问题的有效方法之一。基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MO... 传统的过采样方法是解决非平衡数据分类问题的有效方法之一。基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MOLAD。在此基础上,为了解决非平衡数据的分类问题,提出了一种在采样阶段将MOLAD算法和基于Bagging的集成学习结合的算法LADBMOTE。LADBMOTE首先根据MOLAD计算每个少数类样本的K近邻,然后选择所有的K近邻进行采样,生成K个平衡数据集,最后利用基于Bagging的集成学习方法将K个平衡数据集训练得到的分类器集成。在KEEL公开的20个非平衡数据集上,将提出的LADBMOTE算法与当前流行的7个处理非平衡数据的算法对比,实验结果表明LADBMOTE在不同的分类器上的分类性能更好,鲁棒性更强。 展开更多
关键词 非平衡数据 近邻计算策略 集成学习 过采样
在线阅读 下载PDF
Logistic模型对非平衡数据的敏感性:测度、修正与比较 被引量:10
16
作者 魏瑾瑞 吕晓云 《统计研究》 CSSCI 北大核心 2016年第2期79-85,共7页
本文以UCI数据库为研究样本,分析logistic模型对不同程度非平衡数据的敏感性。研究表明:1数据非平衡程度越高,logistic回归对稀有类的识别能力越差。2相对于其他修正方法,OSS方法的改进效果不显著且不稳定;相对于复杂抽样,简单抽样修正... 本文以UCI数据库为研究样本,分析logistic模型对不同程度非平衡数据的敏感性。研究表明:1数据非平衡程度越高,logistic回归对稀有类的识别能力越差。2相对于其他修正方法,OSS方法的改进效果不显著且不稳定;相对于复杂抽样,简单抽样修正结果更优。3AUC值不适宜于非平衡数据条件下的模型选择,因为在非平衡数据条件下,它不能有效区分四种修正方法的优劣,而且修正前后的差异亦不能辨。 展开更多
关键词 LOGISTIC模型 非平衡数据 ROC曲线 AUC值 平衡化的五折交叉验证
在线阅读 下载PDF
优化的支持向量机集成分类器在非平衡数据集分类中的应用 被引量:9
17
作者 章少平 梁雪春 《计算机应用》 CSCD 北大核心 2015年第5期1306-1309,共4页
传统的分类算法大都建立在平衡数据集的基础上,当样本数据不平衡时,这些学习算法的性能往往会明显下降。对于非平衡数据分类问题,提出了一种优化的支持向量机(SVM)集成分类器模型,采用KSMOTE和Bootstrap对非平衡数据进行预处理,生成相应... 传统的分类算法大都建立在平衡数据集的基础上,当样本数据不平衡时,这些学习算法的性能往往会明显下降。对于非平衡数据分类问题,提出了一种优化的支持向量机(SVM)集成分类器模型,采用KSMOTE和Bootstrap对非平衡数据进行预处理,生成相应的SVM模型并用复合形算法优化模型参数,最后利用优化的参数并行生成SVM集成分类器模型,采用投票机制得到分类结果。对5组UCI标准数据集进行实验,结果表明采用优化的SVM集成分类器模型较SVM模型、优化的SVM模型等分类精度有了明显的提升,同时验证了不同的boot Num取值对分类器性能效果的影响。 展开更多
关键词 非平衡数据 分类算法 支持向量机 集成分类器
在线阅读 下载PDF
处理非平衡数据的粒度SVM学习方法 被引量:3
18
作者 徐乾 王文剑 张文浩 《计算机工程与应用》 CSCD 北大核心 2011年第24期97-99,114,共4页
通过多维关联规则挖掘,将粒度计算(Granular Computing,GrC)和支持向量机(Support Vector Machine,SVM)有效融合,提出一种粒度支持向量机(Granular SVM,GSVM)学习方法,称为AR-GSVM。该方法用于非平衡数据处理时,不仅可以有效降低分类器... 通过多维关联规则挖掘,将粒度计算(Granular Computing,GrC)和支持向量机(Support Vector Machine,SVM)有效融合,提出一种粒度支持向量机(Granular SVM,GSVM)学习方法,称为AR-GSVM。该方法用于非平衡数据处理时,不仅可以有效降低分类器的复杂性,而且本质上可以进行并行计算以提高学习效率,同时提高分类器的泛化能力。考虑到保持数据在原始空间和特征空间的分布一致性,在AR-GSVM的基础上又提出核空间上的粒度支持向量机学习方法,称为AR-KGSVM,该方法具有更好的泛化性能。通过在UCI数据集上的实验表明:AR-GSVM和AR-KGSVM的泛化能力优于一些常用非平衡数据处理的方法。 展开更多
关键词 支持向量机 粒度计算 粒度支持向量机 关联规则 非平衡数据
在线阅读 下载PDF
针对动态非平衡数据集鲁棒的在线极端学习机 被引量:5
19
作者 张晶 冯林 《计算机研究与发展》 EI CSCD 北大核心 2015年第7期1487-1498,共12页
动态数据存在数据量动态改变,数据类别分布非平衡、不稳定等问题,这些问题成为分类的难点.针对该问题,通过对在线极端学习机模型进行拓展,提出鲁棒的权值在线极端学习机算法.为解决动态数据非平衡性,该算法借助代价敏感学习理论生成局... 动态数据存在数据量动态改变,数据类别分布非平衡、不稳定等问题,这些问题成为分类的难点.针对该问题,通过对在线极端学习机模型进行拓展,提出鲁棒的权值在线极端学习机算法.为解决动态数据非平衡性,该算法借助代价敏感学习理论生成局部动态权值矩阵,从而优化分类模型产生的经验风险.同时,算法进一步考虑动态数据由于时序性质改变造成的数据分布变化,而引入遗忘因子增强分类器对数据分布变更的敏感性.算法在不同数据分布的24个非平衡动态数据集上测试,取得了较好的效果. 展开更多
关键词 非平衡数据 极端学习机 在线极端学习机 代价敏感学习 遗忘因子
在线阅读 下载PDF
基于非平衡数据分类的单文档自动文摘方法 被引量:2
20
作者 倪维健 刘彤 +2 位作者 曾庆田 赵华 汤建渝 《计算机工程与科学》 CSCD 北大核心 2012年第4期162-166,共5页
自动文摘是自然语言处理领域的一个重要研究话题,基于机器学习的自动文摘方法则是该项研究中的一个热点。然而,自动文摘问题中的数据分布有一个重要现象,即文摘句子与非文摘句子的数量相差非常悬殊,该现象将给传统机器学习算法的应用效... 自动文摘是自然语言处理领域的一个重要研究话题,基于机器学习的自动文摘方法则是该项研究中的一个热点。然而,自动文摘问题中的数据分布有一个重要现象,即文摘句子与非文摘句子的数量相差非常悬殊,该现象将给传统机器学习算法的应用效果带来负面影响。为此,本文针对自动文摘中句子类别分布严重不平衡这一现象,以支持向量机算法为基础,设计了两种有效的处理非平衡自动文摘数据的分类方法。在第一种方法中,将传统支持向量机中正负类平衡的分类间隔转换为不平衡的分类间隔;在第二种方法中,通过将数据集进行切分,设计了一种支持向量机集成学习算法。通过在DUC2001数据集上的实验证明,本文设计的两种基于非平衡数据分类的单文档自动文摘方法显著优于基于传统分类算法的自动文摘方法。 展开更多
关键词 非平衡数据分类 自动摘要 支持向量机 分类间隔 分类器集成
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部