期刊文献+
共找到67篇文章
< 1 2 4 >
每页显示 20 50 100
基于集成学习的不平衡图节点分类算法
1
作者 赵华健 杨钦程 胡兆龙 《电子科技大学学报》 北大核心 2025年第3期455-463,共9页
图神经网络(GNN)被广泛应用于节点分类。然而,现有研究集中于平衡数据集,但是不平衡数据却普遍存在。传统处理不平衡数据集的方法,如重采样和重加权,往往需要进行较多的预处理或提出新的网络结构,容易引入新的偏差并导致信息丢失。该文... 图神经网络(GNN)被广泛应用于节点分类。然而,现有研究集中于平衡数据集,但是不平衡数据却普遍存在。传统处理不平衡数据集的方法,如重采样和重加权,往往需要进行较多的预处理或提出新的网络结构,容易引入新的偏差并导致信息丢失。该文提出了一种改良的装袋(Bagging)集成学习方法,对不平衡图数据集进行了k折划分,并采用GNN为基础模型对子数据集进行训练得到多个不同的子模型。最后,通过融合不同模型来提升节点的分类精度而不引入过多的预处理。基于不平衡图数据集的实验结果,表明所提出的方法在准确性和鲁棒性上优于基本分类器,此外,还发现分类精度随着k的增加先提高后降低。 展开更多
关键词 图神经网络 节点分类 图网络结构 不平衡图数据集 集成学习
在线阅读 下载PDF
不平衡数据集的自然邻域超球面过采样方法 被引量:1
2
作者 周玉 岳学震 +1 位作者 刘星 王培崇 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第12期81-95,共15页
为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻... 为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻居直至形成稳定的自然邻域;接着,根据每个样本点自然邻居的标签特点,将所有样本点划分为异常点、噪声点、多数类安全点、少数类安全点和少数类边界点5个区域;然后,对每个少数类边界点构建超球面,合并完全处于大超球面中的小超球面,形成一个超球面集合;最后,根据超球面半径大小自适应地为每个超球面分配采样比例,在超球面内生成指定个数的新样本点得到平衡数据集。结果表明,利用该方法在人工数据集和真实数据集上进行过采样形成新的样本集,以CART,SVM和KNN 3个分类器进行实验,并与其他8种常用方法进行对比分析。同时,以AUC值、F_(1)和G_(m)作为评价指标,进一步证明了该方法可以更好的对不平衡数据集进行分类。 展开更多
关键词 不平衡数据集 过采样 自然邻居 超球面 分类
在线阅读 下载PDF
一种基于欠采样的不平衡数据分类算法 被引量:21
3
作者 程险峰 李军 李雄飞 《计算机工程》 CAS CSCD 北大核心 2011年第13期147-149,共3页
针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器... 针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器性能。仿真数据及UCI数据集上的实验结果表明,该算法有效。 展开更多
关键词 机器学习 分类算法 不平衡数据 欠采样 邻域
在线阅读 下载PDF
数据挖掘中分类算法综述 被引量:63
4
作者 罗可 林睦纲 郗东妹 《计算机工程》 EI CAS CSCD 北大核心 2005年第1期3-5,11,共4页
分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据。此外,提出了评价分类器的5条标准,以... 分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据。此外,提出了评价分类器的5条标准,以便于研究者提出新的有效算法。 展开更多
关键词 数据挖掘 分类 算法 数据集
在线阅读 下载PDF
不平衡数据分类的研究现状 被引量:46
5
作者 林智勇 郝志峰 杨晓伟 《计算机应用研究》 CSCD 北大核心 2008年第2期332-336,共5页
不平衡数据在实际应用中广泛存在,它们已对机器学习领域构成了一个挑战,如何有效处理不平衡数据也成为目前的一个新的研究热点。综述了这一新领域的研究现状,包括该领域最新研究内容、方法及成果。
关键词 不平衡数据 机器学习 模式分类
在线阅读 下载PDF
SMOTE和Biased-SVM相结合的不平衡数据分类方法 被引量:16
6
作者 王和勇 樊泓坤 姚正安 《计算机科学》 CSCD 北大核心 2008年第5期174-176,共3页
针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使... 针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使用Biased-SVM方法,然后对求出的支持向量使用SMOTE向上采样方法进行采样,最后再使用Biased-SVM方法进行分类。实验结果表明,本文采用的SMOTE和Biased-SVM相结合的方法可提高不平衡数据集分类精度。 展开更多
关键词 机器学习 不平衡数据 数据分类 SMOTE Biased-SVM
在线阅读 下载PDF
非平衡数据集分类方法探讨 被引量:9
7
作者 职为梅 郭华平 +1 位作者 范明 叶阳东 《计算机科学》 CSCD 北大核心 2012年第B06期304-308,共5页
由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质... 由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质、影响非平衡数据集分类的因素、非平衡数据集分类通常采用的方法、常用的评估标准以及该问题中存在的问题与挑战。 展开更多
关键词 非平衡数据集 分类 抽样技术 代价敏感学习
在线阅读 下载PDF
半监督学习在不平衡样本集分类中的应用研究 被引量:8
8
作者 于重重 商利利 +2 位作者 谭励 涂序彦 杨扬 《计算机应用研究》 CSCD 北大核心 2013年第4期1085-1089,共5页
在对不平衡样本集进行分类时容易产生少数类样误差大的问题,而目前半监督学习中的算法多数是针对未有明显此类特征的数据集。针对一种半监督协同分类算法在该问题上的有效性进行了研究。由于进一步增强了分类器差异性,该算法在理论上对... 在对不平衡样本集进行分类时容易产生少数类样误差大的问题,而目前半监督学习中的算法多数是针对未有明显此类特征的数据集。针对一种半监督协同分类算法在该问题上的有效性进行了研究。由于进一步增强了分类器差异性,该算法在理论上对不平衡样本集具有良好的分类性能。根据该算法建立分类模型,利用其对桥梁结构健康数据进行分类实验,与Tri-Training算法的结果比较表明,该算法对不平衡样本集具有良好的适用性,从而验证了上述算法的有效性。 展开更多
关键词 不平衡样本集 半监督协同分类方法 分类器差异性 分类模型 桥梁结构健康数据
在线阅读 下载PDF
非平衡数据集分类问题研究进展 被引量:16
9
作者 高嘉伟 梁吉业 《计算机科学》 CSCD 北大核心 2008年第4期10-13,共4页
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点。文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题。
关键词 非平衡数据集 分类 算法
在线阅读 下载PDF
基于一趟聚类的不平衡数据下抽样算法 被引量:12
10
作者 蒋盛益 苗邦 余雯 《小型微型计算机系统》 CSCD 北大核心 2012年第2期232-236,共5页
抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大... 抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高. 展开更多
关键词 不平衡数据 一趟聚类 下抽样
在线阅读 下载PDF
一种基于混合策略的失衡数据集分类方法 被引量:16
11
作者 李鹏 王晓龙 +1 位作者 刘远超 王宝勋 《电子学报》 EI CAS CSCD 北大核心 2007年第11期2161-2165,共5页
提出了一种有效应用于失衡数据集的分类方法,其核心思想是从样本预处理和分类器改进两方面入手,为失衡数据集的分类问题提供全面的解决方案.首先创造性地采用动态自组织映射聚类的方法对失衡数据集进行重采样,这种采样方法,有效地解决... 提出了一种有效应用于失衡数据集的分类方法,其核心思想是从样本预处理和分类器改进两方面入手,为失衡数据集的分类问题提供全面的解决方案.首先创造性地采用动态自组织映射聚类的方法对失衡数据集进行重采样,这种采样方法,有效地解决了传统重采样的方法随机性强,人为主观干扰以及信息损失等弊端.随后借助K-近邻规则的思想,对新采集的样本进行剪枝,有效地解决了实际存在的数据混叠现象.算法对SVM的核函数进行等角变换,由此对类边界进行了校准,以适应样本类别失衡的情况.通过对三种算法的对比实验证明了算法在失衡数据集分类上的有效性.本文的算法已经在答案抽取技术中得到了成功应用,并在TREC2006国际QA评测中得到了客观充分的验证. 展开更多
关键词 失衡数据集 分类 支持向量机 动态自组织映射 K-近邻
在线阅读 下载PDF
面向不均衡数据集中少数类细分的过采样算法 被引量:20
12
作者 古平 杨炀 《计算机工程》 CAS CSCD 北大核心 2017年第2期241-247,共7页
在不均衡数据集中,少数类样本的分布相对于决策边界具有差异性,而传统的过抽样算法通常并未对差异性做不同处理。为此,提出一种面向不均衡数据集的过采样算法SD-ISMOTE。该算法根据少数类样本的k近邻分布将其细分为DANGER,AL_SAFE,SAFE ... 在不均衡数据集中,少数类样本的分布相对于决策边界具有差异性,而传统的过抽样算法通常并未对差异性做不同处理。为此,提出一种面向不均衡数据集的过采样算法SD-ISMOTE。该算法根据少数类样本的k近邻分布将其细分为DANGER,AL_SAFE,SAFE 3个集合,DANGER和AL_SAFE中的样本更靠近决策边界。借助ISMOTE思想在n维球体内随机插值,扩大两类样本的过采样范围,同时引入轮盘赌选择算法进行采样选择,避免新生成的样本冗余。实验结果表明,SD-ISMOTE算法在C4.5和朴素贝叶斯分类器下的分类性能相较于Borderline-SMOTE和ISMOTE均有不同程度的提高,可有效解决数据集中样本分布不均衡的问题。 展开更多
关键词 不均衡数据集 决策边界 分类 随机插值 少数类细分
在线阅读 下载PDF
不均衡数据集文本分类中少数类样本生成方法研究 被引量:5
13
作者 杜娟 姜丽丽 陈红丽 《计算机应用研究》 CSCD 北大核心 2009年第10期3731-3734,共4页
针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,... 针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(Knearestneighbor,KNN)及支持向量机(supportvector machine,SVM)分类器。实验结果表明此方法有效改善了少数类分类效果。 展开更多
关键词 不均衡数据集 分类 聚类 遗传算法 样本生成
在线阅读 下载PDF
用于不均衡数据集分类的KNN算法 被引量:9
14
作者 孙晓燕 张化祥 计华 《计算机工程与应用》 CSCD 北大核心 2011年第28期143-145,236,共4页
针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,... 针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,则认为是有效样本,并把这类样本加入到下轮产生少数类的过程中。在UCI数据集上进行测试,实验结果表明,该方法与KNN算法中应用随机抽样相比,在提高少数类的分类精度方面取得了较好的效果。 展开更多
关键词 不均衡数据集 K最近邻居(KNN)算法 过抽样 交叉算子
在线阅读 下载PDF
基于哈希技术和MapReduce的大数据集K-近邻算法 被引量:7
15
作者 翟俊海 张明阳 +1 位作者 王婷婷 郝璞 《计算机科学》 CSCD 北大核心 2017年第7期210-214,共5页
K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据... K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据集K-近邻分类算法。为了验证算法的有效性,在4个大数据集上进行了实验,结果显示,在保持分类能力的前提下,所提算法可以大幅度地提高K-近邻算法的效率。 展开更多
关键词 K-近邻 哈希技术 分类算法 大数据集
在线阅读 下载PDF
Bagging组合的不平衡数据分类方法 被引量:13
16
作者 秦姣龙 王蔚 《计算机工程》 CAS CSCD 北大核心 2011年第14期178-179,182,共3页
提出一种基于Bagging组合的不平衡数据分类方法CombineBagging,采用少数类过抽样算法SMOTE进行数据预处理,在此基础上利用C-SVM、径向基函数神经网络、Random Forests 3种不同的基分类器学习算法,分别对采样后的数据样本进行Bagging集... 提出一种基于Bagging组合的不平衡数据分类方法CombineBagging,采用少数类过抽样算法SMOTE进行数据预处理,在此基础上利用C-SVM、径向基函数神经网络、Random Forests 3种不同的基分类器学习算法,分别对采样后的数据样本进行Bagging集成学习,通过投票规则集成学习结果。实验结果表明,该方法能够提高少数类的分类准确率,有效处理不平衡数据分类问题。 展开更多
关键词 Bagging组合 不平衡数据分类 支持向量机 神经网络 RANDOM Forests算法
在线阅读 下载PDF
2v-SSPC-一种不平衡数据分类方法 被引量:2
17
作者 薛贞霞 刘三阳 刘万里 《系统工程与电子技术》 EI CSCD 北大核心 2008年第12期2471-2476,共6页
针对现有分类算法通常对不平衡数据挖掘表现出有偏性,即正类样本(通常是更重要的一类)的分类和预测性能差于负类样本的分类和预测性能,提出一种不平衡数据分类方法。该方法通过一个超球面将两类数据以最大分离比率分离,并且引入两个参... 针对现有分类算法通常对不平衡数据挖掘表现出有偏性,即正类样本(通常是更重要的一类)的分类和预测性能差于负类样本的分类和预测性能,提出一种不平衡数据分类方法。该方法通过一个超球面将两类数据以最大分离比率分离,并且引入两个参数来分别控制两类错分率的上界,不仅提高了不平衡数据集的分类和预测的性能,而且大大缩小了参数的选择范围。在UCI真实数据上进行了实验,并采用ROC曲线下面积作为评估指标进行比较,结果验证了该方法的有效性。 展开更多
关键词 模式识别 分类算法 不平衡数据 参数选择 超球面
在线阅读 下载PDF
数据挖掘分类问题的贪婪粗糙集约简算法 被引量:7
18
作者 张祥德 张巍 刘玉蓉 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2001年第5期580-583,共4页
基于贪婪算法和粗糙集方法 ,给出了一种处理数据挖掘分类问题的属性约简算法 :贪婪粗糙集约简算法GRSR ;在测试中得出的约简集为原始集的 1/ 3 ,表明了它是一个有效的算法·其想法是 :从初始约简集为空集开始 ,选择使分类质量最大... 基于贪婪算法和粗糙集方法 ,给出了一种处理数据挖掘分类问题的属性约简算法 :贪婪粗糙集约简算法GRSR ;在测试中得出的约简集为原始集的 1/ 3 ,表明了它是一个有效的算法·其想法是 :从初始约简集为空集开始 ,选择使分类质量最大的属性 ,将它加入约简集 ;再从余下的属性中选择使分类质量最大的属性并加入约简集 ,重复直至找到满意的约简集· 展开更多
关键词 数据挖掘 分类 属性约简 粗糙集 贫婪算法 数据库 人工智能 GRSR 模糊数学 数据约简
在线阅读 下载PDF
一种基于变精度粗糙集的C4.5决策树改进算法 被引量:12
19
作者 刘兴文 王典洪 陈分雄 《计算机应用研究》 CSCD 北大核心 2011年第10期3649-3651,共3页
针对C4.5决策树构造复杂、分类精度不高等问题,提出了一种基于变精度粗糙集的决策树构造改进算法。该算法采用近似分类质量作为节点选择属性的启发函数,与信息增益率相比,该标准更能准确地刻画属性分类的综合贡献能力,同时对噪声有一定... 针对C4.5决策树构造复杂、分类精度不高等问题,提出了一种基于变精度粗糙集的决策树构造改进算法。该算法采用近似分类质量作为节点选择属性的启发函数,与信息增益率相比,该标准更能准确地刻画属性分类的综合贡献能力,同时对噪声有一定的抑制能力。此外还针对两个或两个以上属性的近似分类质量相等的特殊情形,给出了如何选择最优的分类属性作为节点的方法。实验结果证明,该算法构造的决策树在分类精度和规模上均优于C4.5算法。 展开更多
关键词 数据挖掘 决策树 信息增益率 C4.5算法 粗糙集 变精度粗糙集 近似分类质量
在线阅读 下载PDF
基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测 被引量:7
20
作者 刘博 卢婷婷 +1 位作者 张兆宁 张健斌 《科学技术与工程》 北大核心 2021年第34期14843-14852,共10页
由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(condi... 由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(conditional generative adversarial nets,CGAN)的航班延误预测模型。首先,利用SMOTE算法对原始数据集进行上采样,并融合经过训练的CGAN生成指定样本数据集,缓解原始数据集中某些类别样本量少和数据非平衡等问题;再次,采用XGBoost模型在4种模式训练集上进行训练和超参数寻优;最后,以K近邻、支持向量机和随机森林为基准模型进行性能对比分析。经试验分析,通过分类器在融合样本集的训练,整体上可以在一定程度上提高模型的泛化性,尤其在轻度延误和中度延误类别中提升较为明显,与不采用融合方法比较,宏平均下的Precision、Recall、F_(1)-score值分别提升了0.16、0.29、0.24个百分点。实验结果表明,该方法能够有效地对航班延误非平衡数据进行建模,在保持模型整体性能较高的前提下,能够显著地提升少数类的预测能力,可以为空管、航空公司和机场等提供决策依据。 展开更多
关键词 航班延误 非平衡数据集 合成少数类过采样技术(SMOTE)算法 条件生成对抗网络 XGBoost模型 分类问题
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部