期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于集成学习的不平衡图节点分类算法
1
作者 赵华健 杨钦程 胡兆龙 《电子科技大学学报》 北大核心 2025年第3期455-463,共9页
图神经网络(GNN)被广泛应用于节点分类。然而,现有研究集中于平衡数据集,但是不平衡数据却普遍存在。传统处理不平衡数据集的方法,如重采样和重加权,往往需要进行较多的预处理或提出新的网络结构,容易引入新的偏差并导致信息丢失。该文... 图神经网络(GNN)被广泛应用于节点分类。然而,现有研究集中于平衡数据集,但是不平衡数据却普遍存在。传统处理不平衡数据集的方法,如重采样和重加权,往往需要进行较多的预处理或提出新的网络结构,容易引入新的偏差并导致信息丢失。该文提出了一种改良的装袋(Bagging)集成学习方法,对不平衡图数据集进行了k折划分,并采用GNN为基础模型对子数据集进行训练得到多个不同的子模型。最后,通过融合不同模型来提升节点的分类精度而不引入过多的预处理。基于不平衡图数据集的实验结果,表明所提出的方法在准确性和鲁棒性上优于基本分类器,此外,还发现分类精度随着k的增加先提高后降低。 展开更多
关键词 图神经网络 节点分类 图网络结构 不平衡图数据集 集成学习
在线阅读 下载PDF
不平衡数据分类的研究现状 被引量:46
2
作者 林智勇 郝志峰 杨晓伟 《计算机应用研究》 CSCD 北大核心 2008年第2期332-336,共5页
不平衡数据在实际应用中广泛存在,它们已对机器学习领域构成了一个挑战,如何有效处理不平衡数据也成为目前的一个新的研究热点。综述了这一新领域的研究现状,包括该领域最新研究内容、方法及成果。
关键词 不平衡数据 机器学习 模式分类
在线阅读 下载PDF
基于主动学习SMOTE的非均衡数据分类 被引量:23
3
作者 张永 李卓然 刘小丹 《计算机应用与软件》 CSCD 北大核心 2012年第3期91-93,162,共4页
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALS... 少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。 展开更多
关键词 主动学习 不平衡数据集 少数类样本合成过采样技术 支持向量机
在线阅读 下载PDF
SMOTE和Biased-SVM相结合的不平衡数据分类方法 被引量:16
4
作者 王和勇 樊泓坤 姚正安 《计算机科学》 CSCD 北大核心 2008年第5期174-176,共3页
针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使... 针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使用Biased-SVM方法,然后对求出的支持向量使用SMOTE向上采样方法进行采样,最后再使用Biased-SVM方法进行分类。实验结果表明,本文采用的SMOTE和Biased-SVM相结合的方法可提高不平衡数据集分类精度。 展开更多
关键词 机器学习 不平衡数据 数据分类 SMOTE Biased-SVM
在线阅读 下载PDF
非平衡数据集分类方法探讨 被引量:9
5
作者 职为梅 郭华平 +1 位作者 范明 叶阳东 《计算机科学》 CSCD 北大核心 2012年第B06期304-308,共5页
由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质... 由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质、影响非平衡数据集分类的因素、非平衡数据集分类通常采用的方法、常用的评估标准以及该问题中存在的问题与挑战。 展开更多
关键词 非平衡数据集 分类 抽样技术 代价敏感学习
在线阅读 下载PDF
用于不平衡数据分类的代价敏感超网络算法 被引量:7
6
作者 郑燕 王杨 +1 位作者 郝青峰 甘振韬 《计算机应用》 CSCD 北大核心 2014年第5期1336-1340,1377,共6页
传统的超网络模型在处理不平衡数据分类问题时,具有很大的偏向性,正类的识别率远远高于负类。为此,提出了一种代价敏感超网络Boosting集成算法。首先,将代价敏感学习引入超网络模型,提出了代价敏感的超网络模型;同时,为了使算法能够自... 传统的超网络模型在处理不平衡数据分类问题时,具有很大的偏向性,正类的识别率远远高于负类。为此,提出了一种代价敏感超网络Boosting集成算法。首先,将代价敏感学习引入超网络模型,提出了代价敏感的超网络模型;同时,为了使算法能够自适应正类的错分代价,采用Boosting算法对代价敏感超网络进行集成。代价敏感超网络能很好地修正传统的超网络在处理不平衡数据分类问题时过分偏向正类的缺陷,提高对负类的分类准确性。实验结果表明,代价敏感超网络Boosting集成算法具有处理不平衡数据分类问题的优势。 展开更多
关键词 不平衡数据分类 超网络 代价敏感学习 自适应学习
在线阅读 下载PDF
基于集成的非均衡数据分类主动学习算法 被引量:4
7
作者 李卓然 张永 《计算机应用与软件》 CSCD 北大核心 2012年第6期81-83,88,共4页
当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练。预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL(Split-Boost Active Learning),... 当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练。预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL(Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC(Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足。实验表明,提出的算法对于非均衡数据具有更高的分类精度。 展开更多
关键词 非均衡数据 集成 主动学习 分类
在线阅读 下载PDF
基于影响函数的k-近邻分类 被引量:3
8
作者 职为梅 张婷 范明 《电子与信息学报》 EI CSCD 北大核心 2015年第7期1626-1632,共7页
分类是一种监督学习方法,通过在训练数据集学习模型判定未知样本的类标号。与传统的分类思想不同,该文从影响函数的角度理解分类,即从训练样本集对未知样本的影响来判定未知样本的类标号。首先介绍基于影响函数分类的思想;其次给出影响... 分类是一种监督学习方法,通过在训练数据集学习模型判定未知样本的类标号。与传统的分类思想不同,该文从影响函数的角度理解分类,即从训练样本集对未知样本的影响来判定未知样本的类标号。首先介绍基于影响函数分类的思想;其次给出影响函数的定义,设计3种影响函数;最后基于这3种影响函数,提出基于影响函数的k-近邻(k NN)分类方法。并将该方法应用到非平衡数据集分类中。在18个UCI数据集上的实验结果表明,基于影响函数的k-近邻分类方法的分类性能好于传统的k-近邻分类方法,且对非平衡数据集分类有效。 展开更多
关键词 数据挖掘 监督学习 非平衡数据集分类 影响函数 K-近邻
在线阅读 下载PDF
不平衡数据度量指标优化的提升分类方法 被引量:2
9
作者 闫建红 《计算机工程与应用》 CSCD 北大核心 2018年第21期128-132,共5页
为提高不平衡数据的分类性能,提出了基于度量指标优化的不平衡数据Boosting算法。该算法结合不平衡数据分类性能度量标准和Boosting算法,使用不平衡数据分类性能度量指标代替原有误分率指标,分别采用带有权重的正类和负类召回率、F-meas... 为提高不平衡数据的分类性能,提出了基于度量指标优化的不平衡数据Boosting算法。该算法结合不平衡数据分类性能度量标准和Boosting算法,使用不平衡数据分类性能度量指标代替原有误分率指标,分别采用带有权重的正类和负类召回率、F-measure和G-means指标对Boosting算法进行优化,按照不同的度量指标计算Alpha值进行迭代,得到带有加权值的弱学习器组合,最后使用Boosting算法进行优化。经过实验验证,与带有权重的Boosting算法进行比较,该算法对一定数据集的AUC分类性能指标有一定提高,错误率有所下降,对F-measure和G-mean性能指标有一定的改善,说明该算法侧重提高正类分类性能,改善不平衡数据的整体分类性能。 展开更多
关键词 不平衡数据集 二分类 曲线下面积(AUC) 度量指标优化 boostING算法
在线阅读 下载PDF
不平衡样本集随机森林岩性预测方法 被引量:21
10
作者 王光宇 宋建国 +3 位作者 徐飞 张文 刘炯 陈飞旭 《石油地球物理勘探》 EI CSCD 北大核心 2021年第4期679-687,I0007,共10页
使用基于有监督机器学习分类器的岩性预测方法时,如果样本集中目标岩性样本过少,而非目标岩性样本过多,在这种不平衡样本集上训练分类器会使预测结果向非目标岩性偏倚,导致目标岩性的预测准确率较低。为了解决这一问题,提出一种针对不... 使用基于有监督机器学习分类器的岩性预测方法时,如果样本集中目标岩性样本过少,而非目标岩性样本过多,在这种不平衡样本集上训练分类器会使预测结果向非目标岩性偏倚,导致目标岩性的预测准确率较低。为了解决这一问题,提出一种针对不平衡样本集的随机森林岩性预测方法。首先,以录井岩性数据作为岩性样本标签,以井旁道地震属性和岩石弹性参数作为岩性样本特征构建岩性样本集;其次,将近邻清除算法(NM)与合成少数类过采样算法(SMOTE)相结合形成NM-SMOTE算法,对岩性样本集进行平衡化;然后,用平衡化的岩性样本集训练随机森林分类器,建立多种地震属性、弹性参数与岩性之间的非线性关系;最后,将目标探区的地震属性和弹性参数输入随机森林分类器,随机森林分类器将依据训练时得到的地震属性、弹性参数与岩性的非线性关系预测岩性。实际数据测试结果表明:训练样本集中过多的非目标岩性样本会对随机森林分类器的预测效果带来负面影响,岩性预测准确率仅为38%;使用NM-SMOTE算法对训练样本集进行平衡化后,岩性预测准确率提高至83%,获得的岩性数据体与地震资料吻合程度更高。 展开更多
关键词 岩性预测 机器学习 随机森林分类 不平衡样本集 类别平衡化技术
在线阅读 下载PDF
基于主动学习的微博数据分类 被引量:1
11
作者 刘东江 黎建辉 《计算机应用研究》 CSCD 北大核心 2018年第3期803-806,816,共5页
支持向量机(SVM)主动学习算法是主动学习中相当著名的算法,但是该算法还存在缺陷,即没有对微博数据内容多样的特点进行考虑,因此提出了一种新的基于SVM的主动学习算法。该算法通过未标注样本点与所有已标注样本点之间的余弦相似度之和... 支持向量机(SVM)主动学习算法是主动学习中相当著名的算法,但是该算法还存在缺陷,即没有对微博数据内容多样的特点进行考虑,因此提出了一种新的基于SVM的主动学习算法。该算法通过未标注样本点与所有已标注样本点之间的余弦相似度之和来度量未标注样本与所有已标注样本点之间的相似性,通过选择与已选择的所有样本不相似的样本点进行标注就可以实现对于数据多样性的充分考虑;另外,为了避免太大的余弦相似度值对于余弦相似度之和的影响,该算法通过设置阈值的方法使得被选择样本的最小余弦相似度尽可能大;除此之外,为了选择最佳的样本进行标注,除了考虑数据多样性之外,算法也对样本点和分类超平面之间的距离进行了考虑。 展开更多
关键词 微博数据 主动学习 支持向量机 分类模型 训练集
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部