期刊文献+
共找到67篇文章
< 1 2 4 >
每页显示 20 50 100
结合图神经网络和图对比学习的半监督多图分类
1
作者 路秋霖 王慧颖 +2 位作者 朱峰冉 李全鑫 庞俊 《计算机工程与应用》 北大核心 2025年第1期368-374,共7页
多图(multi-graph,MG)是一种图袋表示模型,半监督多图分类旨在从有标记和未标记的多图中构建一个预测模型,通过高准确度预测未标记多图,在用户产品推荐、生物制药等领域有着广泛应用。现有基于机器学习的半监督多图分类主要存在两点不足... 多图(multi-graph,MG)是一种图袋表示模型,半监督多图分类旨在从有标记和未标记的多图中构建一个预测模型,通过高准确度预测未标记多图,在用户产品推荐、生物制药等领域有着广泛应用。现有基于机器学习的半监督多图分类主要存在两点不足:(1)不能进行全自动的特征选择,过于依赖参数选择。(2)对未标记多图数据的价值未充分挖掘。因此,提出一种结合图神经网络和图对比学习的半监督多图分类方法(graph neural network combining with graph contrastive learning for semi-supervised multi-graph classification,GCSS)。一方面,分别设计从局部和全局提取特征信息的模块,并引入NN协同器(neural networks collaborator,NN collaborator)完成这两个模块的协作,自适应学习数据的特征表示进行训练;另一方面,采用图对比学习(graph contrastive learning,GCL)和半监督学习(semi-supervised learning,SSL)从两个不同学习视角来充分利用未标记多图数据,降低模型对标签等的依赖。在真实数据集上的大量实验结果验证了所提出方法的预测性能均优于基线方法。 展开更多
关键词 监督分类 对比学习 神经网络 注意力机制
在线阅读 下载PDF
基于主动学习的图半监督分类算法 被引量:1
2
作者 高成 陈秀新 +1 位作者 于重重 刘宇 《计算机工程与设计》 北大核心 2015年第7期1871-1875,共5页
为抑制噪声数据对分类结果的影响,将噪声处理算法与高斯随机域算法相结合,提出一种带噪声系数的高斯随机域学习算法;针对样本集不平衡性数据分类问题,考虑主动学习在样本不平衡问题中的应用,将主动学习与图半监督算法相结合,提出一种鲁... 为抑制噪声数据对分类结果的影响,将噪声处理算法与高斯随机域算法相结合,提出一种带噪声系数的高斯随机域学习算法;针对样本集不平衡性数据分类问题,考虑主动学习在样本不平衡问题中的应用,将主动学习与图半监督算法相结合,提出一种鲁棒性强的主动学习图半监督分类算法。利用基于样本划分的主动学习方法,对正类的近邻样本集中样本与特定类样本形成的新样本集做总体散度排序,筛选出能使新样本集中总体散度最小的样本,代替正类的近邻样本集中所有样本,形成平衡类。在UCI标准数据集上的实验结果表明,与标准的图半监督算法相比,该算法的分类精度更高、泛化能力更强。 展开更多
关键词 带噪声系数的高斯随机域学习算法 样本不平衡问题 主动学习 监督算法 主动学习图半监督分类算法
在线阅读 下载PDF
面向半监督归纳式学习的自训练增强图模型
3
作者 杨瀚轩 余昭昕 +2 位作者 李子乾 徐会芳 孔庆超 《计算机学报》 北大核心 2025年第10期2263-2277,共15页
图表示学习是图数据分析的一个基础研究问题,在多种应用领域中均具有重要的研究价值。不同于一般的直推式学习,归纳式图表示学习要求对训练过程中不可见的未知节点进行推理和分类,因此具有更大的研究挑战。现有归纳式学习方法主要采用... 图表示学习是图数据分析的一个基础研究问题,在多种应用领域中均具有重要的研究价值。不同于一般的直推式学习,归纳式图表示学习要求对训练过程中不可见的未知节点进行推理和分类,因此具有更大的研究挑战。现有归纳式学习方法主要采用建立在全监督学习下的图神经网络,这些方法依赖于大量带标注的数据进行训练,因而在面对可见结构中节点标注稀缺的半监督归纳式学习问题时可能存在模型过拟合问题。本文首次提出半监督归纳式图表示学习问题,并建立了一种自训练增强的归纳式图(Self-Training Augmented Inductive Graph,STAIG)模型,该模型由一个使用图神经网络学习节点向量表示的编码器和一个通过重构节点标签和属性特征训练模型的解码器组成。针对半监督归纳式图学习问题,所提出的模型采用自训练增强方法,并在编码器中提出一种基于随机游走的节点掩码方法提高预测未知节点的泛化性。在此基础上,为了进一步应对标注稀缺问题,该模型使用解码器生成节点伪标签来增强标注信息,并通过置信度过滤机制提高伪标签的可靠性。基于基准归纳式学习图数据集的实验验证了本文提出的STAIG模型在半监督节点分类任务上取得了优于对比方法的结果,且在标注数据比例低于10%的弱监督学习设置下具有显著优势。 展开更多
关键词 归纳式表示学习 监督节点分类 变分自编码 自训练增强
在线阅读 下载PDF
基于联邦学习的主动半监督短文本分类方法 被引量:1
4
作者 孔德焱 冀振燕 +2 位作者 杨燕燕 刘洋 刘吉强 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3517-3526,共10页
短文本分类应用广泛,是当前的研究热点,但受到短文本标注数据稀缺和数据隐私保护不便集中训练的影响,分类效果不佳.针对上述问题,我们提出了基于联邦学习的主动半监督异质图注意力网络模型(Active Semi-Supervised Learning empowered H... 短文本分类应用广泛,是当前的研究热点,但受到短文本标注数据稀缺和数据隐私保护不便集中训练的影响,分类效果不佳.针对上述问题,我们提出了基于联邦学习的主动半监督异质图注意力网络模型(Active Semi-Supervised Learning empowered Heterogeneous Graph ATtention network model based on Federated learning,Fed-ASSL-HGAT),通过设计新颖的主动半监督学习(Active Semi-Supervised Learning,ASSL)框架生成高质量标注样本赋能异质图注意力网络(Heterogeneous Graph ATttention network model,HGAT),引入联邦学习对部署在不同节点的模型进行联合训练以满足数据隐私保护需求.所提出的ASSL框架通过将主动学习的多类别标注转化成二元类别标注,可大大降低标注难度;设计基于信息增益的选择策略筛选软、硬标签,以防止信息损失;通过半监督学习选择高准确率、高稳定性的正负样本打伪标签以确保标注质量.实验结果表明,所提出的ASSL-HGAT(S)在AGNews、Snippets、TagMyNews数据集上相比HGAT基线模型F1值分别提升2.45%、8.11%、7.46%.融合联邦学习所进一步提出的Fed-ASSL-HGAT模型可在不泄漏隐私数据的情况下满足性能要求. 展开更多
关键词 异质神经网络 主动学习 监督学习 联邦学习
在线阅读 下载PDF
基于主动学习和半监督学习的多类图像分类 被引量:76
5
作者 陈荣 曹永锋 孙洪 《自动化学报》 EI CSCD 北大核心 2011年第8期954-962,共9页
多数图像分类算法需要大量的训练样本对分类器模型进行训练.在实际应用中,对大量样本进行标注非常枯燥、耗时.对于一些特殊图像,如合成孔径雷达(Synthetic aperture radar,SAR)图像,对其内容判读非常困难,因此能够获得的标注样本数量非... 多数图像分类算法需要大量的训练样本对分类器模型进行训练.在实际应用中,对大量样本进行标注非常枯燥、耗时.对于一些特殊图像,如合成孔径雷达(Synthetic aperture radar,SAR)图像,对其内容判读非常困难,因此能够获得的标注样本数量非常有限.本文将基于最优标号和次优标号(Best vs second-best,BvSB)的主动学习和带约束条件的自学习(Constrained self-training,CST)引入到基于支持向量机(Support vector machine,SVM)分类器的图像分类算法中,提出了一种新的图像分类方法.通过BvSB主动学习去挖掘那些对当前分类器模型最有价值的样本进行人工标注,并借助CST半监督学习进一步利用样本集中大量的未标注样本,使得在花费较小标注代价情况下,能够获得良好的分类性能.将新方法与随机样本选择、基于熵的不确定性采样主动学习算法以及BvSB主动学习方法进行了性能比较.对3个光学图像集及1个SAR图像集分类问题的实验结果显示,新方法能够有效地减少分类器训练时所需的人工标注样本的数量,并获得较高的准确率和较好的鲁棒性. 展开更多
关键词 主动学习 监督学习 支持向量机 分类
在线阅读 下载PDF
协同主动学习和半监督方法的海冰图像分类 被引量:4
6
作者 韩彦岭 赵耀 +4 位作者 周汝雁 张云 王静 杨树瑚 洪中华 《海洋学报》 CAS CSCD 北大核心 2020年第1期123-135,共13页
海冰遥感光谱影像分类中标签样本难以获取,导致海冰分类精度难以提高,但是大量包含丰富信息的未标签样本却没有得到充分利用,针对这种情况,提出一种协同主动学习和半监督学习方法用于海冰遥感图像分类。在主动学习部分,结合最优标号和... 海冰遥感光谱影像分类中标签样本难以获取,导致海冰分类精度难以提高,但是大量包含丰富信息的未标签样本却没有得到充分利用,针对这种情况,提出一种协同主动学习和半监督学习方法用于海冰遥感图像分类。在主动学习部分,结合最优标号和次优标号、自组织映射神经网络以及增强的聚类多样性算法来选择兼具不确定性和差异性的样本参与训练;在半监督学习部分,利用直推式支持向量机,并且融合主动学习思想从大量未标签样本中选取相对可靠且包含一定信息量的样本进行迭代训练;然后协同主动学习分类结果和半监督分类结果,通过一致性验证保证所加入伪标签样本的正确性。为了验证方法的有效性,分别采用巴芬湾地区30 m分辨率的Hyperion高光谱数据(验证数据为15 m分辨率的Landsat-8数据)和辽东湾地区15 m分辨率的Landsat-8数据(验证数据为4.77 m分辨率的Google Earth数据)进行海冰分类实验。实验结果表明,相对其他传统方法,该协同分类方法可以在只有少量标签样本的情况下,充分利用大量未标签样本中包含的信息,实现快速收敛,并获得较高的分类精度(两个实验的总体精度分别为90.003%和93.288%),适用于海冰遥感图像分类。 展开更多
关键词 海冰分类 主动学习 监督学习 直推式支持向量机 协同训练
在线阅读 下载PDF
结合主动学习策略的半监督分类算法 被引量:7
7
作者 赵建华 刘宁 《计算机应用研究》 CSCD 北大核心 2015年第8期2295-2298,共4页
为了提高半监督分类的性能,提出一种基于主动学习策略的半监督分类算法SSC_AL和一种基于改进的主动学习策略的半监督分类算法SSC_IAL。通过样本密度计算,改进基于投票熵的主动学习算法,减少主动学习过程中可能产生的孤立点和冗余点;分... 为了提高半监督分类的性能,提出一种基于主动学习策略的半监督分类算法SSC_AL和一种基于改进的主动学习策略的半监督分类算法SSC_IAL。通过样本密度计算,改进基于投票熵的主动学习算法,减少主动学习过程中可能产生的孤立点和冗余点;分别使用主动学习策略和改进的主动学习策略挑选信息价值高的无标记样本作为候选样本,使用半监督学习算法对候选样本进行自动标记,减少人工干预。最后,把新增加的新标记样本添加到主动学习和半监督学习的训练集中,训练各自分类器,反复迭代。使用UCI数据集进行实验,结果表明SSC-AL和SSC-IAL算法将问题规模缩减到原来的11%和17%,SSC-IAL分类率提高了1.41%,并且算法的收敛性良好。 展开更多
关键词 监督分类 主动学习 投票熵 样本密度
在线阅读 下载PDF
一种基于EM和分类损失的半监督主动DBN学习算法 被引量:2
8
作者 赵悦 穆志纯 +1 位作者 李霞丽 潘秀琴 《小型微型计算机系统》 CSCD 北大核心 2007年第4期656-660,共5页
对于建立动态贝叶斯网络(DBN)分类模型时,带有类标注样本数据集获得困难的问题,提出一种基于EM和分类损失的半监督主动DBN学习算法.半监督学习中的EM算法可以有效利用未标注样本数据来学习DBN分类模型,但是由于迭代过程中易于加入错误... 对于建立动态贝叶斯网络(DBN)分类模型时,带有类标注样本数据集获得困难的问题,提出一种基于EM和分类损失的半监督主动DBN学习算法.半监督学习中的EM算法可以有效利用未标注样本数据来学习DBN分类模型,但是由于迭代过程中易于加入错误的样本分类信息而影响模型的准确性.基于分类损失的主动学习借鉴到EM学习中,可以自主选择有用的未标注样本来请求用户标注,当把这些样本加入训练集后能够最大程度减少模型对未标注样本分类的不确定性.实验表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度. 展开更多
关键词 动态贝叶斯网络 监督学习 主动学习 EM算法
在线阅读 下载PDF
主动学习与半监督技术相结合的海冰图像分类 被引量:2
9
作者 韩彦岭 李鹏 +2 位作者 张云 徐利军 王静 《遥感信息》 CSCD 北大核心 2019年第2期15-22,共8页
针对海冰遥感图像分类问题中标签样本获取困难、标注成本较高导致海冰分类精度难以提高的问题,提出了一种主动学习与半监督学习相结合的方式用于海冰分类。首先,利用基于不确定性准则和多样性准则进行主动学习方法,选择一批最具信息量... 针对海冰遥感图像分类问题中标签样本获取困难、标注成本较高导致海冰分类精度难以提高的问题,提出了一种主动学习与半监督学习相结合的方式用于海冰分类。首先,利用基于不确定性准则和多样性准则进行主动学习方法,选择一批最具信息量的标签样本建立标签样本集;其次,充分利用大量的未标签样本信息,并融合主动学习采样的思想选出部分具有代表性且分布在支持向量周边的半标签样本,建立半监督分类模型;最后,将主动学习方法和直推式支持向量机相结合构建分类模型实现海冰图像分类。实验结果表明,相对于其他方法,该方法在只有少量标签样本的情况下,可以获得更高的分类精度,该方式可有效解决遥感海冰分类问题。 展开更多
关键词 海冰 主动学习 监督学习 直推式支持向量机 分类
在线阅读 下载PDF
融合主动学习的高光谱图像半监督分类 被引量:3
10
作者 王立国 李阳 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2017年第8期1322-1327,共6页
针对高光谱数据维数高、有标签样本少等特点,采用半监督分类利用未标记样本信息提高高光谱图像分类精度。主动学习研究训练样本的选择方法,以少量的标记样本得到尽可能好的泛化能力。本文提出了一种结合主动学习算法的半监督分类算法。... 针对高光谱数据维数高、有标签样本少等特点,采用半监督分类利用未标记样本信息提高高光谱图像分类精度。主动学习研究训练样本的选择方法,以少量的标记样本得到尽可能好的泛化能力。本文提出了一种结合主动学习算法的半监督分类算法。该方法使用支持向量机作为基本的学习模型,通过主动学习方法选取训练样本,以伪标记的形式加入到分类器的训练中,结合验证分类器迭代选出置信度较高的伪标记样本,通过差分进化算法交叉变异伪标记样本扩充标记样本群。在两个数据集上进行仿真实验,与传统分类算法相比,所提算法的总体分类精度分别提高了1.97%、0.49%,表明该算法能够有效地提升主动学习样本选择的效率,在有限带标记样本情况下提高了分类器精度。 展开更多
关键词 高光谱 监督分类 支持向量机 主动学习 差分进化
在线阅读 下载PDF
基于半监督主动学习的菊花表型分类研究 被引量:5
11
作者 袁培森 任守纲 +1 位作者 翟肇裕 徐焕良 《农业机械学报》 EI CAS CSCD 北大核心 2018年第9期27-34,共8页
鉴于人工和专家分类模式的局限性,基于表型的菊花分类存在效率低下的问题。本文采用基于半监督主动学习技术,在已分类菊花数据的基础上,利用未标号菊花样本数据提供的信息,建立了菊花表型分类模型,提升了分类质量和效率。该模型可以不... 鉴于人工和专家分类模式的局限性,基于表型的菊花分类存在效率低下的问题。本文采用基于半监督主动学习技术,在已分类菊花数据的基础上,利用未标号菊花样本数据提供的信息,建立了菊花表型分类模型,提升了分类质量和效率。该模型可以不依赖外界交互,利用未标号样本来自动提升菊花分类的质量。为了训练学习模型,本文收集了菊花的表型特征数据,标注了菊花表型类别,并研究了菊花分类属性特征的编码技术。在此数据集上,采用基于图标号传播的半监督学习技术对未标号的菊花数据进行建模,为了提升半监督分类的有效性,在标号传播的基础上使用主动学习技术,采用熵最大策略来选择难以识别的样本,以改进分类质量。在该数据集上进行了试验验证,并进行了试验对比和分析,试验结果表明,本文方法能够较好地利用未标号菊花样本提升分类的精度,随着标号百分比从6.25%升至23%,识别精度达到0.7以上,标号百分比在81.25%时,平均识别精度和召回率分别达到0.91和0.88。 展开更多
关键词 菊花表型分类 监督学习 模型 one-hot编码 主动学习 熵最大化
在线阅读 下载PDF
结合主动学习与标签传递算法的高光谱图像分类 被引量:3
12
作者 王立国 商卉 石瑶 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2020年第5期731-737,共7页
与自然真彩色图像相比,高光谱图像维数高、有标记的数据少。针对传统的分类方法主要利用光谱特征忽略了空间信息的提取的问题,本文提出了一种基于空-谱信息融合的主动学习与标签传递算法相结合的分类框架。基于概率模型的BT(Breaking Ti... 与自然真彩色图像相比,高光谱图像维数高、有标记的数据少。针对传统的分类方法主要利用光谱特征忽略了空间信息的提取的问题,本文提出了一种基于空-谱信息融合的主动学习与标签传递算法相结合的分类框架。基于概率模型的BT(Breaking Ties,BT)策略筛选出具有代表性的未标记样本,作为新的训练样本扩充训练样本集。标签传递算法推测未标记样本真正的类别信息,由分类器进行重新训练。实验表明:在有标签样本不充足的情况下,Indian Pines数据集分类精度达到76.89%,帕维亚大学数据集分类精度为95.23%,优于现有的几种分类算法。在标签样本稀缺的情况下,本文算法可以利用半监督学习与主动学习相结合的方法有效提高分类精度。 展开更多
关键词 高光谱 监督分类 空谱信息 主动学习 标签传递 主成分分析 GABOR滤波 支持向量机
在线阅读 下载PDF
基于主动半监督深度学习的归纳一致性预测算法及其应用 被引量:2
13
作者 李国强 龚宁 《高技术通讯》 CAS 2021年第5期500-508,共9页
在图像分类中,图像标签的获取是昂贵的和费时的。为了减少标注成本,提出了一种主动半监督深度学习的归纳一致性预测算法(ICP-ASSDL),该算法使用一种新颖的奇异值度量来产生可靠的置信度。ICP-ASSDL用4个标准(信息质量、边缘抽样、多样... 在图像分类中,图像标签的获取是昂贵的和费时的。为了减少标注成本,提出了一种主动半监督深度学习的归纳一致性预测算法(ICP-ASSDL),该算法使用一种新颖的奇异值度量来产生可靠的置信度。ICP-ASSDL用4个标准(信息质量、边缘抽样、多样性和面向类别度量)从未标记池中选取实例来提高分类性能。面向类别度量采用蒙德里安一致性预测算法来减弱非平衡问题的影响。最后通过4个图像数据集(MNIST、FashionMNIST、SVHN和CIFAR10)进行了实验,实验结果表明,相对于其他方法,本文所提出的方法在只有少量标签样本的情况下,可以获得更高的分类精度。 展开更多
关键词 主动学习 监督学习 分类 一致性预测器 深度学习
在线阅读 下载PDF
基于主动半监督学习的智能电网信调日志分类 被引量:4
14
作者 年素磊 黎铭 +3 位作者 杜科 姜远 林为民 郭经红 《计算机科学》 CSCD 北大核心 2012年第12期167-170,207,共5页
智能电网的通信调度系统是智能电网正常运行的保证。为保证系统正确运行,值班员需要对电网信调系统的运行状态、突发事件、事故故障以及相应的处理方案进行记录。为帮助管理者及时了解智能电网信息调度系统的工作情况,发现潜在安全隐患... 智能电网的通信调度系统是智能电网正常运行的保证。为保证系统正确运行,值班员需要对电网信调系统的运行状态、突发事件、事故故障以及相应的处理方案进行记录。为帮助管理者及时了解智能电网信息调度系统的工作情况,发现潜在安全隐患,通常需要为这些日志数据标注其日志类型,以方便管理者查询和检索,因此,要求智能电网信息调度系统能够自动对每天记录的各种日志根据管理需要进行分类。对大量根据值班员自己理解和习惯撰写的日志进行自动分类,需要对由信息调度专家提供类型标注的大量日志数据进行学习。然而因人工阅读标注耗时、耗力,故在实际应用中往往仅能提供少量的标注,从而影响自动分类的性能。针对这一问题,提出了基于主动半监督学习的日志自动分类方法,该方法一方面利用主动学习找出对学习最有帮助的日志,获得其类型标注;另一方面,通过利用大量缺乏类型标注的日志进一步提升学习性能。在国家电网的智能电网信息调度日志数据上的应用结果表明,基于主动半监督学习,可获得比现有方法更优的日志自动分类性能。 展开更多
关键词 数据挖掘 机器学习 主动监督学习 信调日志分类 智能电网
在线阅读 下载PDF
基于主动学习策略的半监督聚类算法研究 被引量:1
15
作者 芦世丹 崔荣一 《计算机应用研究》 CSCD 北大核心 2013年第6期1718-1720,共3页
提出一种选择最富信息数据并予以标记的基于主动学习策略的半监督聚类算法。首先,采用传统K-均值聚类算法对数据集进行粗聚类;其次,根据粗聚类结果计算出每个数据隶属于每个类簇的隶属度,筛选出满足最大与次大隶属度差值小于阈值的候选... 提出一种选择最富信息数据并予以标记的基于主动学习策略的半监督聚类算法。首先,采用传统K-均值聚类算法对数据集进行粗聚类;其次,根据粗聚类结果计算出每个数据隶属于每个类簇的隶属度,筛选出满足最大与次大隶属度差值小于阈值的候选数据,并从中选择差值较小的数据作为最富信息的数据进行标记;最后,将候选数据集合中未标记数据分组到与每类已被标记数据平均距离最小的类簇中。实验表明,提出的主动学习策略能够很好地学习到最富信息数据,基于该学习策略的半监督聚类算法在测试不同数据集时均获得了较高的准确率。 展开更多
关键词 K-均值算法 主动学习策略 监督学习 聚类
在线阅读 下载PDF
结合半监督与主动学习的时间序列PU问题分类
16
作者 陈娟 朱福喜 《计算机工程与应用》 CSCD 北大核心 2018年第11期116-121,共6页
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集U中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标... 目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集U中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集U中数据进行人工标注从而构建分类器的方法 OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。 展开更多
关键词 时间序列 正例和无标记样本(PU)问题 分类 主动学习 监督学习
在线阅读 下载PDF
基于自训练EM算法的半监督文本分类 被引量:17
17
作者 张博锋 白冰 苏金树 《国防科技大学学报》 EI CAS CSCD 北大核心 2007年第6期65-69,共5页
为了提高计算效率,提出基于自训练的改进EM算法STEM。在每步迭代的E-step中,将中间分类器最有把握对其类别进行预测的未标注样本转移至标注样本集,并应用到M-step中进行下一个中间分类器的训练,从而引入了利用中间结果的自训练机制。文... 为了提高计算效率,提出基于自训练的改进EM算法STEM。在每步迭代的E-step中,将中间分类器最有把握对其类别进行预测的未标注样本转移至标注样本集,并应用到M-step中进行下一个中间分类器的训练,从而引入了利用中间结果的自训练机制。文本分类实验表明STEM算法在大部分情况下的分类准确性都高于EM,并通过减少迭代提高了分类器学习的计算效率。 展开更多
关键词 监督学习 EM算法 自训练 文本分类 NAIVE BAYES
在线阅读 下载PDF
一种半监督局部线性嵌入算法的文本分类方法 被引量:9
18
作者 夏士雄 李佑文 周勇 《计算机应用研究》 CSCD 北大核心 2010年第1期64-67,共4页
针对局部线性嵌入算法(LLE)应用于非监督机器学习中的缺陷,将该算法与半监督思想相结合,提出了一种基于半监督局部线性嵌入算法的文本分类方法。通过使用文本数据的流形结构和少量的标签样本,将LLE中的距离矩阵采用分段形式进行调整;使... 针对局部线性嵌入算法(LLE)应用于非监督机器学习中的缺陷,将该算法与半监督思想相结合,提出了一种基于半监督局部线性嵌入算法的文本分类方法。通过使用文本数据的流形结构和少量的标签样本,将LLE中的距离矩阵采用分段形式进行调整;使用调整后的矩阵进行线性重建从而实现数据降维;针对半监督LLE中使用欧氏距离的缺点,采用高斯核函数将欧氏距离进行变换,并用新的核距离取代欧氏距离,提出了基于核的半监督局部线性嵌入算法;最后通过仿真实验验证了改进算法的有效性。 展开更多
关键词 局部线性嵌入算法 监督学习 流形学习 文本分类 核函数
在线阅读 下载PDF
基于改进FixMatch算法的半监督番茄病虫害识别 被引量:2
19
作者 严露露 朱赞彬 +2 位作者 冯世杰 龚守富 程浈浈 《江苏农业科学》 北大核心 2024年第20期244-250,共7页
为了快速准确地识别番茄叶片病虫害,从而提升番茄产量和品质,在有限设备资源条件下实现番茄病虫害的精准防治,针对以往番茄病虫害识别算法数据标注成本过高的问题,提出一种基于改进FixMatch算法的半监督番茄病害图像识别方法。首先,对... 为了快速准确地识别番茄叶片病虫害,从而提升番茄产量和品质,在有限设备资源条件下实现番茄病虫害的精准防治,针对以往番茄病虫害识别算法数据标注成本过高的问题,提出一种基于改进FixMatch算法的半监督番茄病害图像识别方法。首先,对真实场景采集的番茄病虫害数据进行深入分析,挖掘出数据集规模不明、类间数据不均衡性较为严重的特性,在原始FixMatch算法的基础上,引入k-means聚类算法筛选出代表性数据进行标注,以提高标注数据的性价比。其次,设计一种自适应伪标签数据补充模块,使得在半监督分类算法迭代过程中,自适应地调整不同类别的伪标签判定阈值,并且引入Focal Loss,以保证模型免受类别不均衡的影响。试验结果表明,在kaggle提供的公开数据集New Plant Diseases Dataset的10种番茄病害上,本研究提出的半监督番茄病虫害识别算法仅使用2000张(约训练数据的10%)的标注数据进行模型训练,在测试集上的准确率可达到98.16%,比原始FixMatch算法提高了1.34百分点。经过对比试验表明,本研究提出的基于k-means聚类算法的代表数据预选模块比随机挑选的准确率提高23.92百分点,基于自适应阈值截断的伪标签判断模块在困难样本类别上比原始FixMatch算法高出5.00百分点。综上所述,本研究所提出的基于改进FixMatch算法的半监督番茄病虫害识别算法能够提高半监督图像识别任务的准确率,对于真实场景下如何挑选数据标注以及如何制定训练过程中的伪标签监督策略都有着积极的参考意义,降低了番茄病虫害识别模型的数据标注成本,助力智慧农业发展。 展开更多
关键词 番茄 病虫害 改进FixMatch算法 监督学习 分类
在线阅读 下载PDF
基于拉普拉斯回归主动学习的大数据流分类算法 被引量:8
20
作者 杜恒 杨俊成 《计算机应用与软件》 北大核心 2019年第12期273-281,共9页
实时数据流中标记样本所占比例较小,并且存在大量的噪声数据和冗余数据,导致数据流的实时分类准确率较低。针对这种情况,提出基于拉普拉斯回归主动学习的大数据流分类算法。为分类器设计相对支持度差异函数作为分类的决策方法,通过阈值... 实时数据流中标记样本所占比例较小,并且存在大量的噪声数据和冗余数据,导致数据流的实时分类准确率较低。针对这种情况,提出基于拉普拉斯回归主动学习的大数据流分类算法。为分类器设计相对支持度差异函数作为分类的决策方法,通过阈值判断当前数据流的标记样本量。设计基于约束规则的半监督主动学习算法,从无标记样本集选择信息量最丰富的样本。采用拉普拉斯正则最小二乘回归模型作为半监督学习的回归模型,迭代地扩展数据流的标记样本量。仿真结果表明,该算法有效地提高了数据流的分类准确率,并且满足实时性的需求。 展开更多
关键词 大数据 实时数据流 拉普拉斯正则最小二乘 分类算法 监督学习 主动学习
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部