期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
利用主动学习改进遥感图像单类分类:以正类和未标记样本学习方法为例 被引量:5
1
作者 孙熠 李培军 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第1期155-163,共9页
针对单类分类方法中只用正类训练样本导致训练样本数量和质量的选择直接影响分类结果精度的问题,以正类和未标记样本学习(PUL)为例,研究如何利用主动学习选择训练样本,以求改善单类分类的精度。首先用随机选取的训练样本进行PUL分类,直... 针对单类分类方法中只用正类训练样本导致训练样本数量和质量的选择直接影响分类结果精度的问题,以正类和未标记样本学习(PUL)为例,研究如何利用主动学习选择训练样本,以求改善单类分类的精度。首先用随机选取的训练样本进行PUL分类,直到获得稳定的分类精度,然后利用主动学习选择和增加最有用(informative)的正类或负类样本,用于PUL分类。结果表明,当利用足够多的随机选取的正类样本得到稳定的分类精度后,利用主动学习选择和增加正类样本可以提高分类精度;利用主动学习的同时加入正类和负类样本,可以得到比只加入正类样本更高的分类精度;将利用主动学习得到的正类样本经相似性筛选后得到的正类样本,分类精度与直接利用主动学习选择的样本相似,但达到同样精度时需要更少的样本。因此,利用主动学习选择和增加样本可以有效地改善单类分类的精度。 展开更多
关键词 单类分类 主动学习 和未标记样本学习(PUL)
在线阅读 下载PDF
针对不确定正例和未标记学习的最近邻算法(英文) 被引量:2
2
作者 潘世瑞 张阳 +1 位作者 李雪 王勇 《计算机科学与探索》 CSCD 2010年第9期769-779,共11页
研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数... 研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数据不确定信息的NNPUu算法要比仅仅考虑样本中不确定信息均值的NNPUa算法具有更好的分类能力;同时,NNPU算法在对精确数据进行分类时,比NN-d、OCC以及aPUNB算法性能更优。 展开更多
关键词 不确定数据 正例和未标记样本学习 最近邻算法
在线阅读 下载PDF
基于随机森林的正例与未标注学习 被引量:2
3
作者 邵强 张阳 蔡晓妍 《计算机工程与设计》 CSCD 北大核心 2014年第12期4329-4334,共6页
为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生... 为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生成多个不同的PU训练集,并以其训练扩展后的POSC4.5算法,构造多棵决策树;在分类阶段,采用多数投票策略集成各决策树输出。在UCI数据集上的实验结果表明,该算法的分类性能优于偏置支持向量机算法、POS4.5算法和基于装袋技术的POSC4.5算法。 展开更多
关键词 标注学习 决策树 随机森林 集成学习 偏置支持向量机
在线阅读 下载PDF
基于新型间谍技术的半监督自训练正例无标记学习 被引量:2
4
作者 李婷婷 吕佳 范伟亚 《计算机应用》 CSCD 北大核心 2019年第10期2822-2828,共7页
正例无标记(PU)学习中的间谍技术极易受噪声和离群点干扰,导致划分的可靠正例不纯,且在初始正例中随机选择间谍样本的机制极易造成划分可靠负例时效率低下,针对这些问题提出一种结合新型间谍技术和半监督自训练的PU学习框架。首先,该框... 正例无标记(PU)学习中的间谍技术极易受噪声和离群点干扰,导致划分的可靠正例不纯,且在初始正例中随机选择间谍样本的机制极易造成划分可靠负例时效率低下,针对这些问题提出一种结合新型间谍技术和半监督自训练的PU学习框架。首先,该框架对初始有标记样本进行聚类并选取离聚类中心较近的样本来取代间谍样本,这些样本能有效地映射出无标记样本的分布结构,从而更好地辅助选取可靠负例;然后对间谍技术划分后的可靠正例进行自训练提纯,采用二次训练的方式取回被误分为正例样本的可靠负例。该框架有效地解决了传统间谍技术在PU学习中分类效率易受数据分布干扰以及随机间谍样本影响的问题。通过9个标准数据集上的仿真实验结果表明,所提框架的平均分类准确率和F-值均高于基本PU学习算法(Basic_PU)、基于间谍技术的PU学习算法(SPY)、基于朴素贝叶斯的自训练PU学习算法(NBST)和基于迭代剪枝的PU学习算法(Pruning)。 展开更多
关键词 标记学习 间谍技术 半监督自训练 聚类 可靠负 可靠
在线阅读 下载PDF
基于协作推断的正例未标注图学习算法
5
作者 陈航 梁春泉 +1 位作者 王紫 赵航 《计算机应用研究》 CSCD 北大核心 2022年第6期1694-1699,1748,共7页
针对现有正例未标注图学习方法仅提取节点表征信息、独立推断节点类别的问题,提出了一种基于协作推断分类算法,利用节点之间关联信息来帮助推断未标注节点的标签。首先,采用个性化网页排位算法计算每个节点与全体已知正例节点的关联度... 针对现有正例未标注图学习方法仅提取节点表征信息、独立推断节点类别的问题,提出了一种基于协作推断分类算法,利用节点之间关联信息来帮助推断未标注节点的标签。首先,采用个性化网页排位算法计算每个节点与全体已知正例节点的关联度。其次,采用一个图神经网络学习节点表征信息,与正例关联度联合构造一个局部分类器,预测未标注节点标签;采用另一个图神经网络获取局部节点标签之间依赖关系,与正例关联度联合构造一个关系分类器,协作更新未标注节点标签。然后,借鉴马尔可夫图神经网络方法交替迭代地训练两者,形成多跳步节点标签之间的协作推断;并且,为有效利用正例与未标注节点训练分类器,提出了混合非负无偏风险评估函数。最后,选择两者中任意一个,预测未标注节点的类别。在真实数据集上的实验结果表明,无论是识别单类别正例还是识别多类别合成正例,所述算法均表现出比其他正例未标注学习方法更佳效果,且对正例先验概率误差表现出更好的鲁棒性。 展开更多
关键词 标注图学习 协作推断 图神经网络 节点依赖
在线阅读 下载PDF
基于小样本学习的垃圾邮件过滤方法 被引量:2
6
作者 潘洁珠 周晓 +1 位作者 吴共庆 胡学钢 《计算机工程》 CAS CSCD 北大核心 2010年第21期245-247,共3页
针对客户端垃圾邮件过滤器难以获取足够训练样本的问题,提出一种基于小样本学习的垃圾邮件过滤方法,利用容易获取的未标记样本提高垃圾邮件过滤的性能。该方法使用已标记的小样本邮件实例集训练一个初始Na?veBayes分类器,以此标注未标... 针对客户端垃圾邮件过滤器难以获取足够训练样本的问题,提出一种基于小样本学习的垃圾邮件过滤方法,利用容易获取的未标记样本提高垃圾邮件过滤的性能。该方法使用已标记的小样本邮件实例集训练一个初始Na?veBayes分类器,以此标注未标记邮件,再使用所有数据训练新的分类器,利用EM算法进行迭代直至收敛。实验结果证明,当给定5个~20个已标记小样本训练邮件时,该方法可有效提高垃圾邮件过滤性能。 展开更多
关键词 样本学习 EM算法 标记数据 垃圾邮件过滤
在线阅读 下载PDF
基于半监督学习的视频检索相关反馈算法
7
作者 邓丽 金立左 费敏锐 《计算机工程》 CAS CSCD 北大核心 2011年第22期281-283,共3页
小样本问题会制约贝叶斯相关反馈算法的学习能力。为此,提出一种基于半监督学习的视频检索贝叶斯相关反馈算法,其中一个分类器用于估计视频库中每一个镜头属于目标镜头的概率,另一个半监督学习分类器用于判断用户未标记镜头是否与目标相... 小样本问题会制约贝叶斯相关反馈算法的学习能力。为此,提出一种基于半监督学习的视频检索贝叶斯相关反馈算法,其中一个分类器用于估计视频库中每一个镜头属于目标镜头的概率,另一个半监督学习分类器用于判断用户未标记镜头是否与目标相关,由此扩大贝叶斯学习器的训练数据集,提高其分类能力。实验结果表明,该算法提高了贝叶斯算法的检索性能。 展开更多
关键词 视频检索 相关反馈 半监督学习 贝叶斯学习 标记样本
在线阅读 下载PDF
DTU-PU:针对不确定数据PU学习的决策树 被引量:2
8
作者 张星 张阳 +1 位作者 刘明建 王勇 《计算机工程与应用》 CSCD 2013年第9期127-133,共7页
不确定数据的PU学习在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域普遍存在,提出了针对不确定数据PU学习的决策树算法。基于POSC45中信息增益的计算方法,引入UDT中处理连续属性的不确定数据时用到的不确定数据区间... 不确定数据的PU学习在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域普遍存在,提出了针对不确定数据PU学习的决策树算法。基于POSC45中信息增益的计算方法,引入UDT中处理连续属性的不确定数据时用到的不确定数据区间及概率分布函数的概念,提出了一种能处理连续属性的不确定数据PU学习的决策树算法DTU-PU(Decision Tree for Uncertain data with PU-learning)。在UCI数据集上的实验表明,DTU-PU具有较好的分类准确率和健壮性。 展开更多
关键词 只有样本和未标注样本(PU)学习 不确定 决策树
在线阅读 下载PDF
基于PU学习的软件故障检测研究 被引量:1
9
作者 张荷 李梅 +1 位作者 张阳 蔡晓妍 《计算机应用研究》 CSCD 北大核心 2015年第11期3324-3327,3331,共5页
针对软件故障数据中正例样本相对较少且大量样本标注困难的现实场景,已知未标注样本中包含用于建立故障检测模型的大量有用信息,提出仅用正例和未标注数据构建分类模型对软件开发过程中的故障进行检测的半监督学习方法。首先采用合成少... 针对软件故障数据中正例样本相对较少且大量样本标注困难的现实场景,已知未标注样本中包含用于建立故障检测模型的大量有用信息,提出仅用正例和未标注数据构建分类模型对软件开发过程中的故障进行检测的半监督学习方法。首先采用合成少数类过采样SMOTE算法对数据集中的正例样本进行过采样,平衡数据集中的类分布。在此基础上合理构建正例集合和未标注集合,采用POSC 4.5和Bagging算法构建软件故障决策树集成分类器。通过对NASA MDP数据库中的12个数据集进行对比实验,结果表明,仅用正例和未标注数据建模可以得到与有监督学习方法相近的软件故障检测率,且集成分类器方法比单分类器方法具有更高的检测率,未标注样本集大小的软件故障检测率同样有影响。 展开更多
关键词 软件故障检测 例和标注学习 不平衡数据 决策树 集成分类器
在线阅读 下载PDF
基于PU学习和自主训练的时间序列分类模型 被引量:1
10
作者 郭芷榕 王会青 白莹莹 《计算机工程与设计》 北大核心 2018年第9期2780-2786,共7页
通过分析PU学习(positive unlabeled learning)的数据分布情况和自主训练算法的迭代过程,针对时间序列监督学习中自主训练算法的过早停止问题,提出基于PU学习和改进的自主训练的时间序列分类模型。针对不同的数据分布,进行不同轮次的迭... 通过分析PU学习(positive unlabeled learning)的数据分布情况和自主训练算法的迭代过程,针对时间序列监督学习中自主训练算法的过早停止问题,提出基于PU学习和改进的自主训练的时间序列分类模型。针对不同的数据分布,进行不同轮次的迭代标记,将所有未标记数据进行标记,有效避免过早停止,增强模型的泛化能力。实验结果表明,该模型在PU学习时间序列分类中,具有较高的分类准确度、分类查全率和分类F1度量值。 展开更多
关键词 时间序列 半监督学习 例和标记数据学习 自主训练 停止标准
在线阅读 下载PDF
PU场景下基于迁移学习的软件缺陷预测 被引量:1
11
作者 包振栋 张阳 刘斌 《计算机工程与设计》 北大核心 2018年第3期663-667,共5页
为降低软件缺陷预测对标注样本的需求,将软件缺陷预测问题模型化为PU场景下的迁移学习问题。不对要进行软件缺陷预测的目标领域样本标注类别,只对跨工程的源领域数据集标注部分正例样本,结合数据引力方法基于样本进行迁移学习,利用贝叶... 为降低软件缺陷预测对标注样本的需求,将软件缺陷预测问题模型化为PU场景下的迁移学习问题。不对要进行软件缺陷预测的目标领域样本标注类别,只对跨工程的源领域数据集标注部分正例样本,结合数据引力方法基于样本进行迁移学习,利用贝叶斯理论在源领域缺陷数据集和目标数据集上估算概率参数,构建软件缺陷预测算法TPAODE。实验结果表明,TPAODE算法比PNB和PTAN算法具有更好的缺陷预测性能,仅需标注少量正例样本的跨项目缺陷数据,即可具有较好的软件缺陷预测性能。 展开更多
关键词 迁移学习 迁移 软件缺陷预测 标注学习 贝叶斯算法
在线阅读 下载PDF
结合PU学习的遥感影像建筑物自动提取方法 被引量:3
12
作者 王理根 张永忠 《遥感信息》 CSCD 北大核心 2023年第3期93-99,共7页
针对目前基于机器学习的高分辨率遥感影像的地物提取方法往往需要大量标记样本训练模型的问题,提出了一种利用正样本和未标记样本学习的遥感影像建筑物自动提取方法。首先,利用面向对象的图像分析方法对遥感影像进行分割从而产生地理对... 针对目前基于机器学习的高分辨率遥感影像的地物提取方法往往需要大量标记样本训练模型的问题,提出了一种利用正样本和未标记样本学习的遥感影像建筑物自动提取方法。首先,利用面向对象的图像分析方法对遥感影像进行分割从而产生地理对象;其次,基于影像建筑物阴影特征和边缘特征提取建筑物像素,结合分割结果自动获取正样本;再次,利用已提取的正样本和剩余的未标记样本训练Bagging-PU分类器对建筑物进行提取;最后,通过基于邻域统计的二值化处理得到建筑物检测最终结果。该方法实现了训练样本标签的自动获取,不需要外部标签样本输入,就能够自动从遥感影像中提取建筑物。在ISPRS(Vaihingen)数据集上的实验表明,该方法提取结果总体精度达到0.928,F1分数为0.864。 展开更多
关键词 建筑物提取 阴影特征 面向地理对象图像分析 标注学习 二值化
在线阅读 下载PDF
结合半监督与主动学习的时间序列PU问题分类
13
作者 陈娟 朱福喜 《计算机工程与应用》 CSCD 北大核心 2018年第11期116-121,共6页
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集U中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标... 目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集U中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集U中数据进行人工标注从而构建分类器的方法 OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。 展开更多
关键词 时间序列 例和标记样本(PU)问题 分类 主动学习 半监督学习
在线阅读 下载PDF
基于PBLC算法的滑坡空间易发性分析 被引量:2
14
作者 黄伟钧 李佳豪 +3 位作者 刘子越 胡晓梅 黄华兵 李文楷 《中山大学学报(自然科学版)(中英文)》 CAS CSCD 北大核心 2023年第4期54-64,共11页
滑坡空间易发性统计模型的构建需要正样本(滑坡点)和负样本(非滑坡点)两类数据,但历史观测数据仅记录了正样本,而负样本的选取容易受到正样本污染,因为没有滑坡记录的地方也可能在过去或未来发生滑坡,从而导致模型的预测精度与稳定性受... 滑坡空间易发性统计模型的构建需要正样本(滑坡点)和负样本(非滑坡点)两类数据,但历史观测数据仅记录了正样本,而负样本的选取容易受到正样本污染,因为没有滑坡记录的地方也可能在过去或未来发生滑坡,从而导致模型的预测精度与稳定性受到影响。针对此问题,将前期提出的半监督学习算法PBLC(positive and background learning with constraints)应用于滑坡空间易发性分析,探讨其解决负样本污染问题的有效性。本文以粤东地区为研究区,选择高程、坡度、坡向、剖面曲率、距离道路最短距离、距离断层线最短距离、距水系最短距离、年平均降雨量、归一化植被指数和地理坐标共11个影响因子作为环境变量。结果表明,与传统的人工神经网络模型相比,基于PBLC算法的预测概率取值范围更为合理,预测结果更加稳定,且预测精度随背景样本数量增加而提高;粤东地区的滑坡灾害高易发区集中于北部和西南区域,坡度和高程是影响该地区滑坡易发性的主要因子。结果表明,半监督学习算法PBLC可以有效解决滑坡统计建模过程负样本污染的问题,提高模型预测精度。 展开更多
关键词 滑坡易发性 带约束的样本-背景学习 人工神经网络 标记数据 粤东地区
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部