期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于PU学习的科技领域文献集自动降噪方法研究
1
作者 陈果 杨泽雨 +1 位作者 陈晶 邵雨 《情报学报》 北大核心 2025年第4期414-424,共11页
在开展领域文献分析时,通过惯用方式构造的文献集普遍存在相当比例的非领域相关文献,降低了最终结果的可靠性,因此,有必要对其开展降噪以剔除杂质。如何实现在无人工标注的前提下开展文献集的自动降噪,是保障降噪方案的领域泛化性、实... 在开展领域文献分析时,通过惯用方式构造的文献集普遍存在相当比例的非领域相关文献,降低了最终结果的可靠性,因此,有必要对其开展降噪以剔除杂质。如何实现在无人工标注的前提下开展文献集的自动降噪,是保障降噪方案的领域泛化性、实践应用可行性的必要前提。本文在充分利用原始文献集自身特征的前提下,将领域文献集降噪任务转化为一个在自动构造正负样本集基础上的分类问题;其思路是利用文献集当中自然存在且易识别的一批绝对正样本集,开展PU(positive-unlabeled)分类学习,定位出一批可靠负样本集,以训练最终分类器。本文以人工智能、经济学和免疫学领域MAG(Microsoft Academic Graph)期刊文献集为例,开展了对比实验,比较了降噪方案中选择不同语义表示方法对最终降噪性能的影响,进一步构造了一个基准比较值,引入归一化折扣累积收益这一评价指标,从降噪收益、最终结果可用性以及文献降噪在科技领域情报分析多种任务场景下的有效性3个方面证明了本文方案的有效性。 展开更多
关键词 领域分析 领域文献集 文献计量 数据集降噪 pu学习
在线阅读 下载PDF
一种基于聚类的PU主动文本分类方法 被引量:24
2
作者 刘露 彭涛 +1 位作者 左万利 戴耀康 《软件学报》 EI CSCD 北大核心 2013年第11期2571-2583,共13页
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别... 文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM主动学习和改进的Rocchio构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度. 展开更多
关键词 pu(FIositive and unlabeled)文本分类 聚类 TFIPNDF(term FREQUENCY inverse positive negative document frequency) 主动学习 可信反例 改进的Rocchio
在线阅读 下载PDF
基于PU学习算法的虚假评论识别研究 被引量:31
3
作者 任亚峰 姬东鸿 +1 位作者 张红斌 尹兰 《计算机研究与发展》 EI CSCD 北大核心 2015年第3期639-648,共10页
识别虚假评论有着重要的理论意义与现实价值.先前工作集中于启发式策略和传统的全监督学习算法.最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚... 识别虚假评论有着重要的理论意义与现实价值.先前工作集中于启发式策略和传统的全监督学习算法.最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚假评论并不合理.容易被错误标注的样例称为间谍样例,如何确定这些样例的类别标签将直接影响分类器的性能.基于少量的真实评论和大量的未标注评论,提出一种创新的PU(positive and unlabeled)学习框架来识别虚假评论.首先,从无标注数据集中识别出少量可信度较高的负例.其次,通过整合LDA(latent Dirichlet allocation)和K-means,分别计算出多个代表性的正例和负例.接着,基于狄利克雷过程混合模型(Dirichlet process mixture model,DPMM),对所有间谍样例进行聚类,混合种群性和个体性策略来确定间谍样例的类别标签.最后,多核学习算法被用来训练最终的分类器.数值实验证实了所提算法的有效性,超过当前的基准. 展开更多
关键词 虚假评论 全监督学习 pu学习 狄利克雷过程混合模型 多核学习
在线阅读 下载PDF
基于PU学习的建议语句分类方法 被引量:2
4
作者 张璞 刘畅 李逍 《计算机应用》 CSCD 北大核心 2019年第3期639-643,共5页
建议挖掘作为一项新兴研究任务,具有重要的应用价值。针对传统建议语句分类方法所存在的规则复杂、标注工作量大、特征维度高、数据稀疏等问题,提出一种基于PU学习的建议语句分类方法。首先,使用简单规则从无标注评论集合中选择建议语... 建议挖掘作为一项新兴研究任务,具有重要的应用价值。针对传统建议语句分类方法所存在的规则复杂、标注工作量大、特征维度高、数据稀疏等问题,提出一种基于PU学习的建议语句分类方法。首先,使用简单规则从无标注评论集合中选择建议语句的正例集合;然后,为了降低特征维度,缓解数据稀疏性,在自编码神经网络(Autoencoder)特征空间中使用Spy技术划分可靠反例集合;最后,利用正例集合和可靠反例集合来训练多层感知机(MLP)对剩余的无标注样例进行分类。该方法在中文数据集上的F1值和准确率值分别达到81.98%和82.67%,实验结果表明,该方法能够有效地对建议语句进行分类,且不需要对数据进行人工标注。 展开更多
关键词 建议挖掘 建议语句分类 pu学习 自编码器 多层感知机
在线阅读 下载PDF
以标注确定性增强为导向的正类-无标签学习算法
5
作者 何玉林 何芃 +2 位作者 黄哲学 解为成 PHILIPPE Fournier-Viger 《计算机应用》 北大核心 2025年第7期2101-2112,共12页
正类-无标签学习(PUL)是在负例样本未知时,利用已知的少量正类样本和大量无标签样本训练出性能可被实际应用接受的分类器。现有的PUL算法存在共性的缺陷,即对无标签样本标注的不确定性较大,这将导致分类器学习到的分类边界不准确,并且... 正类-无标签学习(PUL)是在负例样本未知时,利用已知的少量正类样本和大量无标签样本训练出性能可被实际应用接受的分类器。现有的PUL算法存在共性的缺陷,即对无标签样本标注的不确定性较大,这将导致分类器学习到的分类边界不准确,并且限制了所训练分类器在新数据上的泛化能力。为了解决这一问题,提出一种以无标签样本标注确定性增强为导向的PUL(LCE-PUL)算法。首先,通过验证集的后验概率均值和正类样本集中心点的相似程度筛选出可靠的正类样本,并通过多轮迭代逐步精细化标注过程,以提升对无标签样本初步类别判断的准确性,从而提高无标签样本标注的确定性;其次,把这些可靠的正类样本与原始正类样本集合并,以形成新的正类样本集,之后从无标签样本集中将它剔除;然后,遍历新的无标签样本集,并利用每个样本与若干近邻点的相似程度再次筛选可靠正类样本,以更准确地推断无标签样本的潜在标签,从而减少误标注的可能性,并提升标注的确定性;最后,更新正类样本集,并把未被选中的无标签样本视为负类样本。在具有代表性的数据集上对LCE-PUL算法的可行性、合理性和有效性进行验证。随着迭代次数的增加,LCE-PUL算法的训练呈现收敛的特性,且当正类样本比例为40%、35%和30%时,LCE-PUL算法构建的分类器测试精度相较于基于特定成本函数的偏置支持向量机(BiasedSVM)算法、基于Dijkstra的PUL标签传播(LP-PUL)算法和基于标签传播的PUL(PU-LP)算法等5种代表性对比算法中最多提升了5.8、8.8和7.6个百分点。实验结果表明,LCE-PUL是一种有效处理PUL问题的机器学习算法。 展开更多
关键词 正类-无标签学习 标注确定性增强 后验概率 贝叶斯分类器 两步法
在线阅读 下载PDF
基于PUL算法及高分辨率WorldView影像的城市不透水面提取 被引量:6
6
作者 刘冉 李文楷 +2 位作者 刘小平 陈逸敏 刘珍环 《地理与地理信息科学》 CSCD 北大核心 2018年第1期40-46,130,共8页
准确提取城市不透水面对生态环境、水热循环及热岛效应等研究具有重要意义。该文利用WorldView高分辨遥感影像,提出基于PUL(Positive and Unlabeled Learning)算法的高分辨率影像城市不透水面提取方法,该方法不需要负样本数据,只需少量... 准确提取城市不透水面对生态环境、水热循环及热岛效应等研究具有重要意义。该文利用WorldView高分辨遥感影像,提出基于PUL(Positive and Unlabeled Learning)算法的高分辨率影像城市不透水面提取方法,该方法不需要负样本数据,只需少量的正样本和未标记样本即可训练分类模型。结果显示,PUL算法的提取结果优于一类支持向量机(OCSVM)以及最大熵(MAXENT)模型。使用不同正样本量时,PUL的提取结果总体精度和kappa系数均优于OCSVM和MAXENT,最高总体精度为91.27%,最高kappa系数可达0.8255,可快速、有效地从高分辨率遥感影像中提取不透水面。 展开更多
关键词 城市不透水面 positive and unlabeled learning(puL) 一类支持向量机(OCSVM) 最大熵(MAXENT)模型
在线阅读 下载PDF
DTU-PU:针对不确定数据PU学习的决策树 被引量:2
7
作者 张星 张阳 +1 位作者 刘明建 王勇 《计算机工程与应用》 CSCD 2013年第9期127-133,共7页
不确定数据的PU学习在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域普遍存在,提出了针对不确定数据PU学习的决策树算法。基于POSC45中信息增益的计算方法,引入UDT中处理连续属性的不确定数据时用到的不确定数据区间... 不确定数据的PU学习在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域普遍存在,提出了针对不确定数据PU学习的决策树算法。基于POSC45中信息增益的计算方法,引入UDT中处理连续属性的不确定数据时用到的不确定数据区间及概率分布函数的概念,提出了一种能处理连续属性的不确定数据PU学习的决策树算法DTU-PU(Decision Tree for Uncertain data with PU-learning)。在UCI数据集上的实验表明,DTU-PU具有较好的分类准确率和健壮性。 展开更多
关键词 只有正例样本和未标注样本(pu)学习 不确定 决策树
在线阅读 下载PDF
迭代式的深度PU学习与类别先验估计框架 被引量:3
8
作者 赵昀睿 许倩倩 +1 位作者 姜阳邦彦 黄庆明 《计算机学报》 EI CAS CSCD 北大核心 2022年第12期2667-2686,共20页
近年来,深度学习在诸多任务上展现了优异的性能,其一般基于海量数据并采用有监督的学习方式,依赖于完整的数据标签信息.然而在现实应用场景中,收集大量标签往往成本高昂.因此,如何利用未经充分标注的数据进行学习成为了当下的主要挑战.... 近年来,深度学习在诸多任务上展现了优异的性能,其一般基于海量数据并采用有监督的学习方式,依赖于完整的数据标签信息.然而在现实应用场景中,收集大量标签往往成本高昂.因此,如何利用未经充分标注的数据进行学习成为了当下的主要挑战.二分类问题中的从正例和无标签(Positive-Unlabeled,PU)样本数据进行学习,简称PU学习,即为其一.当前主流的PU学习算法需要准确无误的类别先验知识,但实际上类别先验通常难以获得,需要估计.已有的类别先验估计算法则主要面向传统的机器学习分类器进行设计,无法直接运用在大规模数据集上,因而不利于发挥深度学习在大规模数据集上的优势.为克服以上问题,本文提出了一个基于无监督混合模型的迭代式深度PU学习与类别先验估计框架.它利用了深度神经网络对正例和负例给出的预测分数具有不同的分布这一特性,使用双高斯成分的混合模型近似拟合预测分数的混合分布.其中,各个高斯分量分别代表了正类和负类的条件概率分布,混合权重系数代表了类别先验.结合半监督学习中的平均教师和温度锐化技术,所提框架在类别先验未知以及数据缺失负例监督的条件下,估计类别先验的同时进行PU数据上的深度学习,二者相互促进.在基准数据集MNIST、Fashion-MNIST、CIFAR-10和实际应用数据集Alzheimer上的实验结果验证了所提框架的有效性,准确率分别为94.66%、95.16%、89.98%和73.20%,该结果不仅超越了现有基于类别先验估计的PU学习算法,更可与基于真实类别先验的最前沿算法相媲美. 展开更多
关键词 pu学习 类别先验估计 半监督学习 弱监督学习 深度学习
在线阅读 下载PDF
基于静态集成PU学习数据流分类的入侵检测方法 被引量:1
9
作者 郑科鹏 冯筠 +2 位作者 孙霞 冯宏伟 曹国震 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第4期568-572,共5页
从数据流角度提出一种静态的集成PU学习数据流分类的入侵检测方法,在实验验证中通过对不同数据集指标比较,证明了算法的有效性,可在减少人工标注量的同时取得较好的检测效果。
关键词 入侵检测 pu学习 静态集成 分类分析
在线阅读 下载PDF
基于PU学习和自主训练的时间序列分类模型 被引量:1
10
作者 郭芷榕 王会青 白莹莹 《计算机工程与设计》 北大核心 2018年第9期2780-2786,共7页
通过分析PU学习(positive unlabeled learning)的数据分布情况和自主训练算法的迭代过程,针对时间序列监督学习中自主训练算法的过早停止问题,提出基于PU学习和改进的自主训练的时间序列分类模型。针对不同的数据分布,进行不同轮次的迭... 通过分析PU学习(positive unlabeled learning)的数据分布情况和自主训练算法的迭代过程,针对时间序列监督学习中自主训练算法的过早停止问题,提出基于PU学习和改进的自主训练的时间序列分类模型。针对不同的数据分布,进行不同轮次的迭代标记,将所有未标记数据进行标记,有效避免过早停止,增强模型的泛化能力。实验结果表明,该模型在PU学习时间序列分类中,具有较高的分类准确度、分类查全率和分类F1度量值。 展开更多
关键词 时间序列 半监督学习 正例和未标记数据学习 自主训练 停止标准
在线阅读 下载PDF
结合PU学习的遥感影像建筑物自动提取方法 被引量:3
11
作者 王理根 张永忠 《遥感信息》 CSCD 北大核心 2023年第3期93-99,共7页
针对目前基于机器学习的高分辨率遥感影像的地物提取方法往往需要大量标记样本训练模型的问题,提出了一种利用正样本和未标记样本学习的遥感影像建筑物自动提取方法。首先,利用面向对象的图像分析方法对遥感影像进行分割从而产生地理对... 针对目前基于机器学习的高分辨率遥感影像的地物提取方法往往需要大量标记样本训练模型的问题,提出了一种利用正样本和未标记样本学习的遥感影像建筑物自动提取方法。首先,利用面向对象的图像分析方法对遥感影像进行分割从而产生地理对象;其次,基于影像建筑物阴影特征和边缘特征提取建筑物像素,结合分割结果自动获取正样本;再次,利用已提取的正样本和剩余的未标记样本训练Bagging-PU分类器对建筑物进行提取;最后,通过基于邻域统计的二值化处理得到建筑物检测最终结果。该方法实现了训练样本标签的自动获取,不需要外部标签样本输入,就能够自动从遥感影像中提取建筑物。在ISPRS(Vaihingen)数据集上的实验表明,该方法提取结果总体精度达到0.928,F1分数为0.864。 展开更多
关键词 建筑物提取 阴影特征 面向地理对象图像分析 正例未标注学习 二值化
在线阅读 下载PDF
结合半监督与主动学习的时间序列PU问题分类
12
作者 陈娟 朱福喜 《计算机工程与应用》 CSCD 北大核心 2018年第11期116-121,共6页
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集U中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标... 目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集U中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集U中数据进行人工标注从而构建分类器的方法 OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。 展开更多
关键词 时间序列 正例和无标记样本(pu)问题 分类 主动学习 半监督学习
在线阅读 下载PDF
基于改进两步法采样策略和卷积神经网络的崩塌易发性评价 被引量:7
13
作者 邓日朗 张庆华 +4 位作者 刘伟 陈凌伟 谭建辉 高泽茂 郑先昌 《地质科技通报》 CAS CSCD 北大核心 2024年第2期186-200,共15页
机器学习在崩塌滑坡泥石流地质灾害易发性分析评价领域已得到广泛的研究性应用,非灾害样本的选取是易发性建模过程中的关键问题,传统随机抽样和手工标注方法可能存在随机性和主观性。将土质崩塌易发性评价视为正例无标记(positive and u... 机器学习在崩塌滑坡泥石流地质灾害易发性分析评价领域已得到广泛的研究性应用,非灾害样本的选取是易发性建模过程中的关键问题,传统随机抽样和手工标注方法可能存在随机性和主观性。将土质崩塌易发性评价视为正例无标记(positive and unlabeled,简称PU)学习,提出了一种结合信息量(information value,简称IV)和间谍技术(Spy)的两步卷积神经网络(convolutional neural networks,简称CNN)框架(ISpy-CNN)。以广州市黄埔区崩塌编录和15类基础环境因子,通过信息量模型筛选出部分低信息量样本;采用间谍技术训练CNN模型,从低信息量样本中识别出具有高置信度的可靠负例划分为非崩塌样本;分别基于该学习框架、传统间谍技术和随机抽样,使用支持向量机(support vector machine,简称SVM)和随机森林(random forest,简称RF)对比验证。结果表明,ISpy-CNN框架在验证集上的准确率、F1值、敏感度和特异度较随机采样分别提升了6.82%,6.82%,6.82%,8.23%,较传统Spy技术分别提升了2.86%,2.89%,2.86%,2.31%;PU学习中第2步采用CNN模型的预测精度高于RF和SVM模型;与传统Spy技术相比,增加相同数量训练样本,ISpy-CNN框架筛选的样本集表现出较高的稳定性、预测精度和增长率。本研究提出的ISpy-CNN框架能更好地辅助选取高质量非灾害样本,且崩塌易发性分区结果更符合实际的崩塌空间分布。 展开更多
关键词 崩塌 易发性评价 pu学习 间谍技术 信息量 卷积神经网络 随机森林 支持向量机
在线阅读 下载PDF
基于生成式对抗网络和正类无标签学习的知识图谱补全算法 被引量:2
14
作者 胡斌皓 张建朋 陈鸿昶 《计算机科学》 CSCD 北大核心 2024年第1期310-315,共6页
随着知识图谱的应用越来越广泛,绝大多数真实世界的知识图谱通常具有不完备性,限制了知识图谱的实际应用效果。因此,知识图谱补全成为了知识图谱领域的热点。然而,现有方法大多集中在评分函数的设计上,少部分研究关注了负样本抽样策略... 随着知识图谱的应用越来越广泛,绝大多数真实世界的知识图谱通常具有不完备性,限制了知识图谱的实际应用效果。因此,知识图谱补全成为了知识图谱领域的热点。然而,现有方法大多集中在评分函数的设计上,少部分研究关注了负样本抽样策略。在改善负样本抽样的知识图谱补全算法的研究中,基于生成式对抗网络的方法取得了不错的进展。然而,现有研究并没有关注到负样本存在假阴性标签的问题,即生成的负样本中可能包含真实的事实。为了缓解假阴性标签问题,提出了一种基于生成式对抗网络和正类无标签学习的知识图谱补全算法。该方法利用生成式对抗网络生成无标签样本,并使用正类无标签学习缓解假阴性标签问题。在基准数据集上进行的大量实验证明了所提算法的有效性与准确性。 展开更多
关键词 知识图谱补全 生成式对抗网络 正类无标签学习 负样本抽样
在线阅读 下载PDF
面向食品安全事件新闻文本的实体关系抽取研究 被引量:18
15
作者 郑丽敏 齐珊珊 +1 位作者 田立军 杨璐 《农业机械学报》 EI CAS CSCD 北大核心 2020年第7期244-253,共10页
为解决从大规模网络文本中快速、准确识别食品安全事件并进行实体关系抽取受中文复杂语法特性限制的问题,提出一种基于依存分析的面向食品安全事件新闻文本的实体关系抽取方法FSE_ERE(Entity relation extraction of food safety events... 为解决从大规模网络文本中快速、准确识别食品安全事件并进行实体关系抽取受中文复杂语法特性限制的问题,提出一种基于依存分析的面向食品安全事件新闻文本的实体关系抽取方法FSE_ERE(Entity relation extraction of food safety events,FSE_ERE)。该方法结合句子的依存分析结果和实体关系抽取模型,对非结构化中文文本进行无监督的实体关系抽取,并引入一种将文本相似度结合到PU学习(Positive and unlabeled learning)的半监督分类方法,利用改进的特征加权处理方法提高分类精度,使得FSE_ERE方法能够在高质量的食品安全事件新闻文本中完成实体关系抽取工作。实验结果表明,FSE_ERE方法在食品安全事件新闻文本数据集和多类型混合新闻文本数据集上的实体关系抽取均达到了先进的性能,F值分别达到了71.21%和67.42%,证明了FSE_ERE方法的有效性和可移植性。 展开更多
关键词 食品安全事件 实体关系抽取 依存分析 pu学习 文本相似度
在线阅读 下载PDF
结合原型网络的远程监督命名实体识别方法 被引量:1
16
作者 罗森林 林朝坤 +1 位作者 潘丽敏 吴舟婷 《北京理工大学学报》 EI CAS CSCD 北大核心 2023年第4期410-416,共7页
针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编... 针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编码正确标注实体生成类别原型表示,过滤语料中距类别原型较远的样本.实验表明,使用原型网络有效地提高了语料的标注质量,提升了模型性能. 展开更多
关键词 命名实体识别 远程监督 语料自动标注 原型网络 正例-无标注学习
在线阅读 下载PDF
针对不确定正例和未标记学习的最近邻算法(英文) 被引量:2
17
作者 潘世瑞 张阳 +1 位作者 李雪 王勇 《计算机科学与探索》 CSCD 2010年第9期769-779,共11页
研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数... 研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数据不确定信息的NNPUu算法要比仅仅考虑样本中不确定信息均值的NNPUa算法具有更好的分类能力;同时,NNPU算法在对精确数据进行分类时,比NN-d、OCC以及aPUNB算法性能更优。 展开更多
关键词 不确定数据 正例和未标记样本学习 最近邻算法
在线阅读 下载PDF
基于新型间谍技术的半监督自训练正例无标记学习 被引量:2
18
作者 李婷婷 吕佳 范伟亚 《计算机应用》 CSCD 北大核心 2019年第10期2822-2828,共7页
正例无标记(PU)学习中的间谍技术极易受噪声和离群点干扰,导致划分的可靠正例不纯,且在初始正例中随机选择间谍样本的机制极易造成划分可靠负例时效率低下,针对这些问题提出一种结合新型间谍技术和半监督自训练的PU学习框架。首先,该框... 正例无标记(PU)学习中的间谍技术极易受噪声和离群点干扰,导致划分的可靠正例不纯,且在初始正例中随机选择间谍样本的机制极易造成划分可靠负例时效率低下,针对这些问题提出一种结合新型间谍技术和半监督自训练的PU学习框架。首先,该框架对初始有标记样本进行聚类并选取离聚类中心较近的样本来取代间谍样本,这些样本能有效地映射出无标记样本的分布结构,从而更好地辅助选取可靠负例;然后对间谍技术划分后的可靠正例进行自训练提纯,采用二次训练的方式取回被误分为正例样本的可靠负例。该框架有效地解决了传统间谍技术在PU学习中分类效率易受数据分布干扰以及随机间谍样本影响的问题。通过9个标准数据集上的仿真实验结果表明,所提框架的平均分类准确率和F-值均高于基本PU学习算法(Basic_PU)、基于间谍技术的PU学习算法(SPY)、基于朴素贝叶斯的自训练PU学习算法(NBST)和基于迭代剪枝的PU学习算法(Pruning)。 展开更多
关键词 正例无标记学习 间谍技术 半监督自训练 聚类 可靠负例 可靠正例
在线阅读 下载PDF
基于虚假评论识别的微博评论情感分析的研究与应用 被引量:5
19
作者 罗昌银 但唐朋 +2 位作者 李艳红 陈昌昊 王泰 《计算机应用与软件》 北大核心 2019年第4期55-62,共8页
微博作为时下热门的社交网络平台,针对其所产生的评论文本进行情感分析已经成为人工智能领域的一个研究热点。考虑到虚假评论会降低情感分析的准确度,从评论用户的状态和行为出发,提出一种基于用户状态与行为的可信度评价体系,用于提取... 微博作为时下热门的社交网络平台,针对其所产生的评论文本进行情感分析已经成为人工智能领域的一个研究热点。考虑到虚假评论会降低情感分析的准确度,从评论用户的状态和行为出发,提出一种基于用户状态与行为的可信度评价体系,用于提取虚假评论特征。结合该特征与PU(Positive and unlabeled)学习算法进行虚假评论识别;运用SVM分类器和随机梯度下降回归模型对去除虚假评论的文本进行主观句分类与情感分析。实验表明,进行虚假评论识别后的情感分析准确率、召回率分别达到0.88和0.89,比传统方法具有更高的分析效能。 展开更多
关键词 机器学习 情感分析 自然语言处理 虚假评论识别 pu学习算法
在线阅读 下载PDF
基于随机森林的正例与未标注学习 被引量:2
20
作者 邵强 张阳 蔡晓妍 《计算机工程与设计》 CSCD 北大核心 2014年第12期4329-4334,共6页
为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生... 为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生成多个不同的PU训练集,并以其训练扩展后的POSC4.5算法,构造多棵决策树;在分类阶段,采用多数投票策略集成各决策树输出。在UCI数据集上的实验结果表明,该算法的分类性能优于偏置支持向量机算法、POS4.5算法和基于装袋技术的POSC4.5算法。 展开更多
关键词 正例与未标注学习 决策树 随机森林 集成学习 偏置支持向量机
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部