期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于属性选择的半监督短文本分类算法 被引量:8
1
作者 蔡月红 朱倩 +1 位作者 孙萍 程显毅 《计算机应用》 CSCD 北大核心 2010年第4期1015-1018,共4页
针对海量短文本分类中的标注语料匮乏问题,提出了一种基于属性选择的半监督短文本分类算法。通过基于ReliefF评估和独立性度量的属性选择技术选出部分具有较好的属性独立关系的属性参与分类模型的学习,以弱化朴素贝叶斯模型的强独立性... 针对海量短文本分类中的标注语料匮乏问题,提出了一种基于属性选择的半监督短文本分类算法。通过基于ReliefF评估和独立性度量的属性选择技术选出部分具有较好的属性独立关系的属性参与分类模型的学习,以弱化朴素贝叶斯模型的强独立性假设条件;借助集成学习,以具有一定差异性的分类器组去估计初始值,并以多数投票策略去分类未标注语料集,以减低最大期望算法(EM)对于初始值的敏感。通过真实语料上进行的比较实验,证明了该方法能有效利用大量未标注语料提高算法的泛化能力。 展开更多
关键词 属性选择 半监督学习 短文本 文本分类 集成学习
在线阅读 下载PDF
一种基于Tri-training的半监督多标记学习文档分类算法 被引量:8
2
作者 高嘉伟 梁吉业 +1 位作者 刘杨磊 李茹 《中文信息学报》 CSCD 北大核心 2015年第1期104-110,共7页
多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本... 多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本的信息和价值并将其应用于文档多标记分类问题,该文提出了一种基于Tritraining的半监督多标记学习算法(MKSMLT),该算法首先利用k近邻算法扩充已标记样本集,结合Tri-training算法训练分类器,将多标记学习问题转化为标记排序问题。实验表明,该算法能够有效提高文档分类性能。 展开更多
关键词 半监督学习 多标记学习 文档分类
在线阅读 下载PDF
基于非参数贝叶斯模型和深度学习的古文分词研究 被引量:20
3
作者 俞敬松 魏一 +1 位作者 张永伟 杨浩 《中文信息学报》 CSCD 北大核心 2020年第6期1-8,共8页
古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困... 古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困难,限制了主流自动分词方法的应用。该文将非参数贝叶斯模型与BERT(Bidirectional Encoder Representations from Transformers)深度学习语言建模方法相结合,进行古文分词研究。在《左传》数据集上,该文提出的无监督多阶段迭代训练分词方法获得的F1值为93.28%;仅使用500句分词语料进行弱监督训练时,F1值可达95.55%,高于前人使用6/7语料(约36 000句)进行有监督训练的结果;使用相同规模训练语料时,该文方法获得的F1值为97.40%,为当前最优结果。此外,该文方法还具有较好的泛化能力,模型代码已开源发布。 展开更多
关键词 古文分词 非参数贝叶斯模型 深度学习 无指导学习 弱指导学习
在线阅读 下载PDF
半监督文本分类综述 被引量:10
4
作者 牛罡 罗爱宝 商琳 《计算机科学与探索》 CSCD 2011年第4期313-323,共11页
文本分类是人们日常工作中经常遇到的问题,也是机器学习的重要研究内容。半监督学习算法同时考虑有标记和无标记数据,能显著提升学习效果。给出了文本分类的定义和特点,介绍了传统的监督学习分类算法和评价指标,对半监督文本分类的特点... 文本分类是人们日常工作中经常遇到的问题,也是机器学习的重要研究内容。半监督学习算法同时考虑有标记和无标记数据,能显著提升学习效果。给出了文本分类的定义和特点,介绍了传统的监督学习分类算法和评价指标,对半监督文本分类的特点和基础理论进行了分析,并具体介绍了一些半监督文本分类算法,如贝叶斯方法和正则化方法。 展开更多
关键词 文本分类 半监督学习 朴素贝叶斯 流形和谱图
在线阅读 下载PDF
一种基于紧密度的半监督文本分类方法 被引量:11
5
作者 郑海清 林琛 牛军钰 《中文信息学报》 CSCD 北大核心 2007年第3期54-60,共7页
自动的文本分类已经成为一个重要的研究课题。在实际的应用情况下,很多训练语料都只有一个数目有限的正例集合,同时语料中的正例和未标注文档在数量上的分布通常也是不均衡的。因此这种文本分类任务有着不同于传统的文本分类任务的特点... 自动的文本分类已经成为一个重要的研究课题。在实际的应用情况下,很多训练语料都只有一个数目有限的正例集合,同时语料中的正例和未标注文档在数量上的分布通常也是不均衡的。因此这种文本分类任务有着不同于传统的文本分类任务的特点,传统的文本分类器如果直接应用到这类问题上,也难以取得令人满意的效果。因此,本文提出了一种基于紧密度衡量的方法来解决这一类问题。由于没有标注出来的负例文档,所以,本文先提取出一些可信的负例,然后再根据紧密度衡量对提取出的负例集合进行扩展,进而得到包含正负例的训练集合,从而提高分类器的性能。该方法不需要借助特别的外部知识库来对特征提取,因此能够比较好的应用到各个不同的分类环境中。在TREC’05(国际文本检索会议)的基因项目的文本分类任务语料上的实验表明,该算法在解决半监督文本分类问题中取得了优异的成绩。 展开更多
关键词 计算机应用 中文信息处理 文本分类 半监督机器学习 支持向量机 紧密度
在线阅读 下载PDF
融合SLDA主题模型的不均衡文本分类方法 被引量:3
6
作者 唐焕玲 刘艳红 +2 位作者 郑涵 窦全胜 鲁明羽 《计算机工程与应用》 CSCD 北大核心 2021年第12期144-154,共11页
在标签均衡分布且标注样本足够多的数据集上,监督式分类算法通常可以取得比较好的分类效果。然而,在实际应用中样本的标签分布通常是不均衡的,分类算法的分类性能就变得比较差。为此,结合SLDA(Supervised LDA)有监督主题模型,提出一种... 在标签均衡分布且标注样本足够多的数据集上,监督式分类算法通常可以取得比较好的分类效果。然而,在实际应用中样本的标签分布通常是不均衡的,分类算法的分类性能就变得比较差。为此,结合SLDA(Supervised LDA)有监督主题模型,提出一种不均衡文本分类新算法ITC-SLDA(Imbalanced Text Categorization based on Supervised LDA)。基于SLDA主题模型,建立主题与稀少类别之间的精确映射,以提高少数类的分类精度。利用SLDA模型对未标注样本进行标注,提出一种新的未标注样本的置信度计算方法,以及类别约束的采样策略,旨在有效采样未标注样本,最终降低不均衡文本的倾斜度,提升不均衡文本的分类性能。实验结果表明,所提方法能明显提高不均衡文本分类任务中的Macro-F1和G-mean值。 展开更多
关键词 有监督主题模型 半监督学习 不均衡文本 分类
在线阅读 下载PDF
结合半监督学习和LDA模型的文本分类方法 被引量:8
7
作者 韩栋 王春华 肖敏 《计算机工程与设计》 北大核心 2018年第10期3265-3271,共7页
针对样本集中具有较少标记样本情况下的文本分类问题,提出一种结合半监督学习(SSL)和隐含狄利克雷分配(LDA)主题模型的标记样本扩展方法(SSL-LDA),并整合朴素贝叶斯(NB)分类器构建一种文本分类方法。使用LDA主题模型生成主题分布,以表... 针对样本集中具有较少标记样本情况下的文本分类问题,提出一种结合半监督学习(SSL)和隐含狄利克雷分配(LDA)主题模型的标记样本扩展方法(SSL-LDA),并整合朴素贝叶斯(NB)分类器构建一种文本分类方法。使用LDA主题模型生成主题分布,以表示所有样本;根据训练集中已标记样本,通过一种简化粒子群优化(SPSO)算法获得SSL-LDA自训练模型的最优参数;基于SSL-LDA自训练模型对训练集中一些未标记样本进行标记,扩展训练集;基于扩展后的训练集,训练NB文本分类器。在3个数据集上的实验结果表明,该方法能够很好地应对标记样本较少的情况,获得了较高的分类精确度。 展开更多
关键词 文本分类 半监督学习 LDA主题模型 简化粒子群优化 标记样本扩展
在线阅读 下载PDF
一种基于Co-Training的海洋文献分类方法 被引量:1
8
作者 徐建良 姜亦宏 +1 位作者 张巍 王秋红 《中国海洋大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第2期105-110,共6页
使用有监督机器学习方法进行海洋文献的分类往往存在人工标注量太大的缺点,针对这个问题,提出利用半监督机器学习中的协同训练(Co-training)方法来实现减小人工标注量的目标。该方法从2个View分别训练不同的分类器,在此基础上,根据少量... 使用有监督机器学习方法进行海洋文献的分类往往存在人工标注量太大的缺点,针对这个问题,提出利用半监督机器学习中的协同训练(Co-training)方法来实现减小人工标注量的目标。该方法从2个View分别训练不同的分类器,在此基础上,根据少量有标注文档从大量无标注文档中获取有用信息,通过协同训练来提升2个分类器的性能,并训练出最终分类模型。实验结果表明,在人工标注仅2篇文献的条件下,该方法最终的分类性能十分接近需人工标注1 500多篇文献的有监督分类器。这说明将Co-training方法应用于海洋文献分类可以大大减小人工标注量,并有着较为良好的分类性能。 展开更多
关键词 海洋文献 文本分类 机器学习 半监督学习 协同训练
在线阅读 下载PDF
不同程度的监督机制在自动文本分类中的应用 被引量:1
9
作者 丁磊 钱云涛 《计算机应用与软件》 CSCD 北大核心 2004年第6期65-68,共4页
自动文本分类技术涉及信息检索、模式识别及机器学习等领域。本文以监督的程度为线索 ,综述了分属全监督 ,非监督以及半监督学习策略的若干方法—NBC(Na veBayesClassifier) ,FCM (FuzzyC Means) ,SOM (Self OrganizingMap) ,ssFCM (sem... 自动文本分类技术涉及信息检索、模式识别及机器学习等领域。本文以监督的程度为线索 ,综述了分属全监督 ,非监督以及半监督学习策略的若干方法—NBC(Na veBayesClassifier) ,FCM (FuzzyC Means) ,SOM (Self OrganizingMap) ,ssFCM (semi supervisedFuzzyC Means)和gSOM(guidedSelf OrganizingMap) ,并应用于文本分类中。其中 ,gSOM是我们在SOM基础上发展得到的半监督形式。并以Reuters 2 15 78为语料 ,研究了监督程度对分类效果的影响 ,从而提出了对实际文本分类工作的建议。 展开更多
关键词 监督机制 自动文本分类技术 信息检索 模式识别 机器学习 半监督学习 非监督学习
在线阅读 下载PDF
半监督的文本分类——两阶段协同学习
10
作者 郝秀兰 胡运发 《小型微型计算机系统》 CSCD 北大核心 2009年第10期1921-1926,共6页
传统的分类器仅使用有标签的数据进行训练,然而,有标签的实例通常因昂贵、耗时而难以获得,从而造成标注瓶颈问题.半监督学习通过大量的无标签数据与有标签数据相结合来创建性能良好的分类器,从而解决标注瓶颈问题.由于半监督的学习需要... 传统的分类器仅使用有标签的数据进行训练,然而,有标签的实例通常因昂贵、耗时而难以获得,从而造成标注瓶颈问题.半监督学习通过大量的无标签数据与有标签数据相结合来创建性能良好的分类器,从而解决标注瓶颈问题.由于半监督的学习需要较少的人工介入,而精确率又较高,因此无论在理论上还是实践上都具有意义.本文在对已有的半监督学习算法进行研究的基础上,针对有标签数据相当少时,无法使用统计方法进行标注置信度评价的情况,提出了基于kNN和SVM的二阶段协同学习,实验证实该方法是有效的. 展开更多
关键词 半监督学习 文本分类 KNN SVM 协同学习
在线阅读 下载PDF
融合主题模型和动态路由的小样本学习方法
11
作者 张淑芳 唐焕玲 +3 位作者 郑涵 刘孝炎 窦全胜 鲁明羽 《数据采集与处理》 CSCD 北大核心 2022年第3期586-596,共11页
针对小样本学习标注训练样本过少,导致特征表达力弱的问题,本文结合有监督主题模型(Supervised LDA,SLDA)和动态路由算法提出一种新的动态路由原型网络模型(Dynamic routing prototypical network based on SLDA,DRP-SLDA)。利用SLDA主... 针对小样本学习标注训练样本过少,导致特征表达力弱的问题,本文结合有监督主题模型(Supervised LDA,SLDA)和动态路由算法提出一种新的动态路由原型网络模型(Dynamic routing prototypical network based on SLDA,DRP-SLDA)。利用SLDA主题模型建立词汇与类别之间的语义映射,增强词的类别分布特征,从词粒度角度编码获得样本的语义表示。提出动态路由原型网络(Dynamic routing prototypical network,DR-Proto),通过提取交叉特征利用样本之间的语义关系,采用动态路由算法迭代生成具有类别代表性的动态原型,旨在解决特征表达问题。实验结果表明,DRP-SLDA模型能有效提取词的类别分布特征,且获取动态原型提高类别辨识力,从而能够有效提升小样本文本分类的泛化性能。 展开更多
关键词 小样本学习 元学习 原型网络 有监督主题模型 文本分类
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部