期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于差异性评估对Co-training文本分类算法的改进 被引量:4
1
作者 唐焕玲 林正奎 鲁明羽 《电子学报》 EI CAS CSCD 北大核心 2008年第B12期138-143,共6页
Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视... Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视图的目标,转变成寻找两个既满足一定的正确性,又存在较大的差异性的两个基分类器的问题.首先利用特征评估函数建立多个特征视图,每个特征视图包含足够的信息训练生成一个基分类器,然后通过评估基分类器之间的差异性间接评估二者的独立性,选择两个满足一定的正确性和差异性比较大的基分类器协同训练.根据每个视图上采用的分类算法是否相同,提出了两种改进算法TV-SC和TV-DC.实验表明改进的TV-SC和TV-DC算法明显优于基于随机分割特征视图的Co-Rnd算法,而且TV-DC算法的分类效果要优于TV-SC算法. 展开更多
关键词 半监督文本分类 co-training 特征视图 差异性评估 标注文本 未标注文本
在线阅读 下载PDF
基于图的Co-Training网页分类 被引量:9
2
作者 侯翠琴 焦李成 《电子学报》 EI CAS CSCD 北大核心 2009年第10期2173-2180,2219,共9页
本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了... 本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的Co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越. 展开更多
关键词 半监督 co-training 归纳式 网页分类
在线阅读 下载PDF
基于Co-training的用户属性预测研究
3
作者 金玉 王霞 +2 位作者 琚生根 孙界平 刘玉娇 《四川大学学报(工程科学版)》 CSCD 北大核心 2017年第S2期179-185,共7页
针对当前基于第三方应用数据进行用户属性预测算法研究,其较少考虑应用前台实际使用时长问题,由此,本文在应用的使用频率及使用时长的基础上,构造了应用前台均使用时长特征,该特征能进一步刻画用户对应用的兴趣度;同时,为充分利用大量... 针对当前基于第三方应用数据进行用户属性预测算法研究,其较少考虑应用前台实际使用时长问题,由此,本文在应用的使用频率及使用时长的基础上,构造了应用前台均使用时长特征,该特征能进一步刻画用户对应用的兴趣度;同时,为充分利用大量未标注数据,从多角度特征对用户属性进行预测,由此本文采用了Co-training框架,该框架包含两个均由栈式自编码器与神经网络相结合的网络结构。实验过程中,对于栈式自编码算法,先利用未标注的数据对网络进行参数初始化,使得网络参数处于一个较优的位置,再利用有标注的数据,采用基于准确率的梯度下降算法,对网络参数进行更新,最终达到收敛。实验结果表明,本文算法在准确率、召回率、F1值上均有所提高。 展开更多
关键词 用户属性 co-training 栈式自编码 梯度下降算法
在线阅读 下载PDF
Co-training机器学习方法在中文组块识别中的应用 被引量:8
4
作者 刘世岳 李珩 +1 位作者 张俐 姚天顺 《中文信息学报》 CSCD 北大核心 2005年第3期73-79,共7页
采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组... 采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高,F值分别达到了85 34%和83 4 1% ,分别提高了2 13%和7 2 1%。 展开更多
关键词 计算机应用 中文信息处理 co-training算法 中文组块 分类器
在线阅读 下载PDF
基于样本条件价值改进的Co-training算法 被引量:4
5
作者 程圣军 刘家锋 +1 位作者 黄庆成 唐降龙 《自动化学报》 EI CSCD 北大核心 2013年第10期1665-1673,共9页
Co-training是一种主流的半监督学习算法.该算法中两视图下的分类器通过迭代的方式,互为对方从无标记样本集中挑选新增样本,以更新对方训练集.Co-training以分类器的后验概率输出作为新增样本的挑选策略,该策略忽略了样本对于当前分类... Co-training是一种主流的半监督学习算法.该算法中两视图下的分类器通过迭代的方式,互为对方从无标记样本集中挑选新增样本,以更新对方训练集.Co-training以分类器的后验概率输出作为新增样本的挑选策略,该策略忽略了样本对于当前分类器的价值.针对该问题,本文提出一种改进的Co-training式算法—CVCOT(Conditional value-based co-training),即采用基于样本条件价值的挑选策略来优化Co-training.通过定义无标记样本的条件价值,各视图下的分类器以样本条件价值为依据来挑选新增样本,以此更新训练集.该策略既可保证新增样本的标记可靠性,又能优先将价值较高的富信息样本补充到训练集中,可以有效地优化分类器.在UCI数据集和网页分类应用上的实验结果表明:CVCOT具有较好的分类性能和学习效率. 展开更多
关键词 机器学习 半监督学习 co-training 富信息样本 条件价值
在线阅读 下载PDF
用于在线产品评论质量分析的Co-training算法 被引量:6
6
作者 靳健 季平 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第3期289-295,共7页
在线评论广泛存在于电子商务网站平台,其中包含着客户对产品的评价及偏好.高效分析在线评论数据并满足客户需求,对许多谋求立足于竞争激烈的国际化市场的企业来说至关重要.但因在线评论的质量不一,使得如何分析在线评论的质量成为一项... 在线评论广泛存在于电子商务网站平台,其中包含着客户对产品的评价及偏好.高效分析在线评论数据并满足客户需求,对许多谋求立足于竞争激烈的国际化市场的企业来说至关重要.但因在线评论的质量不一,使得如何分析在线评论的质量成为一项重要工作.从两个方面提取特征对在线评论进行描述,并构建了一种Co-training算法来判断评论的质量.通过对比实验验证了该算法相对于单一分类算法的优势. 展开更多
关键词 数据质量 co-training算法 在线产品评论 评论质量 文本挖掘 产品设计
在线阅读 下载PDF
基于Co-training训练CRF模型的评价对象识别 被引量:1
7
作者 张彩琴 王素格 乔磊 《计算机应用与软件》 CSCD 北大核心 2013年第9期32-34,56,共4页
评价对象是指某段评论中评价词语所修饰的对象或对象的属性。为了识别评论中的评价对象,提出基于Co-training的训练CRF模型方法。该方法首先人工标注少量的原始数据集,使用Co-training方式对未标注数据进行自动识别,以扩大已标注训练数... 评价对象是指某段评论中评价词语所修饰的对象或对象的属性。为了识别评论中的评价对象,提出基于Co-training的训练CRF模型方法。该方法首先人工标注少量的原始数据集,使用Co-training方式对未标注数据进行自动识别,以扩大已标注训练数据。通过原始标注数据集和Co-training方式标注数据集,训练CRF模型。在汽车领域中,对待标注汽车评论语料中评价对象识别的精确率为67.483%,召回率为67.832%。 展开更多
关键词 CRF模型 评价对象 特征模板 co-training
在线阅读 下载PDF
基于情感标签的极性分类 被引量:4
8
作者 周孟 朱福喜 《电子学报》 EI CAS CSCD 北大核心 2017年第4期1018-1024,共7页
情感极性分析是文本挖掘中一种非常重要的技术.然而在不同领域中,很多情感极性分类系统存在分类精度低和缺少大量标注数据的缺陷.针对这些问题,提出了一种基于情感标签的极性分类方法.首先通过所有文本建立Sentiment-Topic模型,抽取出... 情感极性分析是文本挖掘中一种非常重要的技术.然而在不同领域中,很多情感极性分类系统存在分类精度低和缺少大量标注数据的缺陷.针对这些问题,提出了一种基于情感标签的极性分类方法.首先通过所有文本建立Sentiment-Topic模型,抽取出文本的情感标签;然后利用情感标签将文本划分为两个子文本,并通过Co-training算法对子文本进行分类;最后合并两个子文本的分类结果,并确定文本的情感极性.实验结果表明该方法具有较高的分类精度,而且不需要大量的分类样本. 展开更多
关键词 极性分类 情感标签 半监督学习 co-training学习
在线阅读 下载PDF
协同半监督的构造性学习方法 被引量:1
9
作者 李萍 吴涛 《计算机工程与应用》 CSCD 北大核心 2015年第3期129-132,207,共5页
利用构造性学习(CML)算法训练分类器需要大量已标记样本,然而获取大量已标记的样本较为困难。为此,提出了一种协同半监督的构造性学习算法。将已标记样本等分为三个训练集,分别使用构造性学习算法训练三个单分类器,以共同投票的方式对... 利用构造性学习(CML)算法训练分类器需要大量已标记样本,然而获取大量已标记的样本较为困难。为此,提出了一种协同半监督的构造性学习算法。将已标记样本等分为三个训练集,分别使用构造性学习算法训练三个单分类器,以共同投票的方式对未标记样本进行标记,从而依次扩充三个单分类器训练集直到不能再扩充为止。将三个训练集合并训练出最终的分类器。选取UCI数据集进行实验,结果表明,与CML算法、Tri-CML算法、NB算法及Tri-NB相比,该方法的分类更为有效。 展开更多
关键词 半监督学习 构造性机器学习 co-training算法 tri-training算法 覆盖算法
在线阅读 下载PDF
基于协同训练的意图分类优化方法 被引量:4
10
作者 邱云飞 刘聪 《现代情报》 CSSCI 2019年第5期57-63,73,共8页
[目的/意义]针对单纯使用统计自然语言处理技术对社交网络上产生的短文本数据进行意向分类时存在的特征稀疏、语义模糊和标记数据不足等问题,提出了一种融合心理语言学信息的Co-training意图分类方法。[方法/过程]首先,为丰富语义信息,... [目的/意义]针对单纯使用统计自然语言处理技术对社交网络上产生的短文本数据进行意向分类时存在的特征稀疏、语义模糊和标记数据不足等问题,提出了一种融合心理语言学信息的Co-training意图分类方法。[方法/过程]首先,为丰富语义信息,在提取文本特征的同时融合带有情感倾向的心理语言学线索对特征维度进行扩展。其次,针对标记数据有限的问题,在模型训练阶段使用半监督集成法对两种机器学习分类方法(基于事件内容表达分类器与情感事件表达分类器)进行协同训练(Co-training)。最后,采用置信度乘积的投票制进行分类。[结论/结果]实验结果表明融入心理语言学信息的语料再经过协同训练的分类效果更优。 展开更多
关键词 社交网络 意图分类 心理语言学 协同训练(co-training)
在线阅读 下载PDF
基于多视图的文本聚类改进方法 被引量:3
11
作者 王卫红 李樊 金凌剑 《浙江工业大学学报》 CAS 北大核心 2021年第1期1-8,共8页
近年来,随着自然语言处理技术的发展,聚类技术在文本处理领域中的作用愈发凸显。目前,国内多视图文本聚类的相关研究进展仍处于起步阶段,通常运用的聚类方法是基于文本的单一领域来展现特定方面的聚类情况,但越来越多的文本聚类研究从... 近年来,随着自然语言处理技术的发展,聚类技术在文本处理领域中的作用愈发凸显。目前,国内多视图文本聚类的相关研究进展仍处于起步阶段,通常运用的聚类方法是基于文本的单一领域来展现特定方面的聚类情况,但越来越多的文本聚类研究从单视图向多视图的方向转变。提出了一种以LDA主题模型和TF-WIDF特征提取算法作为特征向量组,基于谱聚类的改进型多视图半监督文本聚类方法。该方法基于半监督的协同训练(Co-training)算法,通过对协同训练算法中的文本标记方式进行改进,实现无监督性质的多视图协同训练算法。实验结果表明:改进算法相较于传统单视图文本聚类算法,很大程度上避免了单视图算法的偶然性和局限性,提高了文章整体聚类的准确度。 展开更多
关键词 文本聚类 LDA TF-WIDF co-training 谱聚类
在线阅读 下载PDF
基于生物医学文献的化学物质致病关系抽取 被引量:6
12
作者 李智恒 桂颖溢 +2 位作者 杨志豪 林鸿飞 王健 《计算机研究与发展》 EI CSCD 北大核心 2018年第1期198-206,共9页
化学物质和疾病之间的副作用关系使得化学物质-疾病关系受到更多关注.介绍一个从生物医学文献中抽取化学物质致病关系的系统——CDRExtractor.该系统首先训练一个句子级别分类器,用于抽取存在于同一个句子中的化学物质致病(chemical-ind... 化学物质和疾病之间的副作用关系使得化学物质-疾病关系受到更多关注.介绍一个从生物医学文献中抽取化学物质致病关系的系统——CDRExtractor.该系统首先训练一个句子级别分类器,用于抽取存在于同一个句子中的化学物质致病(chemical-induced disease,CID)关系.在句子级别分类器训练阶段,将特征核和图核特征看作2个独立的视图,采用基于半监督的Co-training方法,利用少量人工标注的训练集和大量未标注语料训练模型.之后,CDRExtractor利用文档级别的化学物质与疾病信息特征训练一个文档级别的分类器用于实现文档级别跨句子的CID关系抽取.最后,利用规则将2个分类器的抽取结果进行整合,生成最终的输出结果.实验结果表明:CDRExtractor在BioCreative V CDR评测任务CID子任务提供的测试集上F值达到67.72%. 展开更多
关键词 信息抽取 文本挖掘 半监督学习 co-training算法 化学物质-疾病关系
在线阅读 下载PDF
基于小规模标注语料的机器学习方法研究 被引量:7
13
作者 李庆中 苑春法 黄锦辉 《计算机应用》 CSCD 北大核心 2004年第2期56-58,共3页
文中通过讨论机器学习和自然语言处理之间的关系,论述了语料库语言工程中机器学习的困境,概述分析了应用半监督学习的现状,研究有限样本下结合未标注样本的方法和统计学习理论框架的结合前景。
关键词 机器学习 语料库 未标注样本 co-training 主动学习 统计学习理论
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部