期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于差异性评估对Co-training文本分类算法的改进 被引量:4
1
作者 唐焕玲 林正奎 鲁明羽 《电子学报》 EI CAS CSCD 北大核心 2008年第B12期138-143,共6页
Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视... Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视图的目标,转变成寻找两个既满足一定的正确性,又存在较大的差异性的两个基分类器的问题.首先利用特征评估函数建立多个特征视图,每个特征视图包含足够的信息训练生成一个基分类器,然后通过评估基分类器之间的差异性间接评估二者的独立性,选择两个满足一定的正确性和差异性比较大的基分类器协同训练.根据每个视图上采用的分类算法是否相同,提出了两种改进算法TV-SC和TV-DC.实验表明改进的TV-SC和TV-DC算法明显优于基于随机分割特征视图的Co-Rnd算法,而且TV-DC算法的分类效果要优于TV-SC算法. 展开更多
关键词 半监督文本分类 co-training 特征视图 差异性评估 标注文本 未标注文本
在线阅读 下载PDF
基于图的Co-Training网页分类 被引量:9
2
作者 侯翠琴 焦李成 《电子学报》 EI CAS CSCD 北大核心 2009年第10期2173-2180,2219,共9页
本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了... 本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的Co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越. 展开更多
关键词 半监督 co-training 归纳式 网页分类
在线阅读 下载PDF
基于Co-training的用户属性预测研究
3
作者 金玉 王霞 +2 位作者 琚生根 孙界平 刘玉娇 《四川大学学报(工程科学版)》 CSCD 北大核心 2017年第S2期179-185,共7页
针对当前基于第三方应用数据进行用户属性预测算法研究,其较少考虑应用前台实际使用时长问题,由此,本文在应用的使用频率及使用时长的基础上,构造了应用前台均使用时长特征,该特征能进一步刻画用户对应用的兴趣度;同时,为充分利用大量... 针对当前基于第三方应用数据进行用户属性预测算法研究,其较少考虑应用前台实际使用时长问题,由此,本文在应用的使用频率及使用时长的基础上,构造了应用前台均使用时长特征,该特征能进一步刻画用户对应用的兴趣度;同时,为充分利用大量未标注数据,从多角度特征对用户属性进行预测,由此本文采用了Co-training框架,该框架包含两个均由栈式自编码器与神经网络相结合的网络结构。实验过程中,对于栈式自编码算法,先利用未标注的数据对网络进行参数初始化,使得网络参数处于一个较优的位置,再利用有标注的数据,采用基于准确率的梯度下降算法,对网络参数进行更新,最终达到收敛。实验结果表明,本文算法在准确率、召回率、F1值上均有所提高。 展开更多
关键词 用户属性 co-training 栈式自编码 梯度下降算法
在线阅读 下载PDF
Semi-supervised LIBS quantitative analysis method based on co-training regression model with selection of effective unlabeled samples 被引量:1
4
作者 Xiaomeng LI Huili LU +1 位作者 Jianhong YANG Fu CHANG 《Plasma Science and Technology》 SCIE EI CAS CSCD 2019年第3期114-124,共11页
The accuracy of laser-induced breakdown spectroscopy(LIBS) quantitative method is greatly dependent on the amount of certified standard samples used for training. However, in practical applications, only limited stand... The accuracy of laser-induced breakdown spectroscopy(LIBS) quantitative method is greatly dependent on the amount of certified standard samples used for training. However, in practical applications, only limited standard samples with labeled certified concentrations are available. A novel semi-supervised LIBS quantitative analysis method is proposed, based on co-training regression model with selection of effective unlabeled samples. The main idea of the proposed method is to obtain better regression performance by adding effective unlabeled samples in semisupervised learning. First, effective unlabeled samples are selected according to the testing samples by Euclidean metric. Two original regression models based on least squares support vector machine with different parameters are trained by the labeled samples separately, and then the effective unlabeled samples predicted by the two models are used to enlarge the training dataset based on labeling confidence estimation. The final predictions of the proposed method on the testing samples will be determined by weighted combinations of the predictions of two updated regression models. Chromium concentration analysis experiments of 23 certified standard high-alloy steel samples were carried out, in which 5 samples with labeled concentrations and 11 unlabeled samples were used to train the regression models and the remaining 7 samples were used for testing. With the numbers of effective unlabeled samples increasing, the root mean square error of the proposed method went down from 1.80% to 0.84% and the relative prediction error was reduced from 9.15% to 4.04%. 展开更多
关键词 LIBS EFFECTIVE unlabeled samples co-training SEMI-SUPERVISED LABELING CONFIDENCE estimation
在线阅读 下载PDF
基于情感标签的极性分类 被引量:4
5
作者 周孟 朱福喜 《电子学报》 EI CAS CSCD 北大核心 2017年第4期1018-1024,共7页
情感极性分析是文本挖掘中一种非常重要的技术.然而在不同领域中,很多情感极性分类系统存在分类精度低和缺少大量标注数据的缺陷.针对这些问题,提出了一种基于情感标签的极性分类方法.首先通过所有文本建立Sentiment-Topic模型,抽取出... 情感极性分析是文本挖掘中一种非常重要的技术.然而在不同领域中,很多情感极性分类系统存在分类精度低和缺少大量标注数据的缺陷.针对这些问题,提出了一种基于情感标签的极性分类方法.首先通过所有文本建立Sentiment-Topic模型,抽取出文本的情感标签;然后利用情感标签将文本划分为两个子文本,并通过Co-training算法对子文本进行分类;最后合并两个子文本的分类结果,并确定文本的情感极性.实验结果表明该方法具有较高的分类精度,而且不需要大量的分类样本. 展开更多
关键词 极性分类 情感标签 半监督学习 co-training学习
在线阅读 下载PDF
基于协同训练的意图分类优化方法 被引量:4
6
作者 邱云飞 刘聪 《现代情报》 CSSCI 2019年第5期57-63,73,共8页
[目的/意义]针对单纯使用统计自然语言处理技术对社交网络上产生的短文本数据进行意向分类时存在的特征稀疏、语义模糊和标记数据不足等问题,提出了一种融合心理语言学信息的Co-training意图分类方法。[方法/过程]首先,为丰富语义信息,... [目的/意义]针对单纯使用统计自然语言处理技术对社交网络上产生的短文本数据进行意向分类时存在的特征稀疏、语义模糊和标记数据不足等问题,提出了一种融合心理语言学信息的Co-training意图分类方法。[方法/过程]首先,为丰富语义信息,在提取文本特征的同时融合带有情感倾向的心理语言学线索对特征维度进行扩展。其次,针对标记数据有限的问题,在模型训练阶段使用半监督集成法对两种机器学习分类方法(基于事件内容表达分类器与情感事件表达分类器)进行协同训练(Co-training)。最后,采用置信度乘积的投票制进行分类。[结论/结果]实验结果表明融入心理语言学信息的语料再经过协同训练的分类效果更优。 展开更多
关键词 社交网络 意图分类 心理语言学 协同训练(co-training)
在线阅读 下载PDF
基于SVDD的半监督入侵检测研究 被引量:6
7
作者 严岳松 倪桂强 +2 位作者 缪志敏 潘志松 汪肇强 《微电子学与计算机》 CSCD 北大核心 2009年第10期128-130,共3页
提出了一种基于SVDD的半监督入侵检测算法.该算法利用少量有标记正常网络数据建立两个SVDD分类器,通过相互学习来挖掘未标记数据中的隐含信息,扩大有标记正常网络数据的数量.再利用所有已标记正常网络数据用不同的单分类方法建立多个单... 提出了一种基于SVDD的半监督入侵检测算法.该算法利用少量有标记正常网络数据建立两个SVDD分类器,通过相互学习来挖掘未标记数据中的隐含信息,扩大有标记正常网络数据的数量.再利用所有已标记正常网络数据用不同的单分类方法建立多个单类分类器,通过集成学习的方法得到最终的分类器.实验表明,该算法具有良好的识别性能. 展开更多
关键词 入侵检测 半监督学习 集成学习 co-training 单类分类器
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部