-
题名半监督自训练的方面提取
被引量:8
- 1
-
-
作者
曲昭伟
吴春叶
王晓茹
-
机构
北京邮电大学网络技术研究院
北京邮电大学计算机学院
-
出处
《智能系统学报》
CSCD
北大核心
2019年第4期635-641,共7页
-
基金
国家自然科学基金项目(61672108)
-
文摘
方面提取是观点挖掘和情感分析任务中的关键一步,随着社交网络的发展,用户越来越倾向于根据评论信息来帮助进行决策,并且用户也更加关注评论的细粒度的信息,因此,从海量的网络评论数据中快速挖掘方面信息对于用户快速决策具有重要意义。大部分基于主题模型和聚类的方法在方面提取的一致性上效果并不好,传统的监督学习的方法效果虽然表现很好,但是需要大量的标注文本作为训练数据,标注文本需要消耗大量的人力成本。基于以上问题,本文提出一种基于半监督自训练的方面提取方法,充分利用现存的大量未标签的数据价值,在未标签数据集上通过词向量模型寻找方面种子词的相似词,对每个方面建立与数据集最相关的方面表示词集合,本文方法避免了大量的文本标注,充分利用未标签数据的价值,并且本文方法在中文和英文数据集上都表现出了理想的效果。
-
关键词
方面提取
词向量
半监督
自训练
未标签数据
观点挖掘
种子词
相似词
-
Keywords
aspect extraction
word vector
semi-supervised
self-training
unlabeled data
opinion mining
seed words
similar words
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-