-
题名基于极性词典的中文微博客情感分类
被引量:29
- 1
-
-
作者
王勇
吕学强
姬连春
肖诗斌
-
机构
北京信息科技大学网络文化与数字传播北京市重点
新华网络股份有限公司
-
出处
《计算机应用与软件》
CSCD
北大核心
2014年第1期34-37,126,共5页
-
基金
国家自然科学基金项目(61271304)
国家科技支撑计划课题(2011BAH11B03)
北京市教委科技发展计划项目(KM201211232023)
-
文摘
微博客是近年来自然语言处理领域研究的热点。主要针对中文微博客中的情感分类展开研究。结合网络新词和基础情感词,同时考虑了情感词的极性情感强弱,构建四个词典,分别是基础情感词典、表情符号词典、否定词词典和双重否定词词典;在情感词典的基础上,融合汉语语言学特征和微博情感表达特征,提出一种新的基于极性词典的情感分类方法。实验准确率达到82.2%。实验结果表明,提出的方法可以对中文微博进行较好的情感分类,有一定的应用价值。
-
关键词
微博客
情感分类
词典
语言学特征
-
Keywords
Microblogging Sentiment classification Lexicons Linguistics features
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于释义扩展的术语归类研究
被引量:1
- 2
-
-
作者
贺刚
吕学强
肖诗斌
王凡
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
新华网络股份有限公司
-
出处
《中文信息学报》
CSCD
北大核心
2016年第1期204-209,共6页
-
基金
国家自然科学基金(61171159
61271304)
+1 种基金
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)
国家科技支撑计划课题(2011BAH11B03)
-
文摘
术语归类研究对领域本体构建与特定领域词表扩展有十分重要的意义。该文针对中国知网概念知识元库中存在的术语归类错误问题,研究如何提高术语归类正确率。经分析发现术语具有释义文本短、所包含的能够区分术语类别的特征词较少的特点。该文提出一种基于释义扩展的术语归类方法,该方法引入了释义扩展思想,以搜索引擎为工具,获取术语相关的互联网知识,抽取查询结果的锚文本和摘要文本等内容扩展术语释义文本;采用向量距离算法计算术语释义文本特征向量与类中心向量之间的距离,实现对术语的归类。实验得到的术语归类总体正确率为73.32%,与未经释义扩展得到的术语归类正确率相比,提高了近10%。实验结果表明,该方法对提高术语归类正确率是有效的。
-
关键词
术语归类
释义扩展
向量距离
类中心向量
-
Keywords
term categorization
paraphrase expansion
vector distance
class central vector
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-