-
题名基于改进K-means聚类的在线新闻评论主题抽取
被引量:17
- 1
-
-
作者
夏火松
李保国
杨培
-
机构
武汉纺织大学管理学院
-
出处
《情报学报》
CSSCI
北大核心
2016年第1期55-65,共11页
-
基金
国家自然科学基金项目(71171153)"24小时知识工厂的知识共享活动模型与服务支持系统研究"的研究成果之一
-
文摘
新闻评论反映民众对新闻事件的观点,抽取评论主题,对用户、企业、政府都具有很高的情报分析价值。基于K-means聚类的主题挖掘算法应用到新闻评论中时,在欧氏距离下,如果使用最大距离法选初始点则会聚成一大类。为解决这个问题,论文首先在预处理阶段增加同义词替换和自动构建领域词典的部分,改善了数据稀疏性和高维性。其次,提出了K-means改进算法,用隐藏长评论-最大距离法选初始点,解决了初始点多为离群点的问题,用方差拐点确定K值,解决了预先设定聚类个数的问题,实验发现了先用BW权重选初始点,再用新提出的BW-DF权重聚类的效果最好。最后,将改进算法与原算法的聚类效果比较,实验结果表明,改进算法准确率高,抽取新闻评论主题的效果明显。
-
关键词
在线新闻评论
K—means聚类改进
主题抽取
同义词替换
分词领域词典
-
Keywords
online news comments, Improved K-means clustering algorithm, topic extraction, synonym substitution, field dictionary
-
分类号
G350
[文化科学—情报学]
-
-
题名基于双向分层语义模型的多源新闻评论情绪预测
被引量:5
- 2
-
-
作者
张莹
王超
郭文雅
袁晓洁
-
机构
南开大学计算机与控制工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2018年第5期933-944,共12页
-
基金
国家自然科学基金项目(61402243)
天津市自然科学基金项目(16JCQNJC00500)
+1 种基金
国家"八六三"高技术研究发展计划基金项目(2015AA015401)
教育部-中国移动科研基金项目(MCM20150507)~~
-
文摘
随着在线新闻服务的迅猛发展,用户在阅读新闻后可以非常方便地表达自己的主观情绪,有效分析和预测用户的情绪有助于新闻服务提供商为新闻用户提供更好的服务.情绪标注研究已经取得了很多优秀的成果,但仍然存在着一些问题:1)传统的方法将整个文档看作单词流或词袋,不能对句子间的逻辑关系进行建模,在文档中的句子间包含逻辑关系时,这些方法无法适当地表达文档的语义;2)这些方法只用了文档本身的语义,忽略了与该文档相关的其他信息源中信息,而这些信息源对该文档的语义表达也有一定的影响.为了解决这些问题,提出了一种基于多信息源的在线新闻评论双向分层语义表示模型,称为双向分层语义神经网络(bi-directional hierarchical semantic neural network,Bi-HSNN),该模型既捕获句子中词语所表达的情感,又自底向上地学习文档中句子间的逻辑关系,并利用评论、新闻和用户投票等多种信息源对在线新闻评论的情绪进行标注.在真实数据集上的一系列实验,验证了该模型的有效性.
-
关键词
在线新闻评论
情绪标注
分层语义表示
多信息源
神经网络
-
Keywords
online news comments
emotion tagging
hierarchical semantic representation
multiple information sources
neural networks
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-