-
题名基于话题标签的微博主题挖掘
被引量:10
- 1
-
-
作者
李敬
印鉴
刘少鹏
潘雅丽
-
机构
中山大学信息科学与技术学院计算机科学系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第4期30-35,共6页
-
基金
国家自然科学基金资助项目(61033010
61272065)
+3 种基金
广东省自然科学基金资助项目(S2011020001182
S2012010009311)
广东省科技计划基金资助项目(2011B040200007
2012A010701013)
-
文摘
随着互联网的发展,微博已成为人们获取信息的主要平台,为从海量微博中挖掘出有价值的主题信息,结合微博中的会话、转发和话题标签,将微博划分为用户兴趣、用户互动和话题微博3类,提出基于作者主题模型(ATM)的话题标签主题模型HC-ATM,使用Gibbs抽样法对模型进行推导,获取微博主题结构。在Twitter数据集上的实验结果表明,与ATM模型和基于潜在狄利克雷分布的微博生成模型相比,HC-ATM模型的主题困惑度更小、差异度更大,并且能有效挖掘出不同微博类型的主题分布。
-
关键词
主题挖掘
微博
社交网络
话题标签主题模型
作者主题模型
-
Keywords
topic mining
microblog
social network
hashtag topic model
Author Topic Model(ATM)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向科学研究主题的文献隐含时间信息分析与挖掘
被引量:3
- 2
-
-
作者
沈思
徐飞
吴鹏
-
机构
南京理工大学
武汉理工大学中国应急管理研究中心
-
出处
《情报学报》
CSSCI
CSCD
北大核心
2017年第4期370-381,共12页
-
基金
国家自然科学基金青年项目"基于时间感知模型的学术主题检索与演化挖掘研究"(71503124)
国家自然科学基金项目"突发事件网络舆情演变过程中的人群仿真研究"(71273132)
-
文摘
本研究针对缺乏检索对象时间范围和精确语义表达式的用户弱信息检索需求,为了更好地体现出文献之间的时间关联性,提出了一种文本内容时间信息的分析和挖掘方法。本文归纳总结了学术文献常用时间词,并基于图书情报学题录信息完成文本时间词抽取。在此基础上利用标签主题模型1abe1ed-LDA实现文本隐含时间标签的生成,以及基于时间维度的文本语义相似度计算。实验结果表明,本研究能较好地生成文献隐含时间信息,也能更有效地帮助用户提高弱信息检索结果的相关性。
-
关键词
标签主题模型
隐含时间特征
文本挖掘
标签生成
-
Keywords
labeled-LDA model
implied temporal profiles
text mining
tag generation
-
分类号
G353.1
[文化科学—情报学]
-