-
题名面向微博热点事件的话题检测及表述方法研究
被引量:15
- 1
-
-
作者
周炜翔
张仰森
张良
-
机构
北京信息科技大学智能信息处理研究所
-
出处
《计算机应用研究》
CSCD
北大核心
2019年第12期3565-3569,3578,共6页
-
基金
国家自然科学基金资助项目(61772081)
-
文摘
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。
-
关键词
文本聚类
IDLDA-ITextRank模型
话题抽取
话题表述
-
Keywords
text clustering
IDLDA-ITextRank model
topic extraction
topic expression
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-