期刊文献+

基于组合相似度动态聚类和词熵的网络话题在线检测

Online Topic Detection Method Based on Combination Similarity Dynamic Clustering and Word Entropy
在线阅读 下载PDF
导出
摘要 [研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。 [Research purpose]To achieve online detection and tracking of hot topics on the Internet and improve the clustering performance of incremental clustering algorithms,a topic detection method based on combination similarity clustering is proposed.At the same time,topic word extraction and evolution tracking are achieved by calculating word entropy.[Research method]The named entity recognition of text is achieved through the CIFG-BiLSTM-CRF model,and the entity similarity between the text and the topic is calculated.Then,the maximum of cosine similarity between the word vector and the topic center is taken as the vector similarity of the text.And the entity similarity and vector similarity are combined to determine the topic to which the text belongs.During the clustering process,a time window strategy is used to dynamically update the topic center and member texts.At the same time,the word entropy of the text is calculated to generate the word entropy sum list of topics,in order to achieve topic word extraction and evolution tracking.The experiment uses data of COVID-19 news to realize online topic detection,and presents the evolution and tracking process of topic keywords.[Research conclusion]The experiment shows that compared with traditional similarity calculation methods,combined similarity can achieve better clustering performance,and the topic keywords extracted during the clustering process also accurately reflect the topic content of the original data.
作者 郭慧 王亚楠 王欣艳 魏艺泽 王养廷 Guo Hui;Wang Ya'nan;Wang Xinyan;Wei Yize;Wang Yangting(North China Institute of Science and Technology,Langfang 065201;School of Management and Economics,Hebei University of Science and Technology,Shijiazhuang 050018;Ministry of Emergency Management Big Data Center,Beijing 100013)
出处 《情报杂志》 CSSCI 北大核心 2024年第5期159-166,共8页 Journal of Intelligence
基金 国家社会科学基金项目“重大疫情下社区健康边际及防护体系构建研究”(编号:21BSH072)研究成果。
关键词 网络话题 在线话题检测 增量式聚类 主题词提取 组合相似度 动态聚类算法 词熵 online topics online topic detection incremental clustering topic word extraction combination similarity dynamic clustering algorithm word entropy
作者简介 郭慧,女,1981年生,博士,副教授,研究方向:数据挖掘与机器学习;通信作者:王亚楠,男,1968年生,博士,教授,研究方向:舆情分析与应急管理;王欣艳,女,1979年生,博士,高级工程师,研究方向:大数据与数据挖掘;魏艺泽,女,1998年生,硕士研究生,研究方向:自然语言处理;王养廷,男,1966年生,硕士,教授,研究方向:大数据处理。
  • 相关文献

参考文献10

二级参考文献83

共引文献251

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部