期刊文献+

基于隐含语义分析的微博话题发现方法 被引量:36

Micro-blog topic detection method based on Latent Semantic Analysis
在线阅读 下载PDF
导出
摘要 随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话题发现方法。引入话题热度的概念来选取具有一定关注度的微博文本,用隐含语义分析(LSA)对数据集进行建模;用层次聚类的CURE算法确定初始类中心;用K-means聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。 As the large popularity of micro-blog and awareness continues to improve, hot topic of micro-blog detecting has become the current research focuses. For short texts, there exist high-dimension, sparse, synonymy and polysemy problems for Vector Space Model(VSM)text presentation, making it difficult to measure the similarity of the texts accu-rately. This paper presents a two-stage cluster based on Latent Semantic Analysis(LSA)topic detection approach. Firstly, the concept of hot topic is introduced to select micro-blogs with certain attention, using LSA to model the dataset. Then CURE algorithm of hierarchical clustering is employed to determine the initial centers. Finally, the hot topic clustering results are obtained through K-means clustering. Experimental results on real micro-blog dataset verify the validity of the method.
出处 《计算机工程与应用》 CSCD 2014年第1期96-100,共5页 Computer Engineering and Applications
基金 重庆市自然科学基金(No.cstc2011jjA40023)
作者简介 马雯雯(1986-),女,硕士,主要研究方向:计算机网络与信息安全 魏文晗(1986-),男,硕士,主要研究方向:信息安全 邓一贵(1971~),男,博士,高级工程师,主要研究方向:计算机网络与信息安全,移动代理。E-mail:rlla-wenl024@163.com
  • 相关文献

参考文献15

  • 1李心妍,刘俐俐.浅析微博中的“微舆情”[J].新闻世界,2011(7):111-112. 被引量:21
  • 2Lee Chunghong, Chien Tzanfeng, Yang Hsinchang.An automatic topic ranking approach for event detection on microblogging messages[C]//Proceedings of 2011 IEEE Internation Conference on Systems,Man,and Cybernetics (SMC) ,2011 : 1358-1363.
  • 3张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量:167
  • 4路荣,项亮,刘明荣,等.基于隐主题分析和文本聚类的微博客新闻话题发现研究[C] // 第六届全国信息检索学术会议论文集. 北京:中国中文信息学会,2010.
  • 5郑斐然,苗夺谦,张志飞,高灿.一种中文微博新闻话题检测的方法[J].计算机科学,2012,39(1):138-141. 被引量:84
  • 6Raghavan V V, Wong S K M.A critical analysis of vector space model for information retrieval[J].Journal of the American Society for information Science, 1986,37(5): 279-287.
  • 7Connel M,Feng A,Kumaran G,et al.Umass at TDT 2004[C]//Proc of TDT 2004,2004.
  • 8Deerwesster S, Dumais S T, Fuvnas G W.Indexing by latent semantic analysis[J].Journal of the American Soci- ety for Information Sciens, 1990,41(6) :391-407.
  • 9陈黎飞,姜青山,王声瑞.基于层次划分的最佳聚类数确定方法[J].软件学报,2008,19(1):62-72. 被引量:82
  • 10Wei C, Yang C, Lin C.A latent semantic indexing-based approach to multilingual document clustering[J].Decision Support Systems, 2008,45 ( 3 ) : 606-620.

二级参考文献46

  • 1洪志令 ,姜青山 ,董槐林 ,Wang Sheng-Rui .模糊聚类中判别聚类有效性的新指标[J].计算机科学,2004,31(10):121-125. 被引量:15
  • 2诸克军,苏顺华,黎金玲.模糊C-均值中的最优聚类与最佳聚类数[J].系统工程理论与实践,2005,25(3):52-61. 被引量:69
  • 3[美]凯斯·桑斯坦著,黄维明译.《网络共和国-网络社会中的民主问题》[M].上海人民出版社,2003:47.
  • 4Kang J H, Lerman K, Plangprasopchok A. Analyzing Microblogs with affinity propagation [C] //Proc of the 1st KDD Workshop on Social Media Analytic. New York: ACM, 2010:67-70.
  • 5Ramage D, Dumais S, Liebling D. Characterizing microblogs with topic models [C] //Proc of Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2010:130-137.
  • 6Xu R, Wunsch D. Survey of clustering algorithms [J]. IEEE Trans on Neural Networks, 2005, 16(3): 645-678.
  • 7Deerwester S, Dumais S, Landauer T, et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990, 41(6): 391-407.
  • 8Landauer T K, Foltz P W, Laham D. Introduction to Latent Semantic Analysis [J]. Discourse Processes, 1998, 25 (2) 259-284.
  • 9Griffiths T, Steyvers M. Probabilistic topic models [G] // Latent Semantic Analysis: A Road to Meaning. Hillsdale, NJ: Laurence Erlbaum, 2006.
  • 10Hofmann T. Probabilistic latent semantic indexing [C] // Proc of the 22nd Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 1999:50-57.

共引文献358

同被引文献425

引证文献36

二级引证文献256

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部