基于隐含语义分析的微博话题发现方法被引量：36

Micro-blog topic detection method based on Latent Semantic Analysis

在线阅读下载PDF

导出

摘要随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话题发现方法。引入话题热度的概念来选取具有一定关注度的微博文本,用隐含语义分析(LSA)对数据集进行建模;用层次聚类的CURE算法确定初始类中心;用K-means聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。 As the large popularity of micro-blog and awareness continues to improve, hot topic of micro-blog detecting has become the current research focuses. For short texts, there exist high-dimension, sparse, synonymy and polysemy problems for Vector Space Model（VSM）text presentation, making it difficult to measure the similarity of the texts accu-rately. This paper presents a two-stage cluster based on Latent Semantic Analysis（LSA）topic detection approach. Firstly, the concept of hot topic is introduced to select micro-blogs with certain attention, using LSA to model the dataset. Then CURE algorithm of hierarchical clustering is employed to determine the initial centers. Finally, the hot topic clustering results are obtained through K-means clustering. Experimental results on real micro-blog dataset verify the validity of the method.

作者马雯雯魏文晗邓一贵

机构地区重庆大学计算机学院重庆大学信息与网络管理中心

出处《计算机工程与应用》 CSCD 2014年第1期96-100,共5页 Computer Engineering and Applications

基金重庆市自然科学基金(No.cstc2011jjA40023)

关键词隐含语义分析向量空间模型话题发现微博两阶段聚类 LATENT SEMANTIC Analysis(LSA) Vector Space Model(VSM) topic detection micro-blog two-stage clustering

分类号 TP393 [自动化与计算机技术—计算机应用技术]

作者简介马雯雯（1986-），女，硕士，主要研究方向：计算机网络与信息安全魏文晗（1986-），男，硕士，主要研究方向：信息安全邓一贵（1971～），男，博士，高级工程师，主要研究方向：计算机网络与信息安全，移动代理。E-mail：rlla-wenl024@163．com

引文网络
相关文献

参考文献15

1李心妍,刘俐俐.浅析微博中的“微舆情”[J].新闻世界,2011(7):111-112. 被引量：21
2Lee Chunghong, Chien Tzanfeng, Yang Hsinchang.An automatic topic ranking approach for event detection on microblogging messages[C]//Proceedings of 2011 IEEE Internation Conference on Systems,Man,and Cybernetics (SMC) ,2011 : 1358-1363.
3张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：167
4路荣,项亮,刘明荣,等.基于隐主题分析和文本聚类的微博客新闻话题发现研究[C] // 第六届全国信息检索学术会议论文集. 北京:中国中文信息学会,2010.
5郑斐然,苗夺谦,张志飞,高灿.一种中文微博新闻话题检测的方法[J].计算机科学,2012,39(1):138-141. 被引量：84
6Raghavan V V, Wong S K M.A critical analysis of vector space model for information retrieval[J].Journal of the American Society for information Science, 1986,37(5): 279-287.
7Connel M,Feng A,Kumaran G,et al.Umass at TDT 2004[C]//Proc of TDT 2004,2004.
8Deerwesster S, Dumais S T, Fuvnas G W.Indexing by latent semantic analysis[J].Journal of the American Soci- ety for Information Sciens, 1990,41(6) :391-407.
9陈黎飞,姜青山,王声瑞.基于层次划分的最佳聚类数确定方法[J].软件学报,2008,19(1):62-72. 被引量：82
10Wei C, Yang C, Lin C.A latent semantic indexing-based approach to multilingual document clustering[J].Decision Support Systems, 2008,45 ( 3 ) : 606-620.

二级参考文献46

1洪志令 ,姜青山 ,董槐林 ,Wang Sheng-Rui .模糊聚类中判别聚类有效性的新指标[J].计算机科学,2004,31(10):121-125. 被引量：15
2诸克军,苏顺华,黎金玲.模糊C-均值中的最优聚类与最佳聚类数[J].系统工程理论与实践,2005,25(3):52-61. 被引量：69
3[美]凯斯·桑斯坦著,黄维明译.《网络共和国-网络社会中的民主问题》[M].上海人民出版社,2003:47.
4Kang J H, Lerman K, Plangprasopchok A. Analyzing Microblogs with affinity propagation [C] //Proc of the 1st KDD Workshop on Social Media Analytic. New York: ACM, 2010:67-70.
5Ramage D, Dumais S, Liebling D. Characterizing microblogs with topic models [C] //Proc of Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2010:130-137.
6Xu R, Wunsch D. Survey of clustering algorithms [J]. IEEE Trans on Neural Networks, 2005, 16(3): 645-678.
7Deerwester S, Dumais S, Landauer T, et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990, 41(6): 391-407.
8Landauer T K, Foltz P W, Laham D. Introduction to Latent Semantic Analysis [J]. Discourse Processes, 1998, 25 (2) 259-284.
9Griffiths T, Steyvers M. Probabilistic topic models [G] // Latent Semantic Analysis: A Road to Meaning. Hillsdale, NJ: Laurence Erlbaum, 2006.
10Hofmann T. Probabilistic latent semantic indexing [C] // Proc of the 22nd Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 1999:50-57.

共引文献358

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：4
2袁小翠,刘宝玲,马永力.基于空间邻域连通区域标记法的点云离群点检测[J].计算机应用研究,2020,37(S02):380-382. 被引量：7
3刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
4姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
5吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21
6吴柳燕,覃纪武.基于内容的文本模糊检索技术研究[J].情报杂志,2008,27(5):121-124.
7冯少荣,肖文俊.基于语义距离的高效文本聚类算法[J].华南理工大学学报（自然科学版）,2008,36(5):30-37. 被引量：15
8章成志,张庆国,师庆辉.基于主题聚类的主题数字图书馆构建[J].中国图书馆学报,2008(6):64-69. 被引量：5
9何孝金,傅彦,陈安龙.基于相对距离的密度聚类算法[J].计算机应用研究,2009,26(4):1335-1337. 被引量：3
10黄志华,温步瀛,王国乾.可间断运行的K-means聚类算法[J].计算机应用研究,2009,26(6):2053-2055. 被引量：3

同被引文献425

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2牛新权.网民主体心理特征及网络传播特点分析——以近期网络热点事件为例[J].政工研究动态,2009(16):8-10. 被引量：13
3李安定,李巨尧.网络舆情热点事件中二元符码的传播框架分析[J].山西大学学报（哲学社会科学版）,2012,35(2):117-121. 被引量：3
4梁承谋.七情说与现代情绪心理学[J].南京师大学报（社会科学版）,1996(4):64-67. 被引量：3
5于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
6姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
7贺敏,王丽宏,杜攀,张瑾,程学旗.基于有意义串聚类的微博热点话题发现方法[J].通信学报,2013,34(S1):256-262. 被引量：12
8刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
9贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：59
10徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15

引证文献36

1张平.运动与心脏的重塑[J].中国运动医学杂志,2000,19(1):76-80. 被引量：13
2米文丽,孙曰昕.利用概率主题模型的微博热点话题发现方法[J].计算机系统应用,2014,23(8):163-167. 被引量：7
3刘晓娟,张爱芸,尤斌,杨英伦.热点网络空间的计量研究[J].情报杂志,2014,33(8):105-110.
4黎明,文海英,杨杰,陈旭日.基于行为权值的微博用户影响力度量算法[J].计算机工程与应用,2014,50(17):130-133. 被引量：4
5唐晓波,肖璐.基于单句粒度的微博主题挖掘研究[J].情报学报,2014,33(6):623-632. 被引量：7
6王文帅,杜然,程耀东,陈刚.一种面向大规模微博数据的话题挖掘方法[J].计算机工程与应用,2014,50(22):32-37. 被引量：4
7赵龙文,陈明艳,公荣涛,姚海波.基于微博意见领袖参与行为的热点话题检测研究[J].情报科学,2015,33(4):87-92. 被引量：9
8程飞,姬东鸿.基于重叠社团发现的微博话题检测方法[J].计算机工程与应用,2015,51(6):93-98. 被引量：4
9吴妮,赵捧未,秦春秀.基于语义分析和相似强度的微博热点发现方法[J].现代图书情报技术,2015(5):57-64. 被引量：12
10陈婷,胡改丽,陈福集.基于时序信息的话题动态演化模型及追踪算法[J].武汉理工大学学报（信息与管理工程版）,2015,37(3):354-359. 被引量：4

二级引证文献256

1张春颜,陈纪茹.基于多维图谱的高校网络舆情演化路径研究[J].中国应急管理科学,2024(6):86-102.
2余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：11
3李阳.城市画像赋能城市治理——评《社会标注视域下的城市画像研究》[J].情报科学,2023,41(11):188-190.
4王晓,董迪迪,陈思菁,操玉杰.社交媒体主题分布特征及其对情感倾向影响研究[J].情报科学,2023,41(11):62-71. 被引量：2
5于凯,杨富义.社会安全事件网络舆情多属性演化分析与知识图谱构建[J].情报工程,2022,8(4):14-30. 被引量：4
6包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：6
7李楚贞,余育文.中文微博数据预处理常用方法研究[J].科技经济导刊,2019,0(33):23-23. 被引量：4
8林少娃,陈奕汝,顾洁,伍蓓蓓,雍旭龙.基于隐含狄利克雷分布主题模型和特征级异构数据融合的电力故障主动性预警研究[J].电子器件,2022,45(2):432-438. 被引量：16
9李晓冬.浅析运动与心脏结构[J].景德镇高专学报,2004,19(4):71-72.
10毛宗珍,李恩荆,葛新发.运动对大鼠心肌ICAM-1表达与超微结构的影响[J].武汉体育学院学报,2004,38(6):64-67. 被引量：6

1王国勇,徐建锁.TCBLSA:一种中文文本聚类新方法[J].计算机工程,2004,30(5):21-22. 被引量：15
2朱桂宏,王刚.基于数据流的网络入侵检测研究[J].计算机技术与发展,2009,19(3):175-177. 被引量：2
3陈新泉.混合属性数据集的基于近邻连接的两阶段聚类算法[J].计算机工程与科学,2012,34(9):135-142.
4王改华,李德华.融合纹理特征的两阶段聚类分割算法[J].中国图象图形学报,2012,17(9):1075-1084. 被引量：3
5王国勇,徐建锁.一种基于LSA和Kohonen网络的文本分类新方法[J].计算机应用,2004,24(2):53-55. 被引量：2
6武高敏,张宇晨,韩京宇.基于隐含语义分析的在线新闻话题发现方法[J].计算机技术与发展,2016,26(9):1-7. 被引量：1
7徐晨凯,高茂庭.使用LSA降维的改进ART2神经网络文本聚类[J].计算机工程与应用,2014,50(24):133-138. 被引量：4
8李琳娜,江雪琴.推荐系统中的隐语义模型研究[J].情报工程,2016,2(4):30-39. 被引量：6
9焦远锋,李万龙,郑山红,刘帅.一种新的两阶段FCM聚类算法[J].微电子学与计算机,2009,26(4):40-42. 被引量：4
10刘凤林,胡雪蕾.二项矩阵分解在离散评分推荐算法中的改进[J].计算机应用与软件,2016,33(1):81-84. 被引量：1

计算机工程与应用

2014年第1期

浏览历史

内容加载中请稍等...

基于隐含语义分析的微博话题发现方法被引量：36

参考文献15

二级参考文献46

共引文献358

同被引文献425

引证文献36

二级引证文献256

相关作者

相关机构

相关主题

浏览历史

基于隐含语义分析的微博话题发现方法 被引量：36

参考文献15

二级参考文献46

共引文献358

同被引文献425

引证文献36

二级引证文献256

相关作者

相关机构

相关主题

浏览历史

基于隐含语义分析的微博话题发现方法被引量：36