期刊文献+

微博文本处理研究综述 被引量:55

A Review towards Microtext Processing
在线阅读 下载PDF
导出
摘要 微博是一个基于关系的信息分享、传播以及获取平台。用户可以通过WEB、WAP以及各种客户端组件,以140字左右的文字更新信息,并实现即时分享。由于微博发展迅猛,微博文本已经形成了大规模积累,针对微博文本的研究已经成为了一个十分重要的课题。该文对微博文本进行了定义,阐述了微博文本研究的重要性,并从微博文本的不同应用领域出发,对微博文本的研究现状进行了综述,介绍了目前已经存在的微博文本数据集和应用系统。 Microblogging is a user-relationship based platform to assist user in sharing and gaining information.Via various client tools such as WEB and WAP,users are able to create short messages in less than 140 characters.As microblogging booms,microtext is made large scale.The research on the microtext has thus become an important topic.In this paper,a definition on microtext is first given.Then significance of this research is summarized.The state-of-the-art research work on the microtext is presented as well as microtext datasets and microtext systems.
机构地区 清华大学 苏州大学
出处 《中文信息学报》 CSCD 北大核心 2012年第4期21-27,42,共8页 Journal of Chinese Information Processing
基金 国家自然科学基金资助项目(60703051) 科技部国际科技合作交流专项资助项目(2009DFA12970)
关键词 微博文本 语言分析 文本处理 twitter language analysis text processing
作者简介 作者简介:张剑峰(1987-),男,硕士,主要研究方向为话题检测,事件抽取; 夏云庆(1972-),男,博士,主要研究方向为自然语言处理,文本挖掘; 姚建民(1971-),男,副教授,主要研究方向为自然语言处理,机器翻译。
  • 相关文献

参考文献43

  • 1N. Dyke, H. Lieberman, P. Maes. Butterfly: A Conversation-Finding Agent for Internet Relay Chat [C]//Proceedings of the 4th International Conference on Intelligent User Interfaces, 1999.
  • 2L. Zhou, E. Hovy. Digesting Virtual "Geek" Cul- ture.. The Summarization of Technical Internet Relay Chats[C]//Proceedings of ACL 2005.. 298-305.
  • 3P. Adams, C. Martell. Topic Detection and Extrac- tion in Chat[C]//Proceedings of ICSC 2008: 581-588.
  • 4D. Shen, Q. Yang,J. Sun, et al. Thread Detection in Dynamic Text Message Streams [C]//Proceedings of SIGIR'06 :35-42.
  • 5彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量:45
  • 6L. Wang. Conversation Extraction in Dynamic Text Message Stream[J]. Journal of Computers, 2008, 3(10) : 86-93.
  • 7X.-H. Phan, L.-M. Nguyen. Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data CollectionsEC]//Proceedings ot WWW 2008.
  • 8黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量:17
  • 9周文林.中国微博市场催生巨大商业价值[N/OL].新华网.2010年11月17日,http ://news. xinhua-net. com/eworld/2010-11/17/c_12783668, htm.
  • 10网易科技.影响2010中国互联网发展的十件大事[N/OL].网易科技报道.2011年1月18日,http://tech. 163. com/ll/0118/15/6QMJJ4CG00094JCg, ht- ml.

二级参考文献34

  • 1王滨华,石志刚.基于散列关键词的大规模网页去重算法[J].高性能计算技术,2004,0(5):35-38. 被引量:1
  • 2陈儒,张宇,刘挺.面向中文特定信息变异的过滤技术研究[J].高技术通讯,2005,15(9):7-12. 被引量:7
  • 3赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量:28
  • 4黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量:17
  • 5A.K. JAIN, M.N. MURTY, P.J. FLYNN. Data Clustering: A Review[J]. ACM Computing Surveys, September 1999, 31(3).
  • 6Wang L, Jia Y, Han W H. Instance message clustering based on extended vector space model[EB/OL]. Proceedings of 2^nd Iternational Symposium on Intelligence Computation and Applications. Wuhan, China: Springer, 2007: 435-443.
  • 7He H, Chen B, Xu W R, Guo J. Short text feature extraction and clustering for web topic mining [EB/ OL]. Proceeding of the 3^rd International Conference on Semantics, Knowledge and Grid. Washington D. C. , USA: IEEE, 2007: 382-385.
  • 8http://tech. ifeng. com/internet/detail _ 2010 _ 08/09/ 1600761_0.shtml[DB/OL].
  • 9HARTIGAN, J. and WONG, M. Algorithm AS136: A k-means clustering algorithm[J]. Applied Statistics, 1979,28: 100-108.
  • 10Horatiu Mocian. Survey of Distributed Clustering Techniques[EB/OL]. 1^st term ISO report, 2009.

共引文献92

同被引文献660

引证文献55

二级引证文献481

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部