摘要
微博是一个基于关系的信息分享、传播以及获取平台。用户可以通过WEB、WAP以及各种客户端组件,以140字左右的文字更新信息,并实现即时分享。由于微博发展迅猛,微博文本已经形成了大规模积累,针对微博文本的研究已经成为了一个十分重要的课题。该文对微博文本进行了定义,阐述了微博文本研究的重要性,并从微博文本的不同应用领域出发,对微博文本的研究现状进行了综述,介绍了目前已经存在的微博文本数据集和应用系统。
Microblogging is a user-relationship based platform to assist user in sharing and gaining information.Via various client tools such as WEB and WAP,users are able to create short messages in less than 140 characters.As microblogging booms,microtext is made large scale.The research on the microtext has thus become an important topic.In this paper,a definition on microtext is first given.Then significance of this research is summarized.The state-of-the-art research work on the microtext is presented as well as microtext datasets and microtext systems.
出处
《中文信息学报》
CSCD
北大核心
2012年第4期21-27,42,共8页
Journal of Chinese Information Processing
基金
国家自然科学基金资助项目(60703051)
科技部国际科技合作交流专项资助项目(2009DFA12970)
关键词
微博文本
语言分析
文本处理
twitter
language analysis
text processing
作者简介
作者简介:张剑峰(1987-),男,硕士,主要研究方向为话题检测,事件抽取;
夏云庆(1972-),男,博士,主要研究方向为自然语言处理,文本挖掘;
姚建民(1971-),男,副教授,主要研究方向为自然语言处理,机器翻译。