-
题名微博分析研究综述
被引量:11
- 1
-
-
作者
刘滨
张静远
刘强
赵静阳
李寒
徐巍巍
-
机构
河北科技大学经济管理学院
-
出处
《河北科技大学学报》
CAS
2015年第1期100-110,共11页
-
基金
国家自然科学基金(71271076)
河北省统计科学研究计划项目(2013H210)
河北科技大学五大平台开放基金(WH03)
-
文摘
微博,是当前重要的社会信息传播平台之一,具有易操作、传播快等特点,人们可以通过微博直接快速地表达对突发事件、公众人物、热门产品等的观点。为了利用海量微博信息,需要综合多种分析方法挖掘其潜在价值。综述了当前微博分析领域的研究现状,提出了自主研发的微博分析系统,探讨了未来微博分析的研究方向。首先,介绍了微博分析的主要技术方法,包括利用微博开放平台和利用网络爬虫技术。利用微博提供的开放接口,可以方便快捷地获取微博信息,如微博内容、用户评论、用户个人详情、粉丝数、关注数等。但也存在诸多限制,如每小时只能抓取有限次数、微博平台并不开放所有信息资源等。利用网络爬虫技术可以获取更多信息,如基于全网的网络爬虫的信息采集技术可以覆盖更广的范围,基于主题的网络爬虫的信息采集技术可以选择性爬取预先设定的主题等。其次,介绍了目前微博分析的热点问题,包括微博用户行为和微博内容两方面。微博用户行为分析包括:1)传播网络研究,利用Gephi等可视化工具,呈现出微博在传播过程中的传播路径、传播范围、关键转发节点等信息,可用于预测未来传播情况;2)传播因素研究,通过分析用户行为,揭示信息传播的可能原因;3)用户影响力分析,不同学者给出不同的度量方法,而要精准地评价用户影响力需要综合考虑多方面因素,如粉丝数、转发数、被提及数、回复、社会关系等。关于微博内容的分析包括:1)微博文本预处理,包括分词和去停用词2个步骤;2)微博热点话题发现,常用方法包括基于词频的统计方法和文本聚类方法,这两种方法都有利于提高发现热点话题的效果,但没有考虑到话题动态演变的特性;3)情感分析,也被称为观点挖掘,一直是微博研究领域的热点问题,可以利用微博表情图片抽取情感词,并结合构建语义词典和机器学习的方法对微博进行情感分类,最终判断微博情感极性,可用于舆情监控、商业预测和产品选择等方面。再次,提出了自主研发的微博分析系统——阅微,重点介绍了其情感分析、地域分布和传播图3个模块。情感分析模块,基于情感词典的方法对用户的评论内容进行情感分类;地域分布模块,提取参与用户的地理位置信息并加以统计分析,呈现出微博传播在全国范围内的分布情况;传播图模块,利用可视化手段展现微博信息的传播扩散情况,如转发关系、转发层级、转发范围等情况。最后,归纳全文,从技术和应用2个方面归纳微博分析的挑战问题:可从技术上突破微博接口资源限制,提高微博分析的效率和精准度;同时从微博应用方面发展事件监控、管理和商业方面的应用。
-
关键词
数据库
微博分析
用户行为分析
短文本分析
网络爬虫
阅微
-
Keywords
database
microblog analysis
user behavior analysis
short text analysis
web crawler
We-Reading
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于弹幕情感分析和聚类算法的视频用户群体分类
被引量:36
- 2
-
-
作者
洪庆
王思尧
赵钦佩
李江峰
饶卫雄
-
机构
同济大学软件学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2018年第6期1125-1139,共15页
-
基金
国家自然科学基金(61572365
61503286
+4 种基金
61702372)
上海市自然科学基金(15ZR1443000)
上海市科技英才扬帆计划项目(15YF1412600)
上海市科委项目(14DZ1118700)
中央高校基本科研业务费专项资金
-
文摘
随着数字媒体等技术的发展,出现了弹幕系统这种新型的评论模式并逐渐流行。它能够使视频观众即时发布关于视频情节内容的评论,也可以帮助观众理解视频内容。弹幕文本数据的产生,为短文本处理和实时数据处理提供了新的素材。研究弹幕数据的特点和其表达的情感,可以帮助我们更好地理解视频情节;研究弹幕内容之间的相似度进而分析用户之间的关联关系,不仅能够深入了解弹幕用户的特点、发掘不同视频之间的潜在联系,而且可以为视频制作时受众群体的选择提供更为准确的解决方案。首先将弹幕文本数据进行收集和预处理,然后计算这些文本的情感值。针对弹幕文本口语化的特点,建立了网络弹幕常用词词典。通过改进传统的k-means聚类算法,对所有发表弹幕的用户进行基于情感值的分类。这样的分类可以帮助我们了解观看特定类型视频的观众在情感上的异同点。
-
关键词
弹幕系统
短文本分析
时间序列
情感分析
用户分类
-
Keywords
barrage comments system
short text analysis
time series
sentiment analysis
user classification
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-