摘要
通过python爬取豆瓣网站上《少年的你》的短评文本,对评论文本进行清洗并利用构建的分词词典和停用词词典分别进行分词处理和去停用词处理后得到较为规范化的文本.利用TF-IDF算法提取评论文本的关键词,以关键词为基础建立LDA主题模型,从定量的角度提取评论主题,从而分析观众对这部电影的情感态度和评论的热点话题,为消费者的购买行为提供一定的决策支持,同时为商品提供者提供一定的发展方向.
Using python to access the short review text of Better Days on douban.com,then cleaning the text and using the constructed word segmentation dictionary and stop word dictionary to process the word to get relatively standardized text.Using TF-IDF algorithm to extract the keywords of review text,establishing topic modeling with LDA based on keywords to extract review topics from a quantitative perspective.Analyzing the audience’s emotional attitude towards the film and the hot topics of the reviews,in order to provide decision-making support for consuming behavior,as well as development directions for commodity providers.
作者
刘惠
赵海清
Liu Hui;Zhao Haiqing(School of Mathematics and Statistics,Lingnan Normal University)
出处
《现代电影技术》
2020年第3期42-46,共5页
Advanced Motion Picture Technology
基金
广东省科技计划项目《大数据时代广东省科技文献计量分析平台的建设与应用研究》,项目编号:2017A030303085
教育部产学合作协同育人项目《面向大数据分析的统计专业人才培养模式研究与改革》,项目编号:201802151045
教育部产学合作协同育人项目《基于大数据分析的统计专业实验实训室建设与应用研究》,项目编号:201802151033
岭南师范学院培育项目《基于hadoop平台的交通大数据挖掘》,项目编号:LP1833。
作者简介
刘惠(1991-),女,湖北孝感人,硕士研究生,岭南师范学院数学与统学院统计系教师,主要研究方向:数据分析、机器学习;赵海清(1979-),男,四川南充人,博士研究生,岭南师范学院数学与统学院统计系教师,主要研究方向:贝叶斯统计。