摘要
针对地震发生后新闻种类繁多,无法准确获取地震相关新闻的问题,该文提出了一种通过互联网获取地震信息并对地震信息进行文本信息识别的方法,可以识别文本信息是否为地震信息。采用Python爬虫技术对结构不同的新闻网站进行数据采集,并基于fastText的文本分类模型对数据进行分类训练,实验结果表明:该方法能够有效地对新闻进行分类,获取所需地震新闻。
In response to the problem that there are many kinds of news after an earthquake and it is impossible to obtain earthquake related news accurately,this paper proposes a method to obtain earthquake information through the internet and perform text information recognition on earthquake information,which can identify whether the text information is earthquake information or not.Python crawler technology is used to collect data from news websites with different structures,and carry out classification training on data based on fastText’text classification model.The experimental results show that the method can effectively classify the news and obtain the required earthquake news.
作者
王钟浩
崔珂玮
张鑫
杨振中
刘帅
WANG Zhonghao;CUI Kewei;ZHANG Xin;YANG Zhenzhong;LIU Shuai(Institute of Disaster Prevention,Sanhe 065201,China)
出处
《现代信息科技》
2021年第3期5-8,共4页
Modern Information Technology
基金
防灾科技学院2020大学生创新创业项目(202011775092)。
关键词
深度学习
文本分类
数据采集
自然语言处理
deep learning
text classification
data collection
natural language processing
作者简介
王钟浩(1997—),男,汉族,内蒙古赤峰人,硕士研究生在读,研究方向:自然语言处理;崔珂玮(2000—),男,汉族,山东临沂人,本科在读,研究方向:计算机科学与技术;张鑫(2000—),男,汉族,安徽芜湖人,本科在读,研究方向:计算机科学与技术;杨振中(1999—),男,汉族,河北邯郸人,本科在读,研究方向:计算机科学与技术;通讯作者:刘帅(1983—),男,汉族,河北保定人,讲师,硕士,研究方向:软件工程和大数据分析。