期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
网页数据采集算法及在住户调查中的应用
被引量:
7
1
作者
沈承放
莫达隆
黄文韬
《统计与决策》
CSSCI
北大核心
2021年第7期52-56,共5页
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行...
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。
展开更多
关键词
网页数据采集算法
住户调查
网络爬虫
多线程
精准扶贫
PYTHON
SELENIUM
在线阅读
下载PDF
职称材料
题名
网页数据采集算法及在住户调查中的应用
被引量:
7
1
作者
沈承放
莫达隆
黄文韬
机构
贺州学院数学与计算机学院
广西师范大学数学与统计学院
出处
《统计与决策》
CSSCI
北大核心
2021年第7期52-56,共5页
基金
国家社会科学基金西部项目(18XTJ002)
广西师范大学创新计划项目(XYCSZ2019088)
文摘
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。
关键词
网页数据采集算法
住户调查
网络爬虫
多线程
精准扶贫
PYTHON
SELENIUM
Keywords
webpage data acquisition algorithm
household survey
web crawler
multithreading
targeted poverty alleviation
python
Selenium
分类号
O212.1 [理学—概率论与数理统计]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
网页数据采集算法及在住户调查中的应用
沈承放
莫达隆
黄文韬
《统计与决策》
CSSCI
北大核心
2021
7
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部