-
题名基于Scrapy的网络爬虫的设计与实现
被引量:22
- 1
-
-
作者
杜鹏辉
仇继扬
彭书涛
柴沣伟
刘意先
-
机构
国网陕西省电力公司
西安邮电大学
中兴通讯股份有限公司
-
出处
《电子设计工程》
2019年第22期120-123,132,共5页
-
基金
国家自然科学基金资助项目(61671377)
国网陕西电力科学研究项目(2018256)
-
文摘
随着信息技术的发展,网络数据成为了一种重要资产,如何快速有效的提取和分析数据是目前的一个研究热点。针对网络中的海量数据采用Scrapy框架设计网络爬虫对数据进行提取,首先分介绍了如何在Python下安装调用Scrapy框架并建立相应爬虫项目,然后对目标网站的页面源码的结构进行分析,从标签中定位需要获取的数据,并依此设计出了相应的表达式将相应的数据提取到统一的数据结构中,最后将数据保存到文件,实现存储的持久化。该设计方法能为各类基于Web的网络数据分析项目提供相应的数据采集和分析支持。
-
关键词
大数据
网络爬虫
PYTHON
Scrapy框架
-
Keywords
big data
Web crawler
Python
Scrapy framework
-
分类号
TN919
[电子电信—通信与信息系统]
-
-
题名全国碳市场下电网企业潜在碳资产研究
- 2
-
-
作者
仇继扬
薛建
彭书涛
-
机构
国网陕西省电力公司
国网陕西省电力公司电力科学研究院
-
出处
《能源与环境》
2018年第5期4-5,共2页
-
文摘
我国2017年正式启动全国碳市场。在未来全国碳市场阶段,省网公司既可以作为控排企业参与其中,也可以项目业主身份开发拥有电动汽车充电站桩项目中的潜在碳资产。
-
关键词
全国碳市场
电网企业
电动汽车充电站桩
-
分类号
F407.6
[经济管理—产业经济]
-