期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Hadoop平台的农产品价格数据爬取和存储系统的研究
被引量:
4
1
作者
杨晓东
郜鲁涛
+1 位作者
杨林楠
刘建阳
《计算机应用与软件》
2017年第3期76-80,共5页
目前许多大型农贸市场和农业信息商务平台都在实时发布每天各地区不同农产品的价格数据。针对数据更新快、数据量大、数据形式多样,使数据的爬取和存储以及后续的分析工作变得困难,提出基于Hadoop的农产品价格爬取及存储系统。利用HttpC...
目前许多大型农贸市场和农业信息商务平台都在实时发布每天各地区不同农产品的价格数据。针对数据更新快、数据量大、数据形式多样,使数据的爬取和存储以及后续的分析工作变得困难,提出基于Hadoop的农产品价格爬取及存储系统。利用HttpClient框架结合线程池通过多线程爬取,爬取结束后执行完整性检查,过滤出信息不完整的网页,进行二次爬取直到信息完整。对爬取到的网页使用正则表达式进行解析和清洗,提取有用的数据,以文本文件的形式存入HDFS(Hadoop Distributed File System),此后爬取到的数据以追加的方式写入HDFS文件中。实验表明HDFS的写入性能满足爬取数据不断递增的现状,副本数越少,数据块越大,写入性能越好。
展开更多
关键词
分布式系统
爬虫
hadoop
hdfs
正则表达式
在线阅读
下载PDF
职称材料
基于众包的社交网络数据采集模型设计与实现
被引量:
14
2
作者
高梦超
胡庆宝
+3 位作者
程耀东
周旭
李海波
杜然
《计算机工程》
CAS
CSCD
北大核心
2015年第4期36-40,共5页
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、...
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。
展开更多
关键词
社交网络
众包模式
分布式计算
信息采集
WEB爬虫
hadoop
分布式文件系统
在线阅读
下载PDF
职称材料
题名
基于Hadoop平台的农产品价格数据爬取和存储系统的研究
被引量:
4
1
作者
杨晓东
郜鲁涛
杨林楠
刘建阳
机构
云南农业大学基础与信息工程学院
云南省信息技术发展中心
出处
《计算机应用与软件》
2017年第3期76-80,共5页
基金
国家"十二五"科技支撑计划课题(2014BAD10B03)
文摘
目前许多大型农贸市场和农业信息商务平台都在实时发布每天各地区不同农产品的价格数据。针对数据更新快、数据量大、数据形式多样,使数据的爬取和存储以及后续的分析工作变得困难,提出基于Hadoop的农产品价格爬取及存储系统。利用HttpClient框架结合线程池通过多线程爬取,爬取结束后执行完整性检查,过滤出信息不完整的网页,进行二次爬取直到信息完整。对爬取到的网页使用正则表达式进行解析和清洗,提取有用的数据,以文本文件的形式存入HDFS(Hadoop Distributed File System),此后爬取到的数据以追加的方式写入HDFS文件中。实验表明HDFS的写入性能满足爬取数据不断递增的现状,副本数越少,数据块越大,写入性能越好。
关键词
分布式系统
爬虫
hadoop
hdfs
正则表达式
Keywords
distributed system crawler hadoop hdfs regular expression
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于众包的社交网络数据采集模型设计与实现
被引量:
14
2
作者
高梦超
胡庆宝
程耀东
周旭
李海波
杜然
机构
四川大学计算机学院
中国科学院高能物理研究所计算中心
中国科学院声学研究所
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第4期36-40,共5页
基金
国家"863"计划基金资助项目"基于媒体大数据的大众信息消费服务平台及应用示范"(SS2014AA012305)
文摘
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。
关键词
社交网络
众包模式
分布式计算
信息采集
WEB爬虫
hadoop
分布式文件系统
Keywords
social network
crowdsourcing mode
distributed
computing
information collection
Web
crawler
hadoop
distributed
File
system
(
hdfs
)
分类号
TP393.0 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Hadoop平台的农产品价格数据爬取和存储系统的研究
杨晓东
郜鲁涛
杨林楠
刘建阳
《计算机应用与软件》
2017
4
在线阅读
下载PDF
职称材料
2
基于众包的社交网络数据采集模型设计与实现
高梦超
胡庆宝
程耀东
周旭
李海波
杜然
《计算机工程》
CAS
CSCD
北大核心
2015
14
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部