期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于Hadoop平台的农产品价格数据爬取和存储系统的研究 被引量:4
1
作者 杨晓东 郜鲁涛 +1 位作者 杨林楠 刘建阳 《计算机应用与软件》 2017年第3期76-80,共5页
目前许多大型农贸市场和农业信息商务平台都在实时发布每天各地区不同农产品的价格数据。针对数据更新快、数据量大、数据形式多样,使数据的爬取和存储以及后续的分析工作变得困难,提出基于Hadoop的农产品价格爬取及存储系统。利用HttpC... 目前许多大型农贸市场和农业信息商务平台都在实时发布每天各地区不同农产品的价格数据。针对数据更新快、数据量大、数据形式多样,使数据的爬取和存储以及后续的分析工作变得困难,提出基于Hadoop的农产品价格爬取及存储系统。利用HttpClient框架结合线程池通过多线程爬取,爬取结束后执行完整性检查,过滤出信息不完整的网页,进行二次爬取直到信息完整。对爬取到的网页使用正则表达式进行解析和清洗,提取有用的数据,以文本文件的形式存入HDFS(Hadoop Distributed File System),此后爬取到的数据以追加的方式写入HDFS文件中。实验表明HDFS的写入性能满足爬取数据不断递增的现状,副本数越少,数据块越大,写入性能越好。 展开更多
关键词 分布式系统 爬虫 hadoop hdfs 正则表达式
在线阅读 下载PDF
基于众包的社交网络数据采集模型设计与实现 被引量:14
2
作者 高梦超 胡庆宝 +3 位作者 程耀东 周旭 李海波 杜然 《计算机工程》 CAS CSCD 北大核心 2015年第4期36-40,共5页
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、... 社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。 展开更多
关键词 社交网络 众包模式 分布式计算 信息采集 WEB爬虫 hadoop分布式文件系统
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部