期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
一种新的主题网络爬虫爬行策略 被引量:15
1
作者 宋海洋 刘晓然 钱海俊 《计算机应用与软件》 CSCD 2011年第11期264-267,293,共5页
为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不... 为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不同的相关度分析算法相结合,并且可以保存爬虫爬行过程中所得到的"经验",实现对后续爬行的指导。实验结果表明通过改进后的策略实现的主题网络爬虫在性能上有较大提升。 展开更多
关键词 主题网络爬虫 爬行策略 二次爬行 相关度分析
在线阅读 下载PDF
一种Deep Web爬虫爬行策略 被引量:4
2
作者 刘徽 黄宽娜 余建桥 《计算机工程》 CAS CSCD 2012年第11期284-286,共3页
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提... Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。 展开更多
关键词 DEEP WEB页面 反馈机制 爬行策略 聚焦爬虫 网络数据库 分类器
在线阅读 下载PDF
基于关键词相关度的Deep Web爬虫爬行策略 被引量:7
3
作者 田野 丁岳伟 《计算机工程》 CAS CSCD 北大核心 2008年第15期220-222,共3页
Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下... Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下载Deep Web页面。由于该页面只提供一个查询接口,因此Deep Web爬虫设计面对的主要挑战是怎样选择最佳的查询关键词产生有意义的查询。实验证明文中提出的一种基于不同关键词相关度权重的选择方法是有效的。 展开更多
关键词 Deep WEB页面 爬行策略 关键词选择 相关度权重 覆盖率
在线阅读 下载PDF
一种适用于动态网页的网络蜘蛛爬行策略研究 被引量:5
4
作者 邵斐 孙济庆 《情报杂志》 CSSCI 北大核心 2007年第5期28-30,共3页
网络搜索是目前从因特网上快速有效获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,但随着动态网页数量的激增,传统的针对静态网页处理为主的网络蜘蛛爬行策略已经越来越不适用于现在的网络环境。在对动... 网络搜索是目前从因特网上快速有效获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,但随着动态网页数量的激增,传统的针对静态网页处理为主的网络蜘蛛爬行策略已经越来越不适用于现在的网络环境。在对动态网页结构分析的基础上,提出了一套适用于动态网页的网络蜘蛛爬行策略,其性能对动态网页的爬行与信息搜索可取得良好的效果。 展开更多
关键词 网络蜘蛛 动态网页 爬行策略
在线阅读 下载PDF
分布式Web Crawler的研究:结构、算法和策略 被引量:23
5
作者 叶允明 于水 +2 位作者 马范援 宋晖 张岭 《电子学报》 EI CAS CSCD 北大核心 2002年第12A期2008-2011,共4页
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageR... 本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页. 展开更多
关键词 WEB爬虫 爬行策略 分布式系统 计算机网络 网页
在线阅读 下载PDF
面向主题网络爬行的智能隧道穿越算法研究 被引量:6
6
作者 黄莉 王成良 杨铮 《计算机应用研究》 CSCD 北大核心 2009年第8期2931-2933,共3页
在深入研究传统的主题网络爬虫爬行策略的基础上,提出了一种全新的智能隧道穿越算法。该算法将快速在线Q(λ)学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导主题网络爬虫以最小的时空代价穿越主题相关度低的区域到... 在深入研究传统的主题网络爬虫爬行策略的基础上,提出了一种全新的智能隧道穿越算法。该算法将快速在线Q(λ)学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导主题网络爬虫以最小的时空代价穿越主题相关度低的区域到达主题相关度高的区域。模拟实验表明,与普通隧道相比,智能隧道算法降低了时空复杂度,提高了主题网络爬虫的性能与运行效率。 展开更多
关键词 主题网络爬虫 爬行策略 隧道 在线学习 马尔可夫
在线阅读 下载PDF
网络爬虫效率瓶颈的分析与解决方案 被引量:18
7
作者 尹江 尹治本 黄洪 《计算机应用》 CSCD 北大核心 2008年第5期1114-1116,1119,共4页
网络爬虫的效率,直接关系到搜索引擎系统为用户提的供服务质量。如何设计高效、快速的网络爬虫,成为目前网络爬虫研究的热点。要提高网络爬虫的爬行效率,除了需要改进网络爬虫的爬行策略之外,还需要优化网络爬自身的设计,改进网络爬虫... 网络爬虫的效率,直接关系到搜索引擎系统为用户提的供服务质量。如何设计高效、快速的网络爬虫,成为目前网络爬虫研究的热点。要提高网络爬虫的爬行效率,除了需要改进网络爬虫的爬行策略之外,还需要优化网络爬自身的设计,改进网络爬虫自身的结构,消除效率瓶颈。通过对网络爬虫结构、应用环境以及用户要求的分析,提出一个通用网络爬虫的改进设计方案,并通过实验得到较好的测试结果。 展开更多
关键词 爬行策略 套接字 多线程 网络爬虫
在线阅读 下载PDF
网络蜘蛛在网络论坛领域的研究与设计
8
作者 滕召生 胡德敏 《计算机应用研究》 CSCD 北大核心 2011年第2期492-494,520,共4页
为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构... 为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构展现给用户。而这种布局结构可以通过DOM树体现出来,对DOM树进行操作,提取出URL,然后对重复的URL进行过滤。实验表明该爬行策略提高了网络蜘蛛爬行效率,节省网络带宽及本地存储空间。 展开更多
关键词 网络蜘蛛 文档对象模型树 页面重复区域 爬行策略 重复模板
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部