检索结果-维普期刊中文期刊服务平台

一种新的主题网络爬虫爬行策略被引量：15: 1; 作者宋海洋刘晓然钱海俊《计算机应用与软件》 CSCD 2011年第11期264-267,293,共5页; 为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不... 展开更多; 关键词主题网络爬虫爬行策略二次爬行相关度分析; 在线阅读下载PDF 职称材料

一种Deep Web爬虫爬行策略被引量：4: 2; 作者刘徽黄宽娜余建桥《计算机工程》 CAS CSCD 2012年第11期284-286,共3页; Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提... 展开更多; 关键词 DEEP WEB页面反馈机制爬行策略聚焦爬虫网络数据库分类器; 在线阅读下载PDF 职称材料

基于关键词相关度的Deep Web爬虫爬行策略被引量：7: 3; 作者田野丁岳伟《计算机工程》 CAS CSCD 北大核心 2008年第15期220-222,共3页; Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下... 展开更多; 关键词 Deep WEB页面爬行策略关键词选择相关度权重覆盖率; 在线阅读下载PDF 职称材料

一种适用于动态网页的网络蜘蛛爬行策略研究被引量：5: 4; 作者邵斐孙济庆《情报杂志》 CSSCI 北大核心 2007年第5期28-30,共3页; 网络搜索是目前从因特网上快速有效获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,但随着动态网页数量的激增,传统的针对静态网页处理为主的网络蜘蛛爬行策略已经越来越不适用于现在的网络环境。在对动... 展开更多; 关键词网络蜘蛛动态网页爬行策略; 在线阅读下载PDF 职称材料

分布式Web Crawler的研究:结构、算法和策略被引量：23: 5; 作者叶允明于水 +2 位作者马范援宋晖张岭《电子学报》 EI CAS CSCD 北大核心 2002年第12A期2008-2011,共4页; 本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageR... 展开更多; 关键词 WEB爬虫爬行策略分布式系统计算机网络网页; 在线阅读下载PDF 职称材料

面向主题网络爬行的智能隧道穿越算法研究被引量：6: 6; 作者黄莉王成良杨铮《计算机应用研究》 CSCD 北大核心 2009年第8期2931-2933,共3页; 在深入研究传统的主题网络爬虫爬行策略的基础上,提出了一种全新的智能隧道穿越算法。该算法将快速在线Q(λ)学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导主题网络爬虫以最小的时空代价穿越主题相关度低的区域到... 展开更多; 关键词主题网络爬虫爬行策略隧道在线学习马尔可夫; 在线阅读下载PDF 职称材料

网络爬虫效率瓶颈的分析与解决方案被引量：18: 7; 作者尹江尹治本黄洪《计算机应用》 CSCD 北大核心 2008年第5期1114-1116,1119,共4页; 网络爬虫的效率,直接关系到搜索引擎系统为用户提的供服务质量。如何设计高效、快速的网络爬虫,成为目前网络爬虫研究的热点。要提高网络爬虫的爬行效率,除了需要改进网络爬虫的爬行策略之外,还需要优化网络爬自身的设计,改进网络爬虫... 展开更多; 关键词爬行策略套接字多线程网络爬虫; 在线阅读下载PDF 职称材料

网络蜘蛛在网络论坛领域的研究与设计: 8; 作者滕召生胡德敏《计算机应用研究》 CSCD 北大核心 2011年第2期492-494,520,共4页; 为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构... 展开更多; 关键词网络蜘蛛文档对象模型树页面重复区域爬行策略重复模板; 在线阅读下载PDF 职称材料

题名一种新的主题网络爬虫爬行策略被引量：15: 1; 作者宋海洋刘晓然钱海俊; 机构海军指挥学院信息战研究系; 出处《计算机应用与软件》 CSCD 2011年第11期264-267,293,共5页; 文摘为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不同的相关度分析算法相结合,并且可以保存爬虫爬行过程中所得到的"经验",实现对后续爬行的指导。实验结果表明通过改进后的策略实现的主题网络爬虫在性能上有较大提升。; 关键词主题网络爬虫爬行策略二次爬行相关度分析; Keywords Focused web crawler Crawling strategy Second crawl Correlation analysis; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名一种Deep Web爬虫爬行策略被引量：4: 2; 作者刘徽黄宽娜余建桥; 机构乐山师范学院数学与信息科学学院西南大学计算机与信息科学学院; 出处《计算机工程》 CAS CSCD 2012年第11期284-286,共3页; 基金四川省教育厅科研基金资助项目(10ZB023); 文摘 Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。; 关键词 DEEP WEB页面反馈机制爬行策略聚焦爬虫网络数据库分类器; Keywords Deep Web page feedback mechanism crawling strategy focused crawler network database classifier; 分类号 TP393 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于关键词相关度的Deep Web爬虫爬行策略被引量：7: 3; 作者田野丁岳伟; 机构上海理工大学计算机工程学院; 出处《计算机工程》 CAS CSCD 北大核心 2008年第15期220-222,共3页; 文摘 Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下载Deep Web页面。由于该页面只提供一个查询接口,因此Deep Web爬虫设计面对的主要挑战是怎样选择最佳的查询关键词产生有意义的查询。实验证明文中提出的一种基于不同关键词相关度权重的选择方法是有效的。; 关键词 Deep WEB页面爬行策略关键词选择相关度权重覆盖率; Keywords Deep Web crawling strategy keywords selection relevant weight covering rate; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名一种适用于动态网页的网络蜘蛛爬行策略研究被引量：5: 4; 作者邵斐孙济庆; 机构华东理工大学; 出处《情报杂志》 CSSCI 北大核心 2007年第5期28-30,共3页; 文摘网络搜索是目前从因特网上快速有效获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,但随着动态网页数量的激增,传统的针对静态网页处理为主的网络蜘蛛爬行策略已经越来越不适用于现在的网络环境。在对动态网页结构分析的基础上,提出了一套适用于动态网页的网络蜘蛛爬行策略,其性能对动态网页的爬行与信息搜索可取得良好的效果。; 关键词网络蜘蛛动态网页爬行策略; 分类号 TP393 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名分布式Web Crawler的研究:结构、算法和策略被引量：23: 5; 作者叶允明于水马范援宋晖张岭; 机构上海交通大学计算机科学与工程系; 出处《电子学报》 EI CAS CSCD 北大核心 2002年第12A期2008-2011,共4页; 基金国家自然科学基金(No.60221120145) 上海市科委基础研究重点项目(No.02DJ14045); 文摘本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页.; 关键词 WEB爬虫爬行策略分布式系统计算机网络网页; Keywords Web crawler crawling strategy distributed system; 分类号 TP393.092 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名面向主题网络爬行的智能隧道穿越算法研究被引量：6: 6; 作者黄莉王成良杨铮; 机构重庆大学计算机学院重庆大学软件学院; 出处《计算机应用研究》 CSCD 北大核心 2009年第8期2931-2933,共3页; 文摘在深入研究传统的主题网络爬虫爬行策略的基础上,提出了一种全新的智能隧道穿越算法。该算法将快速在线Q(λ)学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导主题网络爬虫以最小的时空代价穿越主题相关度低的区域到达主题相关度高的区域。模拟实验表明,与普通隧道相比,智能隧道算法降低了时空复杂度,提高了主题网络爬虫的性能与运行效率。; 关键词主题网络爬虫爬行策略隧道在线学习马尔可夫; Keywords focused crawler focused crawling strategy tunneling online learning Markov; 分类号 TP39 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名网络爬虫效率瓶颈的分析与解决方案被引量：18: 7; 作者尹江尹治本黄洪; 机构西南交通大学信息科学与技术学院; 出处《计算机应用》 CSCD 北大核心 2008年第5期1114-1116,1119,共4页; 文摘网络爬虫的效率,直接关系到搜索引擎系统为用户提的供服务质量。如何设计高效、快速的网络爬虫,成为目前网络爬虫研究的热点。要提高网络爬虫的爬行效率,除了需要改进网络爬虫的爬行策略之外,还需要优化网络爬自身的设计,改进网络爬虫自身的结构,消除效率瓶颈。通过对网络爬虫结构、应用环境以及用户要求的分析,提出一个通用网络爬虫的改进设计方案,并通过实验得到较好的测试结果。; 关键词爬行策略套接字多线程网络爬虫; Keywords crawl strategy socket multi-thread Web crawler; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名网络蜘蛛在网络论坛领域的研究与设计: 8; 作者滕召生胡德敏; 机构上海理工大学光电信息与计算机工程学院; 出处《计算机应用研究》 CSCD 北大核心 2011年第2期492-494,520,共4页; 文摘为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构展现给用户。而这种布局结构可以通过DOM树体现出来,对DOM树进行操作,提取出URL,然后对重复的URL进行过滤。实验表明该爬行策略提高了网络蜘蛛爬行效率,节省网络带宽及本地存储空间。; 关键词网络蜘蛛文档对象模型树页面重复区域爬行策略重复模板; Keywords Web spider DOM（document object model）tree repetitive region crawling strategies repetitive template; 分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	一种新的主题网络爬虫爬行策略	宋海洋刘晓然钱海俊	《计算机应用与软件》 CSCD	2011	15	在线阅读下载PDF 职称材料
2	一种Deep Web爬虫爬行策略	刘徽黄宽娜余建桥	《计算机工程》 CAS CSCD	2012	4	在线阅读下载PDF 职称材料
3	基于关键词相关度的Deep Web爬虫爬行策略	田野丁岳伟	《计算机工程》 CAS CSCD 北大核心	2008	7	在线阅读下载PDF 职称材料
4	一种适用于动态网页的网络蜘蛛爬行策略研究	邵斐孙济庆	《情报杂志》 CSSCI 北大核心	2007	5	在线阅读下载PDF 职称材料
5	分布式Web Crawler的研究:结构、算法和策略	叶允明于水马范援宋晖张岭	《电子学报》 EI CAS CSCD 北大核心	2002	23	在线阅读下载PDF 职称材料
6	面向主题网络爬行的智能隧道穿越算法研究	黄莉王成良杨铮	《计算机应用研究》 CSCD 北大核心	2009	6	在线阅读下载PDF 职称材料
7	网络爬虫效率瓶颈的分析与解决方案	尹江尹治本黄洪	《计算机应用》 CSCD 北大核心	2008	18	在线阅读下载PDF 职称材料
8	网络蜘蛛在网络论坛领域的研究与设计	滕召生胡德敏	《计算机应用研究》 CSCD 北大核心	2011	0	在线阅读下载PDF 职称材料