期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种新的主题网络爬虫爬行策略
被引量:
15
1
作者
宋海洋
刘晓然
钱海俊
《计算机应用与软件》
CSCD
2011年第11期264-267,293,共5页
为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不...
为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不同的相关度分析算法相结合,并且可以保存爬虫爬行过程中所得到的"经验",实现对后续爬行的指导。实验结果表明通过改进后的策略实现的主题网络爬虫在性能上有较大提升。
展开更多
关键词
主题网络爬虫
爬行策略
二次
爬行
相关度分析
在线阅读
下载PDF
职称材料
一种Deep Web爬虫爬行策略
被引量:
4
2
作者
刘徽
黄宽娜
余建桥
《计算机工程》
CAS
CSCD
2012年第11期284-286,共3页
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提...
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。
展开更多
关键词
DEEP
WEB页面
反馈机制
爬行策略
聚焦爬虫
网络数据库
分类器
在线阅读
下载PDF
职称材料
基于关键词相关度的Deep Web爬虫爬行策略
被引量:
7
3
作者
田野
丁岳伟
《计算机工程》
CAS
CSCD
北大核心
2008年第15期220-222,共3页
Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下...
Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下载Deep Web页面。由于该页面只提供一个查询接口,因此Deep Web爬虫设计面对的主要挑战是怎样选择最佳的查询关键词产生有意义的查询。实验证明文中提出的一种基于不同关键词相关度权重的选择方法是有效的。
展开更多
关键词
Deep
WEB页面
爬行策略
关键词选择
相关度权重
覆盖率
在线阅读
下载PDF
职称材料
一种适用于动态网页的网络蜘蛛爬行策略研究
被引量:
5
4
作者
邵斐
孙济庆
《情报杂志》
CSSCI
北大核心
2007年第5期28-30,共3页
网络搜索是目前从因特网上快速有效获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,但随着动态网页数量的激增,传统的针对静态网页处理为主的网络蜘蛛爬行策略已经越来越不适用于现在的网络环境。在对动...
网络搜索是目前从因特网上快速有效获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,但随着动态网页数量的激增,传统的针对静态网页处理为主的网络蜘蛛爬行策略已经越来越不适用于现在的网络环境。在对动态网页结构分析的基础上,提出了一套适用于动态网页的网络蜘蛛爬行策略,其性能对动态网页的爬行与信息搜索可取得良好的效果。
展开更多
关键词
网络蜘蛛
动态网页
爬行策略
在线阅读
下载PDF
职称材料
分布式Web Crawler的研究:结构、算法和策略
被引量:
23
5
作者
叶允明
于水
+2 位作者
马范援
宋晖
张岭
《电子学报》
EI
CAS
CSCD
北大核心
2002年第12A期2008-2011,共4页
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageR...
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页.
展开更多
关键词
WEB爬虫
爬行策略
分布式系统
计算机网络
网页
在线阅读
下载PDF
职称材料
面向主题网络爬行的智能隧道穿越算法研究
被引量:
6
6
作者
黄莉
王成良
杨铮
《计算机应用研究》
CSCD
北大核心
2009年第8期2931-2933,共3页
在深入研究传统的主题网络爬虫爬行策略的基础上,提出了一种全新的智能隧道穿越算法。该算法将快速在线Q(λ)学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导主题网络爬虫以最小的时空代价穿越主题相关度低的区域到...
在深入研究传统的主题网络爬虫爬行策略的基础上,提出了一种全新的智能隧道穿越算法。该算法将快速在线Q(λ)学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导主题网络爬虫以最小的时空代价穿越主题相关度低的区域到达主题相关度高的区域。模拟实验表明,与普通隧道相比,智能隧道算法降低了时空复杂度,提高了主题网络爬虫的性能与运行效率。
展开更多
关键词
主题网络爬虫
爬行策略
隧道
在线学习
马尔可夫
在线阅读
下载PDF
职称材料
网络爬虫效率瓶颈的分析与解决方案
被引量:
18
7
作者
尹江
尹治本
黄洪
《计算机应用》
CSCD
北大核心
2008年第5期1114-1116,1119,共4页
网络爬虫的效率,直接关系到搜索引擎系统为用户提的供服务质量。如何设计高效、快速的网络爬虫,成为目前网络爬虫研究的热点。要提高网络爬虫的爬行效率,除了需要改进网络爬虫的爬行策略之外,还需要优化网络爬自身的设计,改进网络爬虫...
网络爬虫的效率,直接关系到搜索引擎系统为用户提的供服务质量。如何设计高效、快速的网络爬虫,成为目前网络爬虫研究的热点。要提高网络爬虫的爬行效率,除了需要改进网络爬虫的爬行策略之外,还需要优化网络爬自身的设计,改进网络爬虫自身的结构,消除效率瓶颈。通过对网络爬虫结构、应用环境以及用户要求的分析,提出一个通用网络爬虫的改进设计方案,并通过实验得到较好的测试结果。
展开更多
关键词
爬行策略
套接字
多线程
网络爬虫
在线阅读
下载PDF
职称材料
网络蜘蛛在网络论坛领域的研究与设计
8
作者
滕召生
胡德敏
《计算机应用研究》
CSCD
北大核心
2011年第2期492-494,520,共4页
为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构...
为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构展现给用户。而这种布局结构可以通过DOM树体现出来,对DOM树进行操作,提取出URL,然后对重复的URL进行过滤。实验表明该爬行策略提高了网络蜘蛛爬行效率,节省网络带宽及本地存储空间。
展开更多
关键词
网络蜘蛛
文档对象模型树
页面重复区域
爬行策略
重复模板
在线阅读
下载PDF
职称材料
题名
一种新的主题网络爬虫爬行策略
被引量:
15
1
作者
宋海洋
刘晓然
钱海俊
机构
海军指挥学院信息战研究系
出处
《计算机应用与软件》
CSCD
2011年第11期264-267,293,共5页
文摘
为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不同的相关度分析算法相结合,并且可以保存爬虫爬行过程中所得到的"经验",实现对后续爬行的指导。实验结果表明通过改进后的策略实现的主题网络爬虫在性能上有较大提升。
关键词
主题网络爬虫
爬行策略
二次
爬行
相关度分析
Keywords
Focused web crawler Crawling strategy Second crawl Correlation analysis
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种Deep Web爬虫爬行策略
被引量:
4
2
作者
刘徽
黄宽娜
余建桥
机构
乐山师范学院数学与信息科学学院
西南大学计算机与信息科学学院
出处
《计算机工程》
CAS
CSCD
2012年第11期284-286,共3页
基金
四川省教育厅科研基金资助项目(10ZB023)
文摘
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。
关键词
DEEP
WEB页面
反馈机制
爬行策略
聚焦爬虫
网络数据库
分类器
Keywords
Deep Web page
feedback mechanism
crawling strategy
focused crawler
network database
classifier
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于关键词相关度的Deep Web爬虫爬行策略
被引量:
7
3
作者
田野
丁岳伟
机构
上海理工大学计算机工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第15期220-222,共3页
文摘
Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下载Deep Web页面。由于该页面只提供一个查询接口,因此Deep Web爬虫设计面对的主要挑战是怎样选择最佳的查询关键词产生有意义的查询。实验证明文中提出的一种基于不同关键词相关度权重的选择方法是有效的。
关键词
Deep
WEB页面
爬行策略
关键词选择
相关度权重
覆盖率
Keywords
Deep Web
crawling strategy
keywords selection
relevant weight
covering rate
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
一种适用于动态网页的网络蜘蛛爬行策略研究
被引量:
5
4
作者
邵斐
孙济庆
机构
华东理工大学
出处
《情报杂志》
CSSCI
北大核心
2007年第5期28-30,共3页
文摘
网络搜索是目前从因特网上快速有效获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,但随着动态网页数量的激增,传统的针对静态网页处理为主的网络蜘蛛爬行策略已经越来越不适用于现在的网络环境。在对动态网页结构分析的基础上,提出了一套适用于动态网页的网络蜘蛛爬行策略,其性能对动态网页的爬行与信息搜索可取得良好的效果。
关键词
网络蜘蛛
动态网页
爬行策略
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
分布式Web Crawler的研究:结构、算法和策略
被引量:
23
5
作者
叶允明
于水
马范援
宋晖
张岭
机构
上海交通大学计算机科学与工程系
出处
《电子学报》
EI
CAS
CSCD
北大核心
2002年第12A期2008-2011,共4页
基金
国家自然科学基金(No.60221120145)
上海市科委基础研究重点项目(No.02DJ14045)
文摘
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页.
关键词
WEB爬虫
爬行策略
分布式系统
计算机网络
网页
Keywords
Web crawler
crawling strategy
distributed system
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
面向主题网络爬行的智能隧道穿越算法研究
被引量:
6
6
作者
黄莉
王成良
杨铮
机构
重庆大学计算机学院
重庆大学软件学院
出处
《计算机应用研究》
CSCD
北大核心
2009年第8期2931-2933,共3页
文摘
在深入研究传统的主题网络爬虫爬行策略的基础上,提出了一种全新的智能隧道穿越算法。该算法将快速在线Q(λ)学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导主题网络爬虫以最小的时空代价穿越主题相关度低的区域到达主题相关度高的区域。模拟实验表明,与普通隧道相比,智能隧道算法降低了时空复杂度,提高了主题网络爬虫的性能与运行效率。
关键词
主题网络爬虫
爬行策略
隧道
在线学习
马尔可夫
Keywords
focused crawler
focused crawling strategy
tunneling
online learning
Markov
分类号
TP39 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
网络爬虫效率瓶颈的分析与解决方案
被引量:
18
7
作者
尹江
尹治本
黄洪
机构
西南交通大学信息科学与技术学院
出处
《计算机应用》
CSCD
北大核心
2008年第5期1114-1116,1119,共4页
文摘
网络爬虫的效率,直接关系到搜索引擎系统为用户提的供服务质量。如何设计高效、快速的网络爬虫,成为目前网络爬虫研究的热点。要提高网络爬虫的爬行效率,除了需要改进网络爬虫的爬行策略之外,还需要优化网络爬自身的设计,改进网络爬虫自身的结构,消除效率瓶颈。通过对网络爬虫结构、应用环境以及用户要求的分析,提出一个通用网络爬虫的改进设计方案,并通过实验得到较好的测试结果。
关键词
爬行策略
套接字
多线程
网络爬虫
Keywords
crawl strategy
socket
multi-thread
Web crawler
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
网络蜘蛛在网络论坛领域的研究与设计
8
作者
滕召生
胡德敏
机构
上海理工大学光电信息与计算机工程学院
出处
《计算机应用研究》
CSCD
北大核心
2011年第2期492-494,520,共4页
文摘
为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构展现给用户。而这种布局结构可以通过DOM树体现出来,对DOM树进行操作,提取出URL,然后对重复的URL进行过滤。实验表明该爬行策略提高了网络蜘蛛爬行效率,节省网络带宽及本地存储空间。
关键词
网络蜘蛛
文档对象模型树
页面重复区域
爬行策略
重复模板
Keywords
Web spider
DOM(document object model)tree
repetitive region
crawling strategies
repetitive template
分类号
TP311.1 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种新的主题网络爬虫爬行策略
宋海洋
刘晓然
钱海俊
《计算机应用与软件》
CSCD
2011
15
在线阅读
下载PDF
职称材料
2
一种Deep Web爬虫爬行策略
刘徽
黄宽娜
余建桥
《计算机工程》
CAS
CSCD
2012
4
在线阅读
下载PDF
职称材料
3
基于关键词相关度的Deep Web爬虫爬行策略
田野
丁岳伟
《计算机工程》
CAS
CSCD
北大核心
2008
7
在线阅读
下载PDF
职称材料
4
一种适用于动态网页的网络蜘蛛爬行策略研究
邵斐
孙济庆
《情报杂志》
CSSCI
北大核心
2007
5
在线阅读
下载PDF
职称材料
5
分布式Web Crawler的研究:结构、算法和策略
叶允明
于水
马范援
宋晖
张岭
《电子学报》
EI
CAS
CSCD
北大核心
2002
23
在线阅读
下载PDF
职称材料
6
面向主题网络爬行的智能隧道穿越算法研究
黄莉
王成良
杨铮
《计算机应用研究》
CSCD
北大核心
2009
6
在线阅读
下载PDF
职称材料
7
网络爬虫效率瓶颈的分析与解决方案
尹江
尹治本
黄洪
《计算机应用》
CSCD
北大核心
2008
18
在线阅读
下载PDF
职称材料
8
网络蜘蛛在网络论坛领域的研究与设计
滕召生
胡德敏
《计算机应用研究》
CSCD
北大核心
2011
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部