期刊文献+
共找到196篇文章
< 1 2 10 >
每页显示 20 50 100
分布式Web Crawler的研究:结构、算法和策略 被引量:23
1
作者 叶允明 于水 +2 位作者 马范援 宋晖 张岭 《电子学报》 EI CAS CSCD 北大核心 2002年第12A期2008-2011,共4页
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageR... 本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页. 展开更多
关键词 web爬虫 爬行策略 分布式系统 计算机网络 网页
在线阅读 下载PDF
增量更新Crawler进行Web收集方法研究 被引量:2
2
作者 程菲 汪建海 罗键 《计算机工程与科学》 CSCD 2006年第12期28-30,98,共4页
本文针对目前Web信息挖掘中存在的各种问题,对网络爬虫系统进行研究,提出了一种基于HTTP协议原理、旨在减少网络爬虫系统运行时网络流量的Web页面收集方法———增量更新Crawler方法。该方法通过Web预取技术对现有的Web链接数据库进行... 本文针对目前Web信息挖掘中存在的各种问题,对网络爬虫系统进行研究,提出了一种基于HTTP协议原理、旨在减少网络爬虫系统运行时网络流量的Web页面收集方法———增量更新Crawler方法。该方法通过Web预取技术对现有的Web链接数据库进行演化更新,可以在减少网络流量的同时获得接近现有网络爬虫系统的效果。 展开更多
关键词 信息检索 网络爬虫 增量更新
在线阅读 下载PDF
一种通用Web信息采集系统的设计与实现 被引量:11
3
作者 吴丽辉 王斌 余智华 《计算机工程》 EI CAS CSCD 北大核心 2005年第3期123-124,194,共3页
介绍了一种通用的Web信息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统实际的应用。实践证明,该系统能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。
关键词 web信息 通用性 采集系统 服务器 信息发布 信息采集 设计 证明 实际 系统总体结构
在线阅读 下载PDF
面向Web的信息收集工具的设计与开发 被引量:14
4
作者 潘春华 常敏 武港山 《计算机应用研究》 CSCD 北大核心 2002年第6期144-147,共4页
随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系... 随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。 展开更多
关键词 web 信息收集工具 设计 页面收集 信息处理 网络爬虫 万维网 INTERNET
在线阅读 下载PDF
基于主题的Web信息采集系统的设计与实现 被引量:23
5
作者 李盛韬 赵章界 余智华 《计算机工程》 CAS CSCD 北大核心 2003年第17期102-104,共3页
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。
关键词 信息采集 信息检索 信息处理 主题采集
在线阅读 下载PDF
分布式Web信息采集系统的研究与设计 被引量:10
6
作者 李盛韬 成绫 余智华 《计算机工程与应用》 CSCD 北大核心 2003年第16期162-166,182,共6页
Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统... Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统进行了仔细的剖析。最后,对分布式Web信息采集的发展作了一个展望。 展开更多
关键词 信息采集 分布式 搜索引擎 信息处理 web
在线阅读 下载PDF
改进的PageRank在Web信息搜集中的应用 被引量:12
7
作者 秦拯 张玲 李娜 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1044-1049,共6页
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主... PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度· 展开更多
关键词 PAGERANK算法 主题分块 web信息搜集
在线阅读 下载PDF
Web恶意代码主动检测与分析系统的设计与实现 被引量:5
8
作者 倪平 陈正果 +1 位作者 欧阳雄弈 王冬 《计算机应用》 CSCD 北大核心 2011年第A02期106-108,共3页
在深入研究了客户端蜜罐的基础上,提出了动态与静态相结合的Web恶意代码检测方法,实现了Web恶意代码主动检测与分析系统(HoneyCat)。该系统主动对指定的网站进行检测,并对可疑的页面进行分析,通过动态跟踪检测IE进程对注册表和文件的操... 在深入研究了客户端蜜罐的基础上,提出了动态与静态相结合的Web恶意代码检测方法,实现了Web恶意代码主动检测与分析系统(HoneyCat)。该系统主动对指定的网站进行检测,并对可疑的页面进行分析,通过动态跟踪检测IE进程对注册表和文件的操作以及其网络行为,发现是否存在可疑行为,然后对有可疑行为的网页进行静态分析。静态分析利用漏洞特征库定位恶意代码的准确位置和所利用的漏洞。对于无法识别所利用漏洞的页面生成一个分析文件,为手工分析提供帮助,有助于对漏洞的研究,并有机会发掘未知漏洞。经过测试发现该系统运行稳定,准确率高,能有效地检测出页面中的恶意代码。 展开更多
关键词 web恶意代码 客户端蜜罐 网络爬虫 动态检测 静态分析
在线阅读 下载PDF
Deep Web爬虫爬行策略研究 被引量:13
9
作者 郑冬冬 崔志明 《计算机工程与设计》 CSCD 北大核心 2006年第17期3154-3158,共5页
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供... 如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。 展开更多
关键词 DEEP web DEEP web爬虫 查询选择 查询效能 适应性爬行算法
在线阅读 下载PDF
Deep Web数据采集查询构造方法研究 被引量:2
10
作者 林海伦 杨晓刚 +3 位作者 熊锦华 王元卓 贾岩涛 程学旗 《计算机科学与探索》 CSCD 北大核心 2015年第9期1025-1033,共9页
网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到... 网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到这些数据,影响了获取到的知识资源的覆盖率,如何高效地采集这些数据并加以利用非常具有挑战性。为此对现有的Deep Web数据采集的查询构造方法进行了详细分析,分别介绍了针对不同类型的表单对应的Deep Web数据采集查询构造方法;总结了现有表层化方式的Deep Web数据采集查询构造方法的优缺点,并对Deep Web数据采集查询构造方法的未来工作进行了展望,以推动Deep Web数据采集技术的进一步发展。 展开更多
关键词 DEEP web 查询接口 查询构造 网络爬虫
在线阅读 下载PDF
主题Deep Web爬虫框架研究 被引量:3
11
作者 黄聪会 张水平 胡洋 《计算机工程与设计》 CSCD 北大核心 2010年第5期929-931,935,共4页
为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web信息的爬虫框架。针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不... 为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web信息的爬虫框架。针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不同主题的Deep Web数据库和采用常用字最大限度下载Deep Web信息的技术。实验结果表明了该框架采用的技术是可行的。 展开更多
关键词 深网 爬虫 搜索引擎 信息抽取 常用字
在线阅读 下载PDF
Deep Web数据源聚焦爬虫 被引量:11
12
作者 林超 赵朋朋 崔志明 《计算机工程》 CAS CSCD 北大核心 2008年第7期56-58,共3页
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考... Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。 展开更多
关键词 DEEP web数据源 聚焦爬虫 贝叶斯分类器
在线阅读 下载PDF
Web论坛数据源增量爬虫的研究 被引量:5
13
作者 蔡欣宝 郭若飞 +1 位作者 赵朋朋 崔志明 《计算机工程》 CAS CSCD 北大核心 2010年第9期285-287,共3页
针对Web论坛站点结构复杂、内容更新快等特点,提出一种针对论坛的增量信息采集算法,使用站点地图重建技术及网页更新频繁度估计方法,根据站点地图选择有效的链接,按照网页更新频度确定网页的采集频度。实验结果表明,该方法是有效的。
关键词 web论坛 增量爬虫 站点地图 泊松模型
在线阅读 下载PDF
基于深层网络爬虫的Web地图服务发现方法 被引量:11
14
作者 侯东阳 武昊 +1 位作者 王军锋 王明山 《地理与地理信息科学》 CSCD 北大核心 2015年第5期10-13,19,共5页
传统Web地图服务(Web Map Service,WMS)发现方法只能检索表层网络中的地图服务,无法发现深层网络中日益增加的地图服务。针对这一现象,该文提出了一种利用深层网络爬虫的WMS发现方法。首先,从WMS的应用角度出发,总结了两条WMS应用规则,... 传统Web地图服务(Web Map Service,WMS)发现方法只能检索表层网络中的地图服务,无法发现深层网络中日益增加的地图服务。针对这一现象,该文提出了一种利用深层网络爬虫的WMS发现方法。首先,从WMS的应用角度出发,总结了两条WMS应用规则,并利用正则表达式对它们进行了形式化描述;然后,针对每条应用规则制定了相应的使用流程;最后以传统地图服务爬虫为基础,通过新增脚本解析引擎和应用规则构建了深层网络爬虫。实验表明,该方法可以同时发现位于表层网络和深层网络中的Web地图服务。 展开更多
关键词 web地图服务 服务发现 爬虫 深层网络
在线阅读 下载PDF
Deep Web入口探测与分类方法研究 被引量:2
15
作者 张亮 陆余良 刘金红 《计算机应用研究》 CSCD 北大核心 2009年第12期4697-4700,4703,共5页
传统的使用语料库对入口标签字符串进行匹配的方法受限于语料库的完整性和匹配算法的灵活性。为突破这种局限,引入了基于表单元件统计特征的Deep Web入口探测方法和使用文本分类方法对其进行分类的双层分类模型,并提出了两种特征权重计... 传统的使用语料库对入口标签字符串进行匹配的方法受限于语料库的完整性和匹配算法的灵活性。为突破这种局限,引入了基于表单元件统计特征的Deep Web入口探测方法和使用文本分类方法对其进行分类的双层分类模型,并提出了两种特征权重计算方法用于特征选取。在TEL-8 Query Interfaces数据集上,测试结果体现了双层分类模型的优越性和特征向量维归约的必要性。 展开更多
关键词 DEEPweb 网络爬虫 结构特征 维归约 双层分类模型
在线阅读 下载PDF
基于启发式查询词选择算法的Hidden Web获取研究 被引量:1
16
作者 姚全珠 杨增辉 +1 位作者 张楠 田元 《计算机工程与应用》 CSCD 北大核心 2007年第34期174-176,203,共4页
Hidden Web因为其隐蔽性而难以直接抓取,因此成为信息检索研究的一个新领域。提出了一种获取Hidden Web信息的方法,讨论了实现的关键技术。通过设计提出的启发式查询词选择算法,提高了抓取的效率。实验证明了该模型和算法的有效性。
关键词 信息检索 Hidden web 爬虫 启发式算法
在线阅读 下载PDF
基于主题相关度的地理信息Web服务爬虫研究 被引量:12
17
作者 武昊 廖安平 +1 位作者 何超英 侯东阳 《地理与地理信息科学》 CSCD 北大核心 2012年第2期27-30,共4页
针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算... 针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算法从URL和锚文本两方面分析链接的重要性,优化爬取队列。实验表明,该方法在服务检索效率和抓取能力上都取得了良好的效果。 展开更多
关键词 地理信息web服务 服务检索 爬虫 主题相关度
在线阅读 下载PDF
智能专题化信息搜集Crawler 被引量:4
18
作者 钱榕 徐新华 +1 位作者 郑莹 杨炳儒 《计算机工程》 CAS CSCD 北大核心 2006年第3期57-59,共3页
介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑... 介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑网页的全部内容,而通过提取网页的HTML描述中的重要标记,对Web网页进行内容和结构分析,从而判断爬行到的网页与主题的相关性,以提高信息搜集的效率和精确性。 展开更多
关键词 专题化爬行 web挖掘 神经网络 加强学习
在线阅读 下载PDF
基于综合价值的Web主题信息搜集策略研究 被引量:1
19
作者 张玲 林亚平 +1 位作者 陈治平 童调生 《系统仿真学报》 EI CAS CSCD 北大核心 2005年第2期323-326,共4页
启发式的Web主题信息搜集系统依据链接的重要性决定访问Web的顺序,因此如何评价链接价值是决定其搜索策略的关键。提出一种基于综合价值的搜索算法,它综合了立即价值和未来价值两种链接评价方法,并依据链接价值所反映的Web实际搜索情况... 启发式的Web主题信息搜集系统依据链接的重要性决定访问Web的顺序,因此如何评价链接价值是决定其搜索策略的关键。提出一种基于综合价值的搜索算法,它综合了立即价值和未来价值两种链接评价方法,并依据链接价值所反映的Web实际搜索情况对两种价值间的关系进行动态调整,使网络蜘蛛能更准确地预测页面的重要性。实验结果表明,新的算法具有较高的搜索效率。 展开更多
关键词 网络蜘蛛 搜索策略 立即价值 未来价值
在线阅读 下载PDF
民航主题Hidden-Web爬虫的设计与实现 被引量:1
20
作者 张校慧 徐彬 +1 位作者 陈国强 陈珊 《计算机应用与软件》 CSCD 北大核心 2008年第7期187-189,共3页
分析了现今搜索引擎技术在民航主题Hidden-Web获取方面的缺陷,以此为鉴设计并实现了一个民航主题Hidden-Web爬虫。此爬虫使用主题分类等相关技术发现并抓取民航主题Hidden-Web所对应的前台Form,生成相应的Form库,然后利用启发式规则对F... 分析了现今搜索引擎技术在民航主题Hidden-Web获取方面的缺陷,以此为鉴设计并实现了一个民航主题Hidden-Web爬虫。此爬虫使用主题分类等相关技术发现并抓取民航主题Hidden-Web所对应的前台Form,生成相应的Form库,然后利用启发式规则对Form库中的Form进行填写并搜集含有匹配结果的页面集。实验证明此爬虫的性能令人满意且对其它Hidden-Web的应用研究具有借鉴意义。 展开更多
关键词 Hidden-web FORM 民航 爬虫
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部