期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于访问内容类型统计的Web Robot检测算法 被引量:1
1
作者 郭伟刚 鞠时光 《计算机科学》 CSCD 北大核心 2005年第8期179-181,共3页
随着搜索引擎的广泛使用,由此而引起的网络机器人(Web Robot)对于Web站点的访问所产生的影响必须引起重视。该文分析了网络机器人的访问行为特点,提出了一个基于访问内容类型统计的检测算法。经实验验证,该算法可以有效地检测未知的和... 随着搜索引擎的广泛使用,由此而引起的网络机器人(Web Robot)对于Web站点的访问所产生的影响必须引起重视。该文分析了网络机器人的访问行为特点,提出了一个基于访问内容类型统计的检测算法。经实验验证,该算法可以有效地检测未知的和不遵守网络机器人排斥标准的Robot。 展开更多
关键词 搜索引擎 网络机器人 内容分类 检测 web 日志 web站点 检测算法 robot 统计
在线阅读 下载PDF
一个基于事务分析的Web Robot检测算法 被引量:1
2
作者 郭伟刚 鞠时光 《计算机应用》 CSCD 北大核心 2005年第7期1580-1583,共4页
分析了网络机器人(WebRobot)的访问行为特点,发现Robot的访问序列一般不会形成具有链接关系的路径。在定义了用户事务的概念的基础上,提出了一个基于事务分析的检测算法。经实验验证,该算法可以有效地检测未知的和不遵守网络机器人排斥... 分析了网络机器人(WebRobot)的访问行为特点,发现Robot的访问序列一般不会形成具有链接关系的路径。在定义了用户事务的概念的基础上,提出了一个基于事务分析的检测算法。经实验验证,该算法可以有效地检测未知的和不遵守网络机器人排斥标准的Robot。 展开更多
关键词 搜索引擎 网络机器人 用户事务 检测 web日志
在线阅读 下载PDF
电子商务网站中Web Robot的检测技术 被引量:1
3
作者 郭伟刚 鞠时光 《计算机工程》 CAS CSCD 北大核心 2005年第23期219-221,共3页
分析了网络机器人的访问特征,给出了从Web日志中检测Web Robot的一般方法,并提出了一个新的基于页面成员表的检测算法。经实验验证,该算法可以有效地检测未知的和不遵守网络机器人排斥标准的Robot。
关键词 搜索引擎 网络机器人 页面成员表 检测 web日志
在线阅读 下载PDF
Web信息采集研究进展 被引量:25
4
作者 李盛韬 余智华 +1 位作者 程学旗 白硕 《计算机科学》 CSCD 北大核心 2003年第2期151-157,171,共8页
As a basic component of search engine and a series of other services on Web,Web crawler is playing an important role. Roughly,a Web crawler is a program which automatically traverses the Web by downloading documents a... As a basic component of search engine and a series of other services on Web,Web crawler is playing an important role. Roughly,a Web crawler is a program which automatically traverses the Web by downloading documents and following links from page to page. This article detailedly explains the principles and difficulties on the Web crawler,comprehensively argues several hot directions of Web crawler,and at last views the new direction of Web crawler. 展开更多
关键词 web 信息采集 信息发布 INTERNET INTRANET 计算机网络
在线阅读 下载PDF
分布式Web信息采集系统的研究与设计 被引量:10
5
作者 李盛韬 成绫 余智华 《计算机工程与应用》 CSCD 北大核心 2003年第16期162-166,182,共6页
Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统... Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统进行了仔细的剖析。最后,对分布式Web信息采集的发展作了一个展望。 展开更多
关键词 信息采集 分布式 搜索引擎 信息处理 web
在线阅读 下载PDF
面向主题的Web信息收集系统的设计与实现 被引量:12
6
作者 潘春华 武港山 《小型微型计算机系统》 CSCD 北大核心 2003年第12期2150-2154,共5页
随着互联网信息的持续爆炸性增长 ,通用搜索引擎的信息覆盖率和检索精度都在不断下降 ,发展面向主题信息的专用网络信息检索工具已经成为趋势 .文中提出的面向主题的Web信息收集系统是这类工具的核心部件 .该系统采用文档矢量模型进行... 随着互联网信息的持续爆炸性增长 ,通用搜索引擎的信息覆盖率和检索精度都在不断下降 ,发展面向主题信息的专用网络信息检索工具已经成为趋势 .文中提出的面向主题的Web信息收集系统是这类工具的核心部件 .该系统采用文档矢量模型进行文档相关度计算 ,并结合页面链接的上下文信息过滤页面 ;借鉴并修改了Shark启发式查找算法来查找相关页面 ;可采用多机并行下载提高收集效率 ;并依据站点的重要程度进行动态更新 .在一个面向Internet的计算机教学资源检索的搜索引擎中具体实现了这个Web信息收集系统 ,整个系统在低性能的台式机上就能运行 ,并可获得较高的属于指定主题的页面的收集精度和收集效率 . 展开更多
关键词 web信息收集系统 搜索引擎 信息检索 万维网 WWW 互联网 主题 系统设计
在线阅读 下载PDF
一种增量式并行Web信息采集方法 被引量:5
7
作者 杨天奇 周晔 《计算机工程》 EI CAS CSCD 北大核心 2006年第20期97-99,共3页
提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间... 提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间的下载并行与互不相交,页面分析过程为各个线程源源不断地提供下载源,而指纹判别算法保证了并行采集过程中的同步,有效地去除了冗余。对该系统作了测试,实验证明,该系统能有效地提高信息采集性能。 展开更多
关键词 web 信息采集 搜索引擎 并行
在线阅读 下载PDF
基于移动爬虫的专用Web信息收集系统的设计 被引量:3
8
作者 潘春华 冯太明 武港山 《计算机工程与应用》 CSCD 北大核心 2003年第36期153-156,共4页
搜索引擎已经成为网上导航的重要工具。为了能够提供强大的搜索能力,搜索引擎对网上可访问文档维持着详尽的索引。创建和维护索引的任务由网络爬虫完成,网络爬虫代表搜索引擎递归地遍历和下载Web页面。Web页面在下载之后,被搜索引擎分... 搜索引擎已经成为网上导航的重要工具。为了能够提供强大的搜索能力,搜索引擎对网上可访问文档维持着详尽的索引。创建和维护索引的任务由网络爬虫完成,网络爬虫代表搜索引擎递归地遍历和下载Web页面。Web页面在下载之后,被搜索引擎分析、建索引,然后提供检索服务。文章介绍了一种更加有效的建立Web索引的方法,该方法是基于移动爬虫(MobileCrawler)的。在此提出的爬虫首先被传送到数据所在的站点,在那里任何不需要的数据在传回搜索引擎之前在当地被过滤。这个方法尤其适用于实施所谓的“智能”爬行算法,这些算法根据已访问过的Web页面的内容来决定一条有效的爬行路径。移动爬虫是移动计算和专业搜索引擎两大技术趋势的结合,能够从技术上很好地解决现在通用搜索引擎所面临的问题。 展开更多
关键词 互联网 搜索引擎 web 信息收集系统 设计 移动爬虫
在线阅读 下载PDF
可扩展并行Web Server集群技术 被引量:9
9
作者 邸烁 郑纬民 +1 位作者 王鼎兴 沈美明 《小型微型计算机系统》 CSCD 北大核心 1999年第10期721-725,共5页
采用并行Web Server 集群技术实现高性能W eb Server已经成为一种趋势. 该技术具有性能高、可扩展性好、可靠性高、成本低等优点. 本文介绍了我们研制的THWeb Cluster的工作原理、组成结构和所采用... 采用并行Web Server 集群技术实现高性能W eb Server已经成为一种趋势. 该技术具有性能高、可扩展性好、可靠性高、成本低等优点. 本文介绍了我们研制的THWeb Cluster的工作原理、组成结构和所采用的几种关键技术, 并与现有的技术和方法进行了比较. 本文还简要介绍了THWeb Cluster 上开发的两个应用系统THWeb Digger(信息挖掘工具)和THW eb Search(搜索引擎), 并以此说明W eb Server 展开更多
关键词 负载平衡 搜索引擎 web 服务器 集群
在线阅读 下载PDF
Web数据管理研究进展 被引量:2
10
作者 王晖 彭智勇 +2 位作者 李蓉蓉 徐波 翟卫祥 《小型微型计算机系统》 CSCD 北大核心 2011年第1期1-8,共8页
Web数据管理是研究如何根据动态的用户需求从动态的数据源中获取和管理Web数据.本文综述了近10年来该领域的相关文献,针对Web数据管理所必需的数据获取、数据管理和数据服务三大功能,对元搜索技术、数据空间以及跨媒体技术的研究现状和... Web数据管理是研究如何根据动态的用户需求从动态的数据源中获取和管理Web数据.本文综述了近10年来该领域的相关文献,针对Web数据管理所必需的数据获取、数据管理和数据服务三大功能,对元搜索技术、数据空间以及跨媒体技术的研究现状和研究成果进行了总结和分析.最后,讨论Web数据管理系统中存在的问题,从数据质量、系统一致性维护以及个性化服务三个方面对未来研究进行了展望. 展开更多
关键词 web数据管理 元搜索 数据空间 跨媒体
在线阅读 下载PDF
Web信息检索服务系统与搜索引擎 被引量:11
11
作者 常桂然 张晓辉 《计算机科学》 CSCD 北大核心 1998年第5期86-90,共5页
引言由于WWW的信息量在不断地增加,而且不断地动态更新,人们研制了许多web索引与检索服务系统以帮助用户查找信息。按照信息收集和索引的方式,大体上可将Web索引与检索服务系统分为三类。第一种是将手工收集到的信息编成HTML文件,按某... 引言由于WWW的信息量在不断地增加,而且不断地动态更新,人们研制了许多web索引与检索服务系统以帮助用户查找信息。按照信息收集和索引的方式,大体上可将Web索引与检索服务系统分为三类。第一种是将手工收集到的信息编成HTML文件,按某种次序排列组织,使用户可以通过索引进行查阅。 展开更多
关键词 信息检索系统 web 搜索引擎
在线阅读 下载PDF
基于元搜索的专题式Web搜索引擎的实现 被引量:3
12
作者 马瑞民 李建平 王浩畅 《大庆石油学院学报》 CAS 北大核心 2002年第4期55-58,共4页
介绍了基于元搜索的专题式Web搜索引擎系统的设计方法与实现技术 .该系统根据石油科技专题的特点 ,采用元搜索引擎技术 ,以现存的搜索引擎系统为信息源 ,利用网络机器人 ,根据专题提供的关键词采集信息 ,通过关键词相似度和文档相似度... 介绍了基于元搜索的专题式Web搜索引擎系统的设计方法与实现技术 .该系统根据石油科技专题的特点 ,采用元搜索引擎技术 ,以现存的搜索引擎系统为信息源 ,利用网络机器人 ,根据专题提供的关键词采集信息 ,通过关键词相似度和文档相似度计算提高信息的查询效率和精度 .该系统的实现 。 展开更多
关键词 元搜索 专题式 web 搜索引擎 信息检索 网络机器人 文档相关性 更新周期
在线阅读 下载PDF
一种并行Web信息采集系统模型 被引量:1
13
作者 杨天奇 周晔 《计算机应用》 CSCD 北大核心 2007年第1期225-227,共3页
根据国内外在信息采集领域的发展以及并行采集技术的研究,提出了一个基于多线程并行的W eb信息采集结构模型,该模型以线程并行的方式对W eb页面同时采集,实现了全面、高效并且灵活的信息搜集。
关键词 并行web 信息采集 搜索引擎
在线阅读 下载PDF
智能搜索引擎如何应用WEB信息挖掘技术 被引量:6
14
作者 吴江 《图书馆论坛》 CSSCI 北大核心 2004年第5期107-110,共4页
介绍网络信息挖掘技术定义、关键技术 ,以Google为例 ,剖析网络信息挖掘技术在搜索引擎的应用。
关键词 智能搜索引擎 web信息挖掘 网络挖掘技术 知识库 目标样本 个性化服务
在线阅读 下载PDF
WWW搜索引擎的数据采集技术 被引量:10
15
作者 陈新明 钟涛 +2 位作者 万钧 吴杰 张世永 《计算机工程与应用》 CSCD 北大核心 2002年第7期145-147,161,共4页
该文主要研究了WEB搜索引擎中的数据采集技术和WEB搜索引擎数据采集机器人的关键技术和设计时应考虑的问题及相应的解决方法,并结合专题型搜索引擎的特点提出了一些搜索引擎的数据采集策略。
关键词 搜索引擎 数据采集 WWW 计算机网络 首页关联技术
在线阅读 下载PDF
智能搜索引擎技术的研究与发展 被引量:38
16
作者 张晓刚 李明树 《计算机工程与应用》 CSCD 北大核心 2001年第24期67-70,共4页
搜索引擎已经成为互联网上最重要的工具之一。而目前的搜索引擎都存在着一定的不足。文章系统地阐述了当前搜索引擎的相关技术,展望搜索引擎技术的发展趋势。最后提出搜索引擎的出路应该在于分布式协作的观点。
关键词 互联网 智能搜索引擎 网站 信息抽取
在线阅读 下载PDF
基于大规模日志分析的搜索引擎用户行为分析 被引量:119
17
作者 余慧佳 刘奕群 +2 位作者 张敏 茹立云 马少平 《中文信息学报》 CSCD 北大核心 2007年第1期109-114,共6页
用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们... 用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。 展开更多
关键词 计算机应用 中文信息处理 网络信息检索 搜索引擎 用户行为分析 点击信息分析
在线阅读 下载PDF
基于内容相关性挖掘的反馈式搜索引擎框架 被引量:3
18
作者 侯越先 张鹏 于瑞国 《天津大学学报》 EI CAS CSCD 北大核心 2008年第8期941-945,共5页
当前主流的搜索引擎根据查询词在网页中的出现频率,辅以网页权威性等信息,生成查询结果.但用户提供的查询词往往非常简单,因此搜索引擎难以确定用户的查询意图.为此,给出了一种利用海量clickthrough数据进行网页内容相关性挖掘的方法,... 当前主流的搜索引擎根据查询词在网页中的出现频率,辅以网页权威性等信息,生成查询结果.但用户提供的查询词往往非常简单,因此搜索引擎难以确定用户的查询意图.为此,给出了一种利用海量clickthrough数据进行网页内容相关性挖掘的方法,在此基础上给出了一种反馈式搜索引擎(FSE)框架及相关算法.FSE根据网页相关性动态生成查询结果,以期提供给用户更中肯和个性化的信息.基于真实点击数据,进行了网页相关性矩阵的压缩实验和有效性实验,证明了该框架的可行性. 展开更多
关键词 web信息检索 反馈式搜索引擎 网页相关性 clickthrough数据
在线阅读 下载PDF
一种特定领域智能搜索引擎技术的研究 被引量:3
19
作者 佟晓筠 王翥 《计算机应用研究》 CSCD 北大核心 2004年第5期49-51,共3页
对现有的搜索引擎技术进行了详细比较分析,并提出了用于特定领域如电子商务智能搜索引擎技术的研究思路。采用知识库等人工智能新技术来设计搜索引擎,从而实现将搜索的信息转化为有用的知识,提高搜索技术的智能水平,并实现推送Push技术... 对现有的搜索引擎技术进行了详细比较分析,并提出了用于特定领域如电子商务智能搜索引擎技术的研究思路。采用知识库等人工智能新技术来设计搜索引擎,从而实现将搜索的信息转化为有用的知识,提高搜索技术的智能水平,并实现推送Push技术,为电子商务提供服务。 展开更多
关键词 web搜索引擎 智能搜索 网络robot 人工智能 电子商务
在线阅读 下载PDF
网络环境下的信息检索与数据挖掘技术 被引量:7
20
作者 陈维 阮海红 《现代情报》 2009年第5期144-146,151,共4页
首先对网络环境下信息检索的现状进行分析,主要介绍网络信息检索的代表工具—搜索引擎的工作原理、缺陷及发展方向,引出数据挖掘技术,并进一步对WEB数据挖掘技术作了概要的介绍,阐明WEB数据挖掘技术是网络信息检索智能化的重要发展方向... 首先对网络环境下信息检索的现状进行分析,主要介绍网络信息检索的代表工具—搜索引擎的工作原理、缺陷及发展方向,引出数据挖掘技术,并进一步对WEB数据挖掘技术作了概要的介绍,阐明WEB数据挖掘技术是网络信息检索智能化的重要发展方向之一。最后,提出一个结合数据挖掘技术的新的搜索引擎结构模型。 展开更多
关键词 信息检索 搜索引擎 web数据挖掘
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部