期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
一种通用Web信息采集系统的设计与实现 被引量:11
1
作者 吴丽辉 王斌 余智华 《计算机工程》 EI CAS CSCD 北大核心 2005年第3期123-124,194,共3页
介绍了一种通用的Web信息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统实际的应用。实践证明,该系统能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。
关键词 web信息 通用性 采集系统 服务器 信息发布 信息采集 设计 证明 实际 系统总体结构
在线阅读 下载PDF
面向Web的信息收集工具的设计与开发 被引量:14
2
作者 潘春华 常敏 武港山 《计算机应用研究》 CSCD 北大核心 2002年第6期144-147,共4页
随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系... 随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。 展开更多
关键词 web 信息收集工具 设计 页面收集 信息处理 网络爬虫 万维网 INTERNET
在线阅读 下载PDF
分布式Web信息采集系统的研究与设计 被引量:10
3
作者 李盛韬 成绫 余智华 《计算机工程与应用》 CSCD 北大核心 2003年第16期162-166,182,共6页
Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统... Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统进行了仔细的剖析。最后,对分布式Web信息采集的发展作了一个展望。 展开更多
关键词 信息采集 分布式 搜索引擎 信息处理 web
在线阅读 下载PDF
面向主题的Web信息收集系统的设计与实现 被引量:12
4
作者 潘春华 武港山 《小型微型计算机系统》 CSCD 北大核心 2003年第12期2150-2154,共5页
随着互联网信息的持续爆炸性增长 ,通用搜索引擎的信息覆盖率和检索精度都在不断下降 ,发展面向主题信息的专用网络信息检索工具已经成为趋势 .文中提出的面向主题的Web信息收集系统是这类工具的核心部件 .该系统采用文档矢量模型进行... 随着互联网信息的持续爆炸性增长 ,通用搜索引擎的信息覆盖率和检索精度都在不断下降 ,发展面向主题信息的专用网络信息检索工具已经成为趋势 .文中提出的面向主题的Web信息收集系统是这类工具的核心部件 .该系统采用文档矢量模型进行文档相关度计算 ,并结合页面链接的上下文信息过滤页面 ;借鉴并修改了Shark启发式查找算法来查找相关页面 ;可采用多机并行下载提高收集效率 ;并依据站点的重要程度进行动态更新 .在一个面向Internet的计算机教学资源检索的搜索引擎中具体实现了这个Web信息收集系统 ,整个系统在低性能的台式机上就能运行 ,并可获得较高的属于指定主题的页面的收集精度和收集效率 . 展开更多
关键词 web信息收集系统 搜索引擎 信息检索 万维网 WWW 互联网 主题 系统设计
在线阅读 下载PDF
Web搜索引擎框架研究 被引量:48
5
作者 张卫丰 徐宝文 《计算机研究与发展》 EI CSCD 北大核心 2000年第3期376-378,共3页
Web搜索引擎是Internet上非常有用的信息检索工具,但是由于目前搜索引擎检索出的信息量庞大,且一个特定的搜索引擎主要包含某一特定领域的信息,这使得用户很难从某一个搜索引擎获得准确的导航信息.文中提出一个新的 W... Web搜索引擎是Internet上非常有用的信息检索工具,但是由于目前搜索引擎检索出的信息量庞大,且一个特定的搜索引擎主要包含某一特定领域的信息,这使得用户很难从某一个搜索引擎获得准确的导航信息.文中提出一个新的 Web搜索引擎框架 GSE,井提出了一个适合于 Web信息获取与处理的语言 WIRPL.通过WIRPL可以将多个Web搜索引擎结合起来,为用户提供一个一致、高效、准确的Web搜索引擎. 展开更多
关键词 搜索引擎 INTERNET网 web 信息检索工具
在线阅读 下载PDF
基于移动爬虫的专用Web信息收集系统的设计 被引量:3
6
作者 潘春华 冯太明 武港山 《计算机工程与应用》 CSCD 北大核心 2003年第36期153-156,共4页
搜索引擎已经成为网上导航的重要工具。为了能够提供强大的搜索能力,搜索引擎对网上可访问文档维持着详尽的索引。创建和维护索引的任务由网络爬虫完成,网络爬虫代表搜索引擎递归地遍历和下载Web页面。Web页面在下载之后,被搜索引擎分... 搜索引擎已经成为网上导航的重要工具。为了能够提供强大的搜索能力,搜索引擎对网上可访问文档维持着详尽的索引。创建和维护索引的任务由网络爬虫完成,网络爬虫代表搜索引擎递归地遍历和下载Web页面。Web页面在下载之后,被搜索引擎分析、建索引,然后提供检索服务。文章介绍了一种更加有效的建立Web索引的方法,该方法是基于移动爬虫(MobileCrawler)的。在此提出的爬虫首先被传送到数据所在的站点,在那里任何不需要的数据在传回搜索引擎之前在当地被过滤。这个方法尤其适用于实施所谓的“智能”爬行算法,这些算法根据已访问过的Web页面的内容来决定一条有效的爬行路径。移动爬虫是移动计算和专业搜索引擎两大技术趋势的结合,能够从技术上很好地解决现在通用搜索引擎所面临的问题。 展开更多
关键词 互联网 搜索引擎 web 信息收集系统 设计 移动爬虫
在线阅读 下载PDF
一种增量式并行Web信息采集方法 被引量:5
7
作者 杨天奇 周晔 《计算机工程》 EI CAS CSCD 北大核心 2006年第20期97-99,共3页
提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间... 提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间的下载并行与互不相交,页面分析过程为各个线程源源不断地提供下载源,而指纹判别算法保证了并行采集过程中的同步,有效地去除了冗余。对该系统作了测试,实验证明,该系统能有效地提高信息采集性能。 展开更多
关键词 web 信息采集 搜索引擎 并行
在线阅读 下载PDF
一种并行Web信息采集系统模型 被引量:1
8
作者 杨天奇 周晔 《计算机应用》 CSCD 北大核心 2007年第1期225-227,共3页
根据国内外在信息采集领域的发展以及并行采集技术的研究,提出了一个基于多线程并行的W eb信息采集结构模型,该模型以线程并行的方式对W eb页面同时采集,实现了全面、高效并且灵活的信息搜集。
关键词 并行web 信息采集 搜索引擎
在线阅读 下载PDF
基于数据挖掘的Web学习资源数据流处理技术 被引量:2
9
作者 杨柳青 王冲 《现代电子技术》 2022年第13期62-66,共5页
为了更好地利用Web学习资源,针对当前Web学习资源流处理技术存在的不足,提出基于数据挖掘的Web学习资源数据流处理技术。首先分析Web学习资源流处理的研究进展,以及引起Web学习资源流处理效果不佳的因素;然后采用广度优先算法搜索网页,... 为了更好地利用Web学习资源,针对当前Web学习资源流处理技术存在的不足,提出基于数据挖掘的Web学习资源数据流处理技术。首先分析Web学习资源流处理的研究进展,以及引起Web学习资源流处理效果不佳的因素;然后采用广度优先算法搜索网页,采集Web学习资源数据流,并采用贝叶斯网络算法挖掘数据流关联规则,寻找出网页内价值最高的信息,并利用弹性可伸缩机制实现学习资源数据流处理。实验结果表明,数据挖掘技术可以准确发现Web学习资源流的变化点,得到的Web学习资源数据流相关性较高,提高了学习资源数据流回调率,具有更高的实际应用价值。 展开更多
关键词 web学习资源 数据流处理 数据挖掘 网络爬虫 网页搜索 信息寻找
在线阅读 下载PDF
主题Deep Web爬虫框架研究 被引量:3
10
作者 黄聪会 张水平 胡洋 《计算机工程与设计》 CSCD 北大核心 2010年第5期929-931,935,共4页
为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web信息的爬虫框架。针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不... 为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web信息的爬虫框架。针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不同主题的Deep Web数据库和采用常用字最大限度下载Deep Web信息的技术。实验结果表明了该框架采用的技术是可行的。 展开更多
关键词 深网 爬虫 搜索引擎 信息抽取 常用字
在线阅读 下载PDF
网络学术信息行为理论框架构建与行为过程分析 被引量:15
11
作者 叶凤云 孙建军 汪传雷 《图书情报知识》 CSSCI 北大核心 2011年第5期82-88,共7页
本文在系统分析国内外信息行为相关研究的基础上,结合网络学术信息行为的定义及特点,构建出网络学术信息行为理论框架;然后基于框架从学术数据库、Web搜索引擎和专业学术网站三种途径解析网络学术信息查询行为涉及的载体层级和行为过程... 本文在系统分析国内外信息行为相关研究的基础上,结合网络学术信息行为的定义及特点,构建出网络学术信息行为理论框架;然后基于框架从学术数据库、Web搜索引擎和专业学术网站三种途径解析网络学术信息查询行为涉及的载体层级和行为过程;最后从而建立二维表,为进一步研究网络学术信息行为提供参考。 展开更多
关键词 网络学术信息行为 学术数据库 web搜索引擎 专业学术网站 理论框架 行为过程
在线阅读 下载PDF
知识图谱构建技术综述 被引量:1094
12
作者 刘峤 李杨 +2 位作者 段宏 刘瑶 秦志光 《计算机研究与发展》 EI CSCD 北大核心 2016年第3期582-600,共19页
谷歌知识图谱技术近年来引起了广泛关注,由于公开披露的技术资料较少,使人一时难以看清该技术的内涵和价值.从知识图谱的定义和技术架构出发,对构建知识图谱涉及的关键技术进行了自底向上的全面解析.1)对知识图谱的定义和内涵进行了说明... 谷歌知识图谱技术近年来引起了广泛关注,由于公开披露的技术资料较少,使人一时难以看清该技术的内涵和价值.从知识图谱的定义和技术架构出发,对构建知识图谱涉及的关键技术进行了自底向上的全面解析.1)对知识图谱的定义和内涵进行了说明,并给出了构建知识图谱的技术框架,按照输入的知识素材的抽象程度将其划分为3个层次:信息抽取层、知识融合层和知识加工层;2)分别对每个层次涉及的关键技术的研究现状进行分类说明,逐步揭示知识图谱技术的奥秘,及其与相关学科领域的关系;3)对知识图谱构建技术当前面临的重大挑战和关键问题进行了总结. 展开更多
关键词 知识图谱 语义网 信息检索 语义搜索引擎 自然语言处理
在线阅读 下载PDF
基于大规模日志分析的搜索引擎用户行为分析 被引量:119
13
作者 余慧佳 刘奕群 +2 位作者 张敏 茹立云 马少平 《中文信息学报》 CSCD 北大核心 2007年第1期109-114,共6页
用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们... 用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。 展开更多
关键词 计算机应用 中文信息处理 网络信息检索 搜索引擎 用户行为分析 点击信息分析
在线阅读 下载PDF
基于日志挖掘的搜索引擎用户行为分析 被引量:32
14
作者 岑荣伟 刘奕群 +2 位作者 张敏 茹立云 马少平 《中文信息学报》 CSCD 北大核心 2010年第3期49-54,共6页
随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的重要研究领域之一。为更好理解网络用户的搜索行为,该文基于7.56亿条真实网络用户行为日... 随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的重要研究领域之一。为更好理解网络用户的搜索行为,该文基于7.56亿条真实网络用户行为日志,对用户行为进行分析和研究。我们主要考察了用户搜索行为中的查询长度、查询修改率、相关搜索点击率、首次/最后一次点击位置分布以及查询内点击数分布等信息。该文还基于不同类型的查询集合,考察用户在不同查询需求下的行为差异性。相关分析结果对搜索引擎算法优化和系统改进等都具有一定的参考意义。 展开更多
关键词 计算机应用 中文信息处理 用户行为分析 搜索引擎 网络信息检索
在线阅读 下载PDF
一种基于词典的搜索引擎系统动态更新模型 被引量:13
15
作者 雷鸣 刘建国 +1 位作者 王建勇 陈葆珏 《计算机研究与发展》 EI CSCD 北大核心 2000年第10期1265-1270,共6页
基于词汇标注的特征项提取方法是中文信息处理的有效方法 ,但词汇的析取是基于词典的 ,词典的涵盖程度决定了词汇切分的准确率 .因而不断地学习新词汇、动态地维护词典 ,使整个中文信息处理系统具有自适应性和动态性就成了一个关键问题 ... 基于词汇标注的特征项提取方法是中文信息处理的有效方法 ,但词汇的析取是基于词典的 ,词典的涵盖程度决定了词汇切分的准确率 .因而不断地学习新词汇、动态地维护词典 ,使整个中文信息处理系统具有自适应性和动态性就成了一个关键问题 .以搜索引擎系统为例 ,提出了一种基于词典动态变化的搜索引擎系统更新理论模型和实现模型 .相关实验表明 ,该模型对缩短搜索引擎信息库的更新时间。 展开更多
关键词 万维网 词典 搜索引擎系统 中文信息处理
在线阅读 下载PDF
农产品价格主题搜索引擎的研究与实现 被引量:6
16
作者 孟繁疆 姬祥 +2 位作者 袁琦 刘东 侯哲鹏 《东北农业大学学报》 CAS CSCD 北大核心 2016年第9期64-71,共8页
当前农业垂直搜索引擎无法预测农产品价格趋势,难以满足农业生产者行情分析需要。文章设计农产品价格主题搜索引擎。首先网络爬虫从农业综合网站搜集网页,对网页进行转码、去重、提取内容等处理;使用主题相关度算法计算网页的主题相关度... 当前农业垂直搜索引擎无法预测农产品价格趋势,难以满足农业生产者行情分析需要。文章设计农产品价格主题搜索引擎。首先网络爬虫从农业综合网站搜集网页,对网页进行转码、去重、提取内容等处理;使用主题相关度算法计算网页的主题相关度,用分类器对网页分类,将与主题相关的网页解析、存储;最后提取农产品价格及其影响因素信息。结果表明,系统可搜集农产品价格信息及影响农产品价格因素信息,为后续农产品价格预测提供数据支持。 展开更多
关键词 网络爬虫 信息抓取 农产品价格 农业搜索引擎
在线阅读 下载PDF
分布式WWW信息收集技术 被引量:14
17
作者 阳小华 《计算机工程与应用》 CSCD 北大核心 2000年第5期145-146,169,共3页
讨论了 WWW搜索引擎的分布式信息收集技术,提出了最佳机器人作用范围划分的概念,给出了实用的信息收集代价估算方法和实现最佳机器人作用范围划分的具体算法。
关键词 搜索引擎 分布式信息收集 WWW 信息查询系统
在线阅读 下载PDF
基于最大频繁项集的搜索引擎查询结果聚类算法 被引量:5
18
作者 苏冲 陈清才 +1 位作者 王晓龙 孟宪军 《中文信息学报》 CSCD 北大核心 2010年第2期58-67,共10页
现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类... 现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类别标签,无法满足在线聚类的需求(比如KMeans算法)。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC(Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大频繁项集,然后依据网页集合之间最大频繁项集的共享关系进行聚类,最后依据类别包含的频繁项生成类别标签。实验结果表明MFIC算法降低了基于网页全文聚类的时间,聚类精度提高15%左右,且能生成可读性较好的类别标签。 展开更多
关键词 计算机应用 中文信息处理 搜索引擎 网页聚类 频繁项集
在线阅读 下载PDF
大豆垂直搜索引擎的研究与设计 被引量:2
19
作者 刘相琴 孟繁疆 《农机化研究》 北大核心 2013年第5期200-203,共4页
随着互联网技术的发展,搜索引擎的垂直化得到了广泛的研究和应用。为此,以用户对大豆领域相关信息的需求为研究背景,在已有垂直搜索引擎的理念和技术基础上,对大豆垂直搜索引擎进行了研究和设计。同时,提出了大豆垂直搜索引擎的体系结构... 随着互联网技术的发展,搜索引擎的垂直化得到了广泛的研究和应用。为此,以用户对大豆领域相关信息的需求为研究背景,在已有垂直搜索引擎的理念和技术基础上,对大豆垂直搜索引擎进行了研究和设计。同时,提出了大豆垂直搜索引擎的体系结构,并对网页信息采集、索引和管理与审核模块进行了详细的分析和设计,最终为系统的实现提供了解决方案和理论基础。 展开更多
关键词 垂直搜索引擎 大豆 网络蜘蛛 信息采集
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部