-
题名面向主题的Web信息收集系统的设计与实现
被引量:12
- 1
-
-
作者
潘春华
武港山
-
机构
南京大学计算机软件新技术国家重点实验室
南京大学计算机科学与技术系
-
出处
《小型微型计算机系统》
CSCD
北大核心
2003年第12期2150-2154,共5页
-
基金
国家自然科学基金 (60 0 730 30 )资助
国家教育部"现代远程教育关键技术研究重点项目"资助
富士通研究的项目资助
-
文摘
随着互联网信息的持续爆炸性增长 ,通用搜索引擎的信息覆盖率和检索精度都在不断下降 ,发展面向主题信息的专用网络信息检索工具已经成为趋势 .文中提出的面向主题的Web信息收集系统是这类工具的核心部件 .该系统采用文档矢量模型进行文档相关度计算 ,并结合页面链接的上下文信息过滤页面 ;借鉴并修改了Shark启发式查找算法来查找相关页面 ;可采用多机并行下载提高收集效率 ;并依据站点的重要程度进行动态更新 .在一个面向Internet的计算机教学资源检索的搜索引擎中具体实现了这个Web信息收集系统 ,整个系统在低性能的台式机上就能运行 ,并可获得较高的属于指定主题的页面的收集精度和收集效率 .
-
关键词
web信息收集系统
搜索引擎
信息检索
万维网
WWW
互联网
主题
系统设计
-
Keywords
information-gathering
search engine
information retrieval
world wide web
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名智能Web中文主题信息收集系统IRobot的设计
被引量:7
- 2
-
-
作者
马亮
陈群秀
王俊
徐国伟
-
机构
清华大学计算机系智能技术与系统国家重点实验室
富士通中国研究开发中心有限公司
-
出处
《中文信息学报》
CSCD
北大核心
2002年第5期23-29,共7页
-
文摘
本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性,系统采用了对待收集URL进行相关度预测为主,对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中,深入考虑了Web主题信息结构和组织特性的多种因素,综合提高了系统的性能。相比已有的研究,系统的精度和收集效率更高,且更为稳定,并能够自动获得主题领域内重要资源的列表。
-
关键词
智能web中文主题信息收集系统
IROBOT
信息检索
相关度预测
相关度评价
中文信息处理
系统设计
-
Keywords
information retrieval
topic information gather
relevance predication
relevance scoring
Chinese information processing
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-