-
题名一种改进的主题网络蜘蛛搜索算法
被引量:18
- 1
-
-
作者
林海霞
原福永
陈金森
刘俊峰
-
机构
燕山大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第10期174-176,共3页
-
文摘
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。
-
关键词
主题网络蜘蛛
Best—First算法
召回率
-
Keywords
topic web crawler
Best-First algorithm
recall ratio
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主题相似度指导网络蜘蛛穿越隧道的爬行算法
被引量:5
- 2
-
-
作者
陈小海
周娅
-
机构
桂林电子科技大学计算机与控制学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2009年第10期126-128,共3页
-
基金
广西自然科学基金资助项目(桂科青0832101)
-
文摘
隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。
-
关键词
主题网络蜘蛛
隧道穿越
主题相似度
-
Keywords
topical web crawler
tunneling
topical similarity
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-