-
题名基于概念树的主题搜索机器人系统研究
被引量:3
- 1
-
-
作者
曾义聪
杨贯中
-
机构
长沙民政职业技术学院电子工程系
湖南大学软件学院
-
出处
《科学技术与工程》
2006年第16期2458-2463,共6页
-
基金
教育部科学基金项目(20014)资助
-
文摘
采用基于概念树的主题爬取算法,构造了一个主题搜索机器人系统。对文档与主题层的向量表示进行简化,设计与实现了一个主题搜索机器人原型。
-
关键词
概念树
主题爬取
主题搜索机器人
-
Keywords
concept tree focused crawling focused crawler
-
分类号
TP316.8
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于层次语义的URL排序方法研究
被引量:1
- 2
-
-
作者
曾义聪
杨贯中
周志光
曾强聪
-
机构
长沙民政职业技术学院电子工程系
湖南大学软件学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2008年第13期3365-3367,3371,共4页
-
基金
教育部科学基金项目(200146)
湖南省“十一五”规划基金项目(ZC062)
-
文摘
为了提高主题爬取的采集性能,提出了基于层次语义的URL排序算法。主题爬取过程中引入了层次语义的启发信息,采用层次语义组合排序度量进行URL排序,并对层次语义引导主题爬取的采集率性能进行实验研究。实验表明,采用基于层次语义的URL排序方法,爬取过程中由初始URL链接能快速导向某目标主题集的Web文档。同时,当目标主题集的邻近区域没有相关的页面时,逐步放宽主题范围,在较宽的主题区域中爬取,能较快地导向其它不相邻的主题区域。
-
关键词
采集率
层次语义
URL排序
概念树
主题爬取
-
Keywords
harvest rate
layer semantic
URL ordering
concept tree
focused crawl
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-