-
题名基于多目标蚁群算法的主题爬虫策略
被引量:9
- 1
-
-
作者
东熠
刘景发
刘文杰
-
机构
南京信息工程大学计算机与软件学院
广东外语外贸大学广州市非通用语种智能处理重点实验室
广东外语外贸大学信息科学与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2020年第9期274-282,共9页
-
基金
国家社会科学基金(16ZDA047)
江苏省自然科学基金(BK20181409,BK20171458)
+1 种基金
广州市科技计划项目(202002030238)
广州市非通用语种智能处理重点实验室专项(201905010008)。
-
文摘
基于关键词匹配检索的传统搜索引擎爬全率和爬准率较低,而使用基于语义检索的主题爬虫方法容易偏离主题与陷入局部最优。针对该问题,提出一种采用多目标蚁群优化算法的主题爬虫方法。构建主题爬虫领域本体和主题向量,以链接的锚文本相关度、链接所在网页主题相关度以及链接指向网页主题相关度为指标判断链接是否与主题相关,并建立链接主题相关度的多目标优化模型,将基于多目标优化的蚁群算法引入主题爬虫的链接选择过程,采用非支配排序和最近最远候选解法选取Pareto最优链接,以引导主题爬虫搜索方向并提升全局搜索性能。实验结果表明,与FCSA、WSE等传统主题爬虫方法相比,该方法爬准率更高,并且能更快抓取到主题相关度高的网页。
-
关键词
主题爬虫
蚁群算法
多目标优化
暴雨灾害
本体构建
-
Keywords
focused crawler
ant colony algorithm
multi-objective optimization
rainstorm disaster
ontology construction
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-