-
题名面向P2P特定信息的爬虫改进技术
被引量:3
- 1
-
-
作者
丁军平
蔡皖东
-
机构
西北工业大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第29期23-26,共4页
-
基金
国家高技术研究发展计划(863)(the National High-Tech Research and Development Plan of China under Grant No.2009AA01Z424)
-
文摘
针对现有主题爬虫技术在获取"元信息"时会抓取大量不相关网页的问题,对现有主题爬虫技术进行改进,加入了URL分类技术。该分类方法根据提供的URL样本信息,生成多个不相关URL关键词集合以及"元信息"URL关键词集合;对集合中的关键词设置权限信息,设置集合的分类判断阈值;将URL使用特征向量表示,计算与关键词集合的距离,对URL进行分类;对算法性能进行了详细分析。实验结果表明,所提方法在进行"元信息"获取时,与传统主题爬虫技术相比能够大幅度提高效率,在相同时间内,"元信息"获取数量可增加96.21%,完全能够满足主动监测模型对网络爬虫的性能要求。
-
关键词
“元信息”获取
主题爬虫技术
URL分类算法
特征向量表示
主动监测模型
-
Keywords
"meta-informafion" obtaining
topic crawler technique
URL classification algorithm
feature vector representation
initiative monitoring model
-
分类号
TP393.0
[自动化与计算机技术—计算机应用技术]
-