期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向新闻网的智能抓取技术 被引量:2
1
作者 吕振辽 翟莹莹 魏彦婧 《控制工程》 CSCD 北大核心 2013年第4期707-710,共4页
随着新闻网信息的急剧增加,研究面向新闻网的智能抓取技术变得十分必要。在基于主题网络爬虫的基础上,改进了网页与主题的相关度算法,设计出面向新闻网的智能抓取技术。按照预先确定的主题,分析超链接和刚刚抓取的网页内容,获取下一个... 随着新闻网信息的急剧增加,研究面向新闻网的智能抓取技术变得十分必要。在基于主题网络爬虫的基础上,改进了网页与主题的相关度算法,设计出面向新闻网的智能抓取技术。按照预先确定的主题,分析超链接和刚刚抓取的网页内容,获取下一个要爬行的URL。有选择的访问新闻网上的网页和相关的链接,尽可能保证多爬行与主题相关的网页。实验结果表明,改进后的抓取技术比以往的新闻网抓取技术在性能上有较大提升,抓取准确率显著提高。 展开更多
关键词 主题提取 网络爬虫 页面相关度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部