期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于Context Graphs的主题爬虫的研究与实现 被引量:3
1
作者 陈星 《计算机工程与设计》 CSCD 北大核心 2011年第3期914-917,共4页
为了解决传统主题爬虫对主题网页搜索效率偏低的问题,分析了基于网络拓扑结构建模的Context Graphs的爬行策略。考虑了以往ContextGraphs方法存在的不足,即没有区分网页不同部分文本的重要程度,通过将锚文字、页面标题和页面内容做综合... 为了解决传统主题爬虫对主题网页搜索效率偏低的问题,分析了基于网络拓扑结构建模的Context Graphs的爬行策略。考虑了以往ContextGraphs方法存在的不足,即没有区分网页不同部分文本的重要程度,通过将锚文字、页面标题和页面内容做综合考虑,对原算法进行了改进。将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法达到了更好的效果。 展开更多
关键词 主题爬虫 CONTEXT graphs模型 层次建模 链接分析 内容分析
在线阅读 下载PDF
基于词频差异特征选取的Context Graph算法改进 被引量:1
2
作者 张永 吴崇正 《计算机工程与应用》 CSCD 2014年第10期141-146,共6页
为了解决传统主题爬虫效率偏低的问题,在分析了启发式网络爬虫搜索算法Context Graph的基础上,提出了一种改进的Context Graph爬虫搜索策略。该策略利用基于词频差异的特征选取方法和改进后的TF-IDF公式对原算法进行了改进,综合考虑了... 为了解决传统主题爬虫效率偏低的问题,在分析了启发式网络爬虫搜索算法Context Graph的基础上,提出了一种改进的Context Graph爬虫搜索策略。该策略利用基于词频差异的特征选取方法和改进后的TF-IDF公式对原算法进行了改进,综合考虑了网页不同部分的文本信息对特征选取的影响,及特征词的类间权重和类中权重,以提高特征选取和评价的质量。实验结果表明,与既定传统方法进行实验对照,改进后的策略效率更高。 展开更多
关键词 主题爬虫 CONTEXT graph模型 搜索策略 特征选取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部