期刊文献+

基于特征码的网页去重算法研究 被引量:4

在线阅读 下载PDF
导出
摘要 本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标,分析了搜索引擎工作原理,讨论了现有的去重算法。给出了一种基于特征码的网页去重算法,并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率,达到了对算法的预期。
作者 王哲
出处 《山东电大学报》 2009年第1期14-16,共3页 Journal of Shandong TV University
  • 相关文献

参考文献3

二级参考文献14

共引文献72

同被引文献30

引证文献4

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部