期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向增量同生主题的维吾尔文爬虫的研究 被引量:1
1
作者 赵永霄 哈力旦.阿布都热依木 张振东 《计算机应用研究》 CSCD 北大核心 2014年第11期3269-3272,共4页
针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的... 针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的准确率。用改进的IC主题敏感算法来预测子页面优先级,过滤无关的网页地址。依据上述方法编写爬虫系统,用构建的维吾尔文语料库进行实验,表明了基于此模型的爬虫具有更好的稳定性和准确度。 展开更多
关键词 网络爬虫 网页分类 ic主题模型 锚文本 维吾尔文
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部