期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
中文博客搜索引擎研究 被引量:3
1
作者 潘冰 徐亮亮 《计算机工程与设计》 CSCD 北大核心 2010年第8期1718-1721,共4页
为了充分利用博客日志所提供的信息,提出了建立中文博客搜索引擎的基本思路。通过对博客的技术特点和博客搜索引擎工作原理的分析,设计了中文博客搜索引擎的系统结构。在此基础上,利用规则定义和正则表达式,结合真正简易聚合技术对传统... 为了充分利用博客日志所提供的信息,提出了建立中文博客搜索引擎的基本思路。通过对博客的技术特点和博客搜索引擎工作原理的分析,设计了中文博客搜索引擎的系统结构。在此基础上,利用规则定义和正则表达式,结合真正简易聚合技术对传统的网络爬虫进行了改进,较好地解决了博客信息难以被收录的问题。利用真正简易聚合技术对博客信息进行格式化处理,加快了博客信息采集速度。通过对中文分词的扩展,利用Lucene.net全文搜索工具实现了一个中文博客搜索引擎。实验测试结果表明,采用的方案和技术是可行的。 展开更多
关键词 博客 博客搜索引擎 网络爬虫 真正简易聚合 正则表达式
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部