期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于网页分块的正文信息提取方法 被引量:13
1
作者 黄玲 陈龙 《计算机应用》 CSCD 北大核心 2008年第S2期326-328,共3页
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中... 网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。 展开更多
关键词 WEB信息抽取 主题内容块 网页正文信息
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部