期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于分块的网页正文信息提取算法研究 被引量:32
1
作者 黄文蓓 杨静 顾君忠 《计算机应用》 CSCD 北大核心 2007年第B06期24-26,30,共4页
提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度... 提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。 展开更多
关键词 web网页正文提取 内容块 标签树 噪音
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部