期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于规则模型的网页主题文本提取方法 被引量:3
1
作者 张裕钦 李振坤 吴永杰 《计算机工程与设计》 CSCD 北大核心 2009年第20期4665-4667,共3页
通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法。该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到... 通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法。该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到有效提取网页主题文本的目的。实验结果表明,该方法对于各类型网页主题文本的提取均具有较高的准确率,通用性强。 展开更多
关键词 规则模型 信息抽取 主题文本提取 数据采集 WEB挖掘
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部