期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于HTML标记用途分析的网页正文提取技术 被引量:15
1
作者 常红要 朱征宇 +2 位作者 陈烨 张鹏 曾丽芳 《计算机工程与设计》 CSCD 北大核心 2010年第24期5187-5191,共5页
通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取。实验结果表明,该方法能有效地得到大多数HTML网页的主体内容部分。针对HTML文件的解析方法不仅可以用于... 通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取。实验结果表明,该方法能有效地得到大多数HTML网页的主体内容部分。针对HTML文件的解析方法不仅可以用于提取HTML文件的主体文本,也可以用于得到HTML文件中其它HTML元素的内容。 展开更多
关键词 HTML网页 数据挖掘 内容抽取 噪音数据 元素删除法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部