期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
Web文档清洗系统中HTML解析器的开发 被引量:7
1
作者 王强 王继成 +1 位作者 武港山 张福炎 《计算机应用研究》 CSCD 北大核心 2002年第2期54-57,共4页
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无... 对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典。 展开更多
关键词 html解析器 词法器 递归下降 文档清洗系统 WEB INTERNET
在线阅读 下载PDF
基于HTML解析器的Web信息提取技术 被引量:1
2
作者 王琳琳 《郑州轻工业学院学报(自然科学版)》 CAS 2008年第6期100-102,106,共4页
提出一种使用开源的HTML解析器包和正则表达式来提取W eb网页信息的方法.该方法能够解析HTML文件的组成结构,并从中提取主体文本以供处理.实验表明,该方法的抽取准确率可达到95%以上,具有简单、准确的特点.
关键词 WEB信息提取 正则表达式 html解析器 主题信息
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部