-
题名Web文档清洗系统中HTML解析器的开发
被引量:7
- 1
-
-
作者
王强
王继成
武港山
张福炎
-
机构
南京大学计算机科学与技术系
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2002年第2期54-57,共4页
-
基金
国家自然科学基金资助项目 (60 0 73 0 3 0 )
国家教育部"现代远程教育关键技术研究重点项目"
日本富士通研究所"Web文档清洗技术研究"资助项目
-
文摘
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典。
-
关键词
html解析器
词法器
递归下降
文档清洗系统
WEB
INTERNET
-
Keywords
html Parser
Lexicon
Recursive Descendant
Web Cleaning
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于HTML解析器的Web信息提取技术
被引量:1
- 2
-
-
作者
王琳琳
-
机构
枣庄学院计算机科学系
-
出处
《郑州轻工业学院学报(自然科学版)》
CAS
2008年第6期100-102,106,共4页
-
文摘
提出一种使用开源的HTML解析器包和正则表达式来提取W eb网页信息的方法.该方法能够解析HTML文件的组成结构,并从中提取主体文本以供处理.实验表明,该方法的抽取准确率可达到95%以上,具有简单、准确的特点.
-
关键词
WEB信息提取
正则表达式
html解析器
主题信息
-
Keywords
Web information extraction
regular expression
html Parser package
topic information
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-