-
题名基于扩展标记图的Web信息抽取器
被引量:2
- 1
-
-
作者
王亮
朱征宇
-
机构
重庆大学计算机学院
-
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第8期159-161,191,共4页
-
基金
重庆大学骨干教师资助计划项目(2003A33)
-
文摘
介绍了一种新的Web信息抽取器,该抽取器基于扩展标记图模型,实现了数据和模式的分离,应用于Web检索系统中,能够有效地支持标记级实时信息检索、抽取和重组。还介绍了其在Web信息检索系统PowerSearcher中的实际应用。
-
关键词
Web信息抽取器
扩展标记图
半结构数据
WEB检索
-
Keywords
Web information extractor
Extend tag graph
Semi-structured data
Web retrieval
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名从WEB文档中构造半结构化信息的抽取器
被引量:47
- 2
-
-
作者
黄豫清
戚广志
张福炎
-
机构
南京大学多媒体计算机研究所
-
出处
《软件学报》
EI
CSCD
北大核心
2000年第1期73-78,共6页
-
文摘
为了对 WEB上不规则的、动态的信息按照数据库的方式集成和查询 ,采用对象交换模型 (object ex-change model,简称 OEM)建立了 WEB信息模型 .为了将页面中各个部分表示为对应的 OEM对象 ,设计了半结构化信息的抽取算法 ,并给出测试结果 .该方法可以抽取结构化和半结构化的信息 ,比现有的抽取方法通用性更强 .
-
关键词
启发式规则
信息抽取器
WEB
文档
-
Keywords
Heuristics rule, data extracting format, object exchange model.
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
TP393
[自动化与计算机技术—计算机应用技术]
-