期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
Web信息的自主抽取方法 被引量:15
1
作者 许建潮 侯锟 《计算机工程与应用》 CSCD 北大核心 2005年第14期185-189,198,共6页
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够... 提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。 展开更多
关键词 web 半结构化数据 信息抽取 wrapper
在线阅读 下载PDF
基于样本实例的Web信息抽取 被引量:19
2
作者 张绍华 徐林昊 +2 位作者 杨文柱 薛文玲 李天柱 《河北大学学报(自然科学版)》 CAS 2001年第4期431-437,共7页
主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识... 主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识库对其他同类页面自动抽取所需的信息 ,存入数据库中 .本方法可用于Web查询 ,也可用于信息集成的包装器 . 展开更多
关键词 HTML 模式 抽取器 信息抽取 web查询 INTERNET INTRANET
在线阅读 下载PDF
多信息块Web页面的信息抽取 被引量:21
3
作者 王庆一 王继成 +1 位作者 周源远 袁春风 《计算机应用研究》 CSCD 北大核心 2002年第10期23-26,共4页
提出了一个采用新的抽取规则的包装器 ,结合采用基于文档结构抽取规则和基于特征Pattern匹配抽取规则包装器的优点 ,可以适用于含有多个信息块的Web页面。
关键词 多信息块 web页面 信息抽取 包装器 抽取规则 信息集成 Internet WWW 信息资源
在线阅读 下载PDF
Web数据抽取技术研究进展 被引量:13
4
作者 张成洪 古晓洪 白延红 《计算机科学》 CSCD 北大核心 2004年第2期129-131,151,共4页
由于Web上存在着大量有用而复杂的信息,近年来学术界和企业界开发了许多从Web中抽取数据的方法和工具。本文总结了Web数据抽取技术的研究进展和从Web中抽取数据的主要原理、过程、方法和抽取规则,并讨论了未来的研究方向。
关键词 web 网页 数据抽取 分布式数据库系统 数据模型 数据管理
在线阅读 下载PDF
多信息块Web页面中的抽取规则 被引量:6
5
作者 王庆一 王继成 +1 位作者 周源远 袁春风 《计算机工程》 CAS CSCD 北大核心 2003年第9期42-44,50,共4页
以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block), Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规... 以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block), Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点,能够有效地抽取MIB Web页面中的信息。 展开更多
关键词 web 信息抽取 包装器 抽取规则 信息集成
在线阅读 下载PDF
模式发现在Web抽取中的应用及设计 被引量:7
6
作者 蔡霞 张森 周宇 《控制工程》 CSCD 2003年第3期227-229,269,共4页
WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动... WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术。初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率。该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果。 展开更多
关键词 web 数据抽取 模式发现 搜索引擎 WWW 计算机网络
在线阅读 下载PDF
一种可行的Web数据抽取包装器的设计方法 被引量:3
7
作者 李宏伟 史培中 张素智 《计算机应用与软件》 CSCD 2009年第3期110-113,共4页
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新... Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果。充分体现了此Web包装器的可行性,并具有一定的高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成。 展开更多
关键词 包装器 抽取规则 信息抽取 web数据集成
在线阅读 下载PDF
支持Deep Web数据库集成的图书搜索系统 被引量:1
8
作者 单菁 王习特 +6 位作者 刘桐 李延龙 李英军 聂铁铮 寇月 申德荣 于戈 《计算机研究与发展》 EI CSCD 北大核心 2011年第S3期446-450,共5页
图书搜索系统以DeepWeb数据库的信息集成为背景,旨在为用户提供一个统一的查询接口,用户通过向统一接口提交查询,可获得各个图书网站集成的查询结果.主要介绍了系统框架、关键技术和主要演示过程.
关键词 Deep web 系统演示 查询接口映射 数据抽取 数据集成
在线阅读 下载PDF
Web页面细粒度数据抽取方法研究
9
作者 王旭仁 杨硕 +2 位作者 何发镁 王彦丽 张为群 《计算机工程与设计》 CSCD 北大核心 2014年第2期700-704,共5页
尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实... 尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实现了模板和种子之间多对多的自动关联(automatically correlating),并按照信息稳定性的高低为每个字段生成多个抽取规则,在抽取信息时根据多个抽取规则进行抽取,只有在所有规则失效时才会导致抽取失败,提高了抽取系统的鲁棒性。实验结果表明,该方法具有良好的抽取功率和准确率。 展开更多
关键词 信息抽取 web挖掘 包装器 自动关联
在线阅读 下载PDF
基于规则集的Deep Web信息检索
10
作者 杨巨峰 史广顺 +1 位作者 赵玉娟 王庆人 《计算机工程》 CAS CSCD 北大核心 2008年第13期51-53,共3页
提出一种基于规则集的新型Deep Web信息检索模型。该模型包含4个层次,主要处理环节如任务分派、信息提取、数据清洗等引入了Deep Web特有的结构规则、逻辑规则和应用规则协助工作。把该模型应用于科技文献检索、电子机票定购和工作简历... 提出一种基于规则集的新型Deep Web信息检索模型。该模型包含4个层次,主要处理环节如任务分派、信息提取、数据清洗等引入了Deep Web特有的结构规则、逻辑规则和应用规则协助工作。把该模型应用于科技文献检索、电子机票定购和工作简历搜索3个领域,实验结果证明该模型灵活、可信,有效信息查全率达到96%以上。 展开更多
关键词 信息检索 深层网络 规则集 数据提取
在线阅读 下载PDF
Web信息抽取网页自动浏览导航与集成规则研究 被引量:1
11
作者 王海涛 张志亮 +2 位作者 孙煜华 袁春风 黄宜华 《计算机科学与探索》 CSCD 2014年第9期1049-1066,共18页
Web中蕴藏着大量有价值的数据,过去十几年中,针对Web信息抽取技术已有较多的研究。而现有的研究和系统多集中在数据抽取处理阶段,忽略或简化了完整的Web信息抽取过程需要的网页自动浏览导航和集成处理。为克服这些不足,提出了包含浏览... Web中蕴藏着大量有价值的数据,过去十几年中,针对Web信息抽取技术已有较多的研究。而现有的研究和系统多集中在数据抽取处理阶段,忽略或简化了完整的Web信息抽取过程需要的网页自动浏览导航和集成处理。为克服这些不足,提出了包含浏览导航、数据抽取和集成过程的三阶段Web信息抽取处理模型,基于此进一步研究提出了自动浏览导航模型,并设计实现了网页自动浏览导航规则语言。研究提出了一种Web数据抽取、转换和集成(extraction-transformation-integration,ETI)模型,设计实现了一套灵活有效的数据集成和流程控制规则语言,能有效地维护跨网页数据记录的复杂关系,并提供灵活的流程控制能力。抽取实例的结果表明,该规则语言和系统可有效完成全过程化的Web信息抽取集成处理功能。 展开更多
关键词 web信息抽取 自动浏览导航 数据集成 流程控制 规则语言
在线阅读 下载PDF
针对模板生成网页的一种数据自动抽取方法(英文) 被引量:45
12
作者 杨少华 林海略 韩燕波 《软件学报》 EI CSCD 北大核心 2008年第2期209-223,共15页
当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽... 当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽取出来.给出了模板检测问题的形式化描述,并深入分析模板产生网页的结构特征.提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据.与其他已有方法相比,该方法能够适用于"列表页面"和"详细页面"两种类型的网页.在两个第三方的测试集上进行了实验,结果表明,该方法具有很高的抽取准确率. 展开更多
关键词 web 自动数据抽取 信息抽取 模板发现 wrapper生成
在线阅读 下载PDF
基于数据区域发现的信息抽取规则生成方法 被引量:4
13
作者 曲著伟 李敏强 《计算机工程》 CAS CSCD 北大核心 2009年第22期59-61,共3页
提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有... 提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。 展开更多
关键词 信息抽取 抽取规则生成 web数据区域 树匹配
在线阅读 下载PDF
页面包装器自动生成的改进算法 被引量:3
14
作者 李文奇 张忠能 《计算机工程与应用》 CSCD 北大核心 2004年第22期113-115,122,共4页
论文提出了一种页面包装器自动生成的改进算法,在对两个HTML页面进行匹配生成页面包装器的过程中,该算法使用树型数据模型作为基础,比原算法具有更高的执行效率。
关键词 web数据抽取 包装器 匹配算法 算法优化
在线阅读 下载PDF
一种基于后缀树的包装器自动生成方法研究 被引量:2
15
作者 李永丽 张玉良 《计算机工程与应用》 CSCD 北大核心 2007年第34期114-118,共5页
包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种... 包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种基于后缀树的包装器自动生成方法,生成的包装器不仅可以处理简单结构数据,还可以处理嵌套结构数据,具有较低的时间复杂度,有一定的实用价值。 展开更多
关键词 网页 信息抽取 后缀树 半结构化数据 包装器自动生成
在线阅读 下载PDF
基于规则模型的网页主题文本提取方法 被引量:3
16
作者 张裕钦 李振坤 吴永杰 《计算机工程与设计》 CSCD 北大核心 2009年第20期4665-4667,共3页
通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法。该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到... 通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法。该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到有效提取网页主题文本的目的。实验结果表明,该方法对于各类型网页主题文本的提取均具有较高的准确率,通用性强。 展开更多
关键词 规则模型 信息抽取 主题文本提取 数据采集 web挖掘
在线阅读 下载PDF
基于特征相似度计算的网页包装器自适应 被引量:4
17
作者 陈迎仁 郭莹楠 +2 位作者 郭享 倪一涛 陈星 《计算机科学》 CSCD 北大核心 2021年第S02期218-224,257,共8页
随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加... 随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加包装器的维护成本。针对包装器的健壮性以及维护成本问题,提出了一种基于特征相似度计算的网页包装器自适应技术。该技术主要通过解析新网页的特征集合和旧包装器所蕴含的特征信息,通过网页相似度计算,重定位旧包装器在新网页中的映射区域和映射数据项,并根据映射关系使旧包装器能够自适应新网页的数据提取。该技术主要针对各类型网站进行实验,其中包括了购物类、新闻类、资讯类、论坛类和服务类,从中选取了250对新旧版本网页,共500个网页,进行包装器自适应实验。实验结果表明,当网页结构改变时,该方法能够有效地自适应新网页的数据提取,且数据提取的平均精确度和平均召回值分别达到82.2%和84.36%。 展开更多
关键词 网页数据抽取 自适应 包装器 相似度计算 网页特征
在线阅读 下载PDF
基于XPath的广告数据提取研究 被引量:1
18
作者 何章鸿 董守斌 《江西师范大学学报(自然科学版)》 CAS 北大核心 2008年第2期153-156,共4页
针对广告抽取系统的实际需求,该文提出了利用XPath规则从包含多个广告的页面中抽取广告记录数据的方法.该文主要阐述了广告抽取系统核心模块的实现机制和系统架构.实验结果表明,该方法能够准确定位页面广告数据块,并且能较好提取块内广... 针对广告抽取系统的实际需求,该文提出了利用XPath规则从包含多个广告的页面中抽取广告记录数据的方法.该文主要阐述了广告抽取系统核心模块的实现机制和系统架构.实验结果表明,该方法能够准确定位页面广告数据块,并且能较好提取块内广告记录信息,具有一定的实用价值. 展开更多
关键词 信息抽取 XPATH 广告数据块 广告记录 包装器
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部