期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于子树匹配的交互式Web数据抽取方法 被引量:8
1
作者 张慧颖 曲著伟 《计算机工程》 CAS CSCD 北大核心 2006年第9期78-80,共3页
查询相关的Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。针对查询相关的Web页面的特点,提出了一种基于DOM子树匹配的交互式Web数据抽取方法,实验证明,该方法能保证很... 查询相关的Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。针对查询相关的Web页面的特点,提出了一种基于DOM子树匹配的交互式Web数据抽取方法,实验证明,该方法能保证很高的数据抽取查全率和准确率。 展开更多
关键词 web数据抽取 Top-down树匹配 DOM
在线阅读 下载PDF
基于XPath比较的Web数据抽取方法 被引量:4
2
作者 陈晓锋 张凌 董守斌 《郑州大学学报(理学版)》 CAS 2007年第2期161-166,共6页
研究了从包含多个数据块的页面中抽取数据的方法.通过对比各个数据块的XPath,发现这些数据块具有相似的XPath,提出一种基于XPath比较的数据块抽取规则生成算法XERG.得到各个数据块抽取规则之后,块内的信息可以使用相对XPath或者正则表... 研究了从包含多个数据块的页面中抽取数据的方法.通过对比各个数据块的XPath,发现这些数据块具有相似的XPath,提出一种基于XPath比较的数据块抽取规则生成算法XERG.得到各个数据块抽取规则之后,块内的信息可以使用相对XPath或者正则表达式的方法来进行抽取.实验结果表明,该方法能够准确地获得各个数据块,正确抽取块内信息. 展开更多
关键词 web数据抽取 XPath比较 XERG 正则表达式
在线阅读 下载PDF
基于页面标签的Web结构化数据抽取 被引量:8
3
作者 任仲晟 薛永生 《计算机科学》 CSCD 北大核心 2007年第10期133-136,共4页
本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim- HTree,有效地减少了识别数据记录的... 本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim- HTree,有效地减少了识别数据记录的时间。在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识教据项。实验表明,该算法是有效的。 展开更多
关键词 web数据抽取 web挖掘 结构化数据 信息抽取
在线阅读 下载PDF
Web网页中动态数据区域的识别与抽取 被引量:8
4
作者 黄健斌 姬红兵 孙鹤立 《计算机工程》 CAS CSCD 北大核心 2007年第11期53-55,58,共4页
采用基于HTML标记树的数据块查找方法挖掘Web网页中的数据区域,在此基础上结合网页聚类和跨网页数据区域匹配自动识别一个网页中的动态数据区域。实验结果表明,该方法能够提高Web网页中动态数据区域识别的召回率和准确率。
关键词 web数据区域抽取 动态数据区域识别 跨网页分析
在线阅读 下载PDF
一种Web评论自动抽取方法 被引量:12
5
作者 刘伟 严华梁 +1 位作者 肖建国 曾建勋 《软件学报》 EI CSCD 北大核心 2010年第12期3220-3236,共17页
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致... Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率. 展开更多
关键词 web用户评论 结构化数据记录 web数据抽取
在线阅读 下载PDF
一种统一的Web新闻对象自动抽取方法 被引量:4
6
作者 刘伟 严华梁 《计算机工程》 CAS CSCD 2012年第11期167-169,共3页
提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,... 提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。 展开更多
关键词 web数据抽取 视觉特征 序列标注 网页模板 新闻属性 新闻对象
在线阅读 下载PDF
基于视觉信息和标签路径的数据抽取
7
作者 张巍 邹晓明 谈凤真 《中国海洋大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第5期114-119,共6页
结合网页的视觉信息和DOM树结构,研究从Deep Web查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度... 结合网页的视觉信息和DOM树结构,研究从Deep Web查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度去除噪音节点。根据xpath属性将各条数据记录的数据项对齐。对整个抽取过程生成模板,可以使抽取效率得到很大提高。对8个Deep Web网站进行了抽取数据实验,结果表明本文方法是有效的。 展开更多
关键词 DEEP web数据抽取 视觉信息 标签路径
在线阅读 下载PDF
基于文献的农业领域本体自动构建方法研究 被引量:11
8
作者 王超 李书琴 肖红 《计算机应用与软件》 CSCD 北大核心 2014年第8期71-74,共4页
农业领域本体的构建将为农业垂直搜索引擎提供知识组织基础。在对本体构建技术进行深入研究的基础上,设计实现基于文献的农业领域本体构建方法。使用Web数据抽取技术获取农业文献,通过对文献分词和清洗,自动提取领域概念,并用关联分析... 农业领域本体的构建将为农业垂直搜索引擎提供知识组织基础。在对本体构建技术进行深入研究的基础上,设计实现基于文献的农业领域本体构建方法。使用Web数据抽取技术获取农业文献,通过对文献分词和清洗,自动提取领域概念,并用关联分析和改进的层次聚类发现领域概念间关系,构建农业领域本体。通过实验验证,该方法提高了领域概念间关系聚类效果和领域本体构建效果。最后加以应用实施,实现了基于本体的农业垂直搜索引擎。 展开更多
关键词 领域本体 本体构建 web数据抽取 关联分析 改进的层次聚类算法
在线阅读 下载PDF
页面包装器自动生成的改进算法 被引量:3
9
作者 李文奇 张忠能 《计算机工程与应用》 CSCD 北大核心 2004年第22期113-115,122,共4页
论文提出了一种页面包装器自动生成的改进算法,在对两个HTML页面进行匹配生成页面包装器的过程中,该算法使用树型数据模型作为基础,比原算法具有更高的执行效率。
关键词 web数据抽取 包装器 匹配算法 算法优化
在线阅读 下载PDF
基于可视块的多记录型复杂网页信息提取算法 被引量:13
10
作者 王卫红 梁朝凯 闵勇 《计算机科学》 CSCD 北大核心 2019年第10期63-70,共8页
网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Bas... 网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Based Information Extraction,VBIE),通过启发式规则构建可视块与可视块树,然后通过区域聚焦、噪声过滤及可视块筛选,实现了对复杂网页中数据记录的提取。该方法摒弃了以往算法对网页结构的特定假设,无需对HTML文档进行任何人工标记,保留了网页的原始结构,且能够在单页面上实现无监督的信息提取。实验结果表明,VBIE的网页信息提取精确度最高可达100%,在主流搜索引擎的结果页面和社区论坛的帖子页面上的F1均值分别为98.5%和96.1%。相比目前方法中在复杂网页上提取效果较好的CMDR方法,VBIE的F1值提高了近16.3%,证明了该方法能够有效解决复杂网页的信息提取问题。 展开更多
关键词 web数据抽取 web挖掘 数据记录提取 网页数据提取 结构化信息
在线阅读 下载PDF
基于缩进轮廓的HTML文档重复模式挖掘方法
11
作者 朱沿旭 王怀民 +3 位作者 史殿习 尹刚 袁霖 李翔 《计算机科学》 CSCD 北大核心 2011年第8期165-168,共4页
HTML文档重复模式挖掘是找到Web页面编码模版的关键,是Web数据自动抽取和Web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的Web页面来说仍然是一个挑战。为了提高性能... HTML文档重复模式挖掘是找到Web页面编码模版的关键,是Web数据自动抽取和Web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的Web页面来说仍然是一个挑战。为了提高性能,提出了一种基于缩进轮廓的HTML文档重复模式挖掘方法。该方法首先定义了缩进轮廓模型,是一种由HTML文档每行代码的缩进值及行首的HTML标签构成的数据结构,它是HTML文档的一种简化抽象;该方法通过检测缩进轮廓中的串联重复波段,间接地挖掘HTML文档中的重复模式。实验表明,该方法不但具有较高的精确度,而且较明显地提升了性能。 展开更多
关键词 重复模式挖掘 web数据抽取 web内容挖掘 缩进轮廓 串联重复波段
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部