期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于知识图谱的Web信息抽取系统 被引量:16
1
作者 王辉 郁波 +1 位作者 洪宇 肖仰华 《计算机工程》 CAS CSCD 北大核心 2017年第6期118-124,共7页
为实现多领域海量网页信息的有效抽取,以中文知识图谱CN-DBpedia为基础设计Web信息抽取系统。基于知识图谱对网页数据项进行自动标注,建立具有容错能力的包装器归纳框架,从包含错误的标注集中归纳学习出正确的包装器。实验结果表明,该... 为实现多领域海量网页信息的有效抽取,以中文知识图谱CN-DBpedia为基础设计Web信息抽取系统。基于知识图谱对网页数据项进行自动标注,建立具有容错能力的包装器归纳框架,从包含错误的标注集中归纳学习出正确的包装器。实验结果表明,该系统的准确率和召回率均高于传统人工标注方法,可显著降低网页信息抽取过程中的人力成本,灵活运用于大规模、多领域的网页信息抽取任务。 展开更多
关键词 知识图谱 多领域 web信息抽取 网页自动标注 容错 包装器归纳框架
在线阅读 下载PDF
地震速报信息快速提取及WEB信息发布功能的设计与实现 被引量:6
2
作者 李红 蔡寅 +4 位作者 李永红 张慧峰 王峰 马玉香 梁凯利 《震灾防御技术》 CSCD 北大核心 2015年第1期184-191,共8页
笔者研发了地震速报信息快速提取和WEB信息发布的功能程序模块。利用EQIM平台和山东省地震局门户网站,实现了基于百度矢量地图的全球、全国和山东及邻省地震速报信息的自动发布。改变了原来手工录入信息慢、信息发布时效性差的局面,以... 笔者研发了地震速报信息快速提取和WEB信息发布的功能程序模块。利用EQIM平台和山东省地震局门户网站,实现了基于百度矢量地图的全球、全国和山东及邻省地震速报信息的自动发布。改变了原来手工录入信息慢、信息发布时效性差的局面,以便于公众通过山东省防震减灾信息网站及时掌握震情动态,对于提高社会防震减灾的公共服务能力具有重要意义。 展开更多
关键词 地震速报 软件编程 信息快速获取 web自动发布 社会服务
在线阅读 下载PDF
Web页面细粒度数据抽取方法研究
3
作者 王旭仁 杨硕 +2 位作者 何发镁 王彦丽 张为群 《计算机工程与设计》 CSCD 北大核心 2014年第2期700-704,共5页
尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实... 尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实现了模板和种子之间多对多的自动关联(automatically correlating),并按照信息稳定性的高低为每个字段生成多个抽取规则,在抽取信息时根据多个抽取规则进行抽取,只有在所有规则失效时才会导致抽取失败,提高了抽取系统的鲁棒性。实验结果表明,该方法具有良好的抽取功率和准确率。 展开更多
关键词 信息抽取 web挖掘 包装器 自动关联
在线阅读 下载PDF
针对模板生成网页的一种数据自动抽取方法(英文) 被引量:45
4
作者 杨少华 林海略 韩燕波 《软件学报》 EI CSCD 北大核心 2008年第2期209-223,共15页
当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽... 当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽取出来.给出了模板检测问题的形式化描述,并深入分析模板产生网页的结构特征.提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据.与其他已有方法相比,该方法能够适用于"列表页面"和"详细页面"两种类型的网页.在两个第三方的测试集上进行了实验,结果表明,该方法具有很高的抽取准确率. 展开更多
关键词 web 自动数据抽取 信息抽取 模板发现 Wrapper生成
在线阅读 下载PDF
网络舆情中的信息预处理与自动摘要算法 被引量:8
5
作者 廉捷 刘云 《北京交通大学学报》 CAS CSCD 北大核心 2010年第5期94-99,共6页
提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准... 提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准确的找到人们关心的信息.测试结果支持了本文提出的算法. 展开更多
关键词 自动摘要 网页预处理 信息抽取 倒排索引 网络舆情
在线阅读 下载PDF
一种基于后缀树的包装器自动生成方法研究 被引量:2
6
作者 李永丽 张玉良 《计算机工程与应用》 CSCD 北大核心 2007年第34期114-118,共5页
包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种... 包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种基于后缀树的包装器自动生成方法,生成的包装器不仅可以处理简单结构数据,还可以处理嵌套结构数据,具有较低的时间复杂度,有一定的实用价值。 展开更多
关键词 网页 信息抽取 后缀树 半结构化数据 包装器自动生成
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部