期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
构造Web文档中半结构化信息的技术 被引量:4
1
作者 黄豫清 戚广智 张福炎 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2000年第3期230-234,共5页
为了对 Web上不规则的、动态的信息按照数据库的方式集成和查询 ,采用对象交换模型 (OEM)建立了Web上信息模型 .为了将页面中各个部分表示为对应的 OEM对象 ,设计了半结构化信息的抽取算法 ,并给出测试结果 .该方法可以抽取结构化和半... 为了对 Web上不规则的、动态的信息按照数据库的方式集成和查询 ,采用对象交换模型 (OEM)建立了Web上信息模型 .为了将页面中各个部分表示为对应的 OEM对象 ,设计了半结构化信息的抽取算法 ,并给出测试结果 .该方法可以抽取结构化和半结构化的信息 ,比现有的抽取方法通用性更强 . 展开更多
关键词 半结构化信息 WEB 文档 信息查询 数据库
在线阅读 下载PDF
基于约束的半结构化信息的抽取方法 被引量:2
2
作者 黄豫清 邹涛 《计算机应用与软件》 CSCD 北大核心 2002年第1期53-59,共7页
为了对WEB上不规则的动态信息按照数据库的方式集成和查询,本文采用对象交换模型(OEM)建立WEB上信息模型。为了将页面中各个部分表示为对应的OEM对象,本文(1)设计了半结构化信息的抽取算法;(2)定义了满足约束条件的数据抽取格式,并且设... 为了对WEB上不规则的动态信息按照数据库的方式集成和查询,本文采用对象交换模型(OEM)建立WEB上信息模型。为了将页面中各个部分表示为对应的OEM对象,本文(1)设计了半结构化信息的抽取算法;(2)定义了满足约束条件的数据抽取格式,并且设计了输出正确抽取格式的候选者算法;(3)给出测试结果。该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强。 展开更多
关键词 数据抽取格式 OEM模型 数据抽取格式约束 半结构化信息 数据库
在线阅读 下载PDF
基于EC-MAS的半结构化信息处理模式研究
3
作者 李海鹰 周辉 +2 位作者 解光军 李动恒 庄镇泉 《计算机工程》 CAS CSCD 北大核心 2001年第12期15-17,51,共4页
在基于MAS(Multi-Agent-System)的电子商务系统环境中,提出了一个针对半结构化信息的规范处理模式。通过这个处理模式,系统可以自主解决电子商务系统中数据的提取与转化、信息集成、数据关联管理等问题。这种信息处理模式结合了MAS设计... 在基于MAS(Multi-Agent-System)的电子商务系统环境中,提出了一个针对半结构化信息的规范处理模式。通过这个处理模式,系统可以自主解决电子商务系统中数据的提取与转化、信息集成、数据关联管理等问题。这种信息处理模式结合了MAS设计思想,利用信息提取与转换器(Wrapper)屏蔽或解释半结构化信息中的异构部分的方法,设计信息源封装体系;通过提供一致的应用接口,使系统可以对信息源施加各种操作和管理。同时介绍了一个利用该模式设计的信息管理网站的结构。 展开更多
关键词 电子商务系统 半结构化信息处理 EC-MAS INTERNET
在线阅读 下载PDF
Squeal:用于网络的结构化查询语言
4
作者 Ellen Spertus Lynn Andrea Stein 郑娟 《湘潭大学学报(哲学社会科学版)》 2000年第S1期192-197,共6页
网络包含有丰富的、很有用的半结构化的信息。它们应该被提取出来。结构的类型包括页面间的超链接、超文本页面内的结构以及URL中的结构。我们已经发展了一种程序化语言 :Squeal。它使得基于结构的查询变得更加容易。特别地 ,只要网络... 网络包含有丰富的、很有用的半结构化的信息。它们应该被提取出来。结构的类型包括页面间的超链接、超文本页面内的结构以及URL中的结构。我们已经发展了一种程序化语言 :Squeal。它使得基于结构的查询变得更加容易。特别地 ,只要网络是在一个标准的关系数据库 ,Squeal用户都可以对网络进行查询。我们描述Squeal 。 展开更多
关键词 网络 结构 半结构化信息 超链接 超文本 关系数据库 结构化查询语言 推荐器
在线阅读 下载PDF
异构信息源集成技术 被引量:13
5
作者 宋瀚涛 《北京理工大学学报》 EI CAS CSCD 北大核心 2002年第5期533-536,共4页
异构信息源集成技术提供统一接口 ,使各种基于因特网的应用能迅速、准确地提取所需信息 ,为用户屏蔽各种信息源的异构性 .这种异构信息源的集成技术从传统的结构化的异构数据库扩大到半结构化的大量 Web页面信息及无结构的信息 .对集成... 异构信息源集成技术提供统一接口 ,使各种基于因特网的应用能迅速、准确地提取所需信息 ,为用户屏蔽各种信息源的异构性 .这种异构信息源的集成技术从传统的结构化的异构数据库扩大到半结构化的大量 Web页面信息及无结构的信息 .对集成技术的方法 ,如数据模型、Web信息、描述语言 XML、主流软件开发技术及信息智能搜索、查询重写、查询分析等进行了分析 ,给出了半结构化异构信息源集成的系统架构 ,并指出该项技术未来发展趋势 . 展开更多
关键词 异构信息 信息集成 半结构化信息 信息智能搜索 查询重写 查询分析 异构数据库
在线阅读 下载PDF
Web结构挖掘的XML实现策略 被引量:2
6
作者 朱德利 《计算机工程与设计》 CSCD 北大核心 2006年第23期4447-4449,4460,共4页
XML适合于解决Web数据挖掘中数据库环境异构和信息的半结构化等难题。Web结构挖掘是整个Web信息挖掘的重要组成部分。用XML来完成Web结构信息的预处理是将Web结构信息规范化并转化为XML数据,并以此明确网站的文件构成、组织方式、内容... XML适合于解决Web数据挖掘中数据库环境异构和信息的半结构化等难题。Web结构挖掘是整个Web信息挖掘的重要组成部分。用XML来完成Web结构信息的预处理是将Web结构信息规范化并转化为XML数据,并以此明确网站的文件构成、组织方式、内容构成和内容的超链关系。提出基于XML的Web结构挖掘系统的实现过程,解决了XML文件通过标准接口读入到挖掘程序的关键技术。 展开更多
关键词 数据挖掘 WEB挖掘 结构挖掘 扩展标记语言 半结构化信息
在线阅读 下载PDF
基于面向值的映像方法在XML数据存储中的应用 被引量:2
7
作者 陈和平 高丽 杨玲贤 《武汉科技大学学报》 CAS 2005年第2期197-200,共4页
对当前XML数据存储技术研究与应用现状进行了简要介绍,重点就面向值的映像方法在XML数据存储中的应用进行了详细探讨,并给出了相应的存储系统体系结构和实现方法。
关键词 半结构化信息 XML存储 面向值 存储映像
在线阅读 下载PDF
基于自监督学习的维基百科家庭关系抽取 被引量:2
8
作者 朱苏阳 惠浩添 +1 位作者 钱龙华 张民 《计算机应用》 CSCD 北大核心 2015年第4期1013-1016,1020,共5页
传统有监督的关系抽取方法需要大量人工标注的训练语料,而半监督方法则召回率较低,对此提出了一种基于自监督学习来抽取人物家庭关系的方法。该方法首先将中文维基百科的半结构化信息——家庭关系三元组映射到自由文本中,从而自动生成... 传统有监督的关系抽取方法需要大量人工标注的训练语料,而半监督方法则召回率较低,对此提出了一种基于自监督学习来抽取人物家庭关系的方法。该方法首先将中文维基百科的半结构化信息——家庭关系三元组映射到自由文本中,从而自动生成已标注的训练语料;然后,使用基于特征的关系抽取方法从中文维基百科的文本中获取人物间的家庭关系。在一个人工标注的家庭关系网络测试集上的实验结果表明,该方法优于自举方法,其F1指数达到77%,说明自监督学习可以较为有效地抽取人物家庭关系。 展开更多
关键词 自监督学习 维基百科 半结构化信息 关系抽取
在线阅读 下载PDF
中文维基百科的实体分类研究 被引量:1
9
作者 徐志浩 惠浩添 +1 位作者 钱龙华 朱巧明 《中文信息学报》 CSCD 北大核心 2015年第5期91-97,124,共8页
维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来... 维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来提高实体分类性能。在人工标注的语料库上的实验表明,这些额外特征有效地提高了ACE分类体系上的实体分类性能,总体F1值达到96%,同时在扩展实体分类上也取得了较好的效果,总体F1值达95%。 展开更多
关键词 维基百科 实体分类 半结构化信息 信息
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部