期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
开放式信息抽取研究进展 被引量:28
1
作者 杨博 蔡东风 杨华 《中文信息学报》 CSCD 北大核心 2014年第4期1-11,36,共12页
从大规模非结构化文本中自动地抽取有用信息是自然语言处理和人工智能的一个重要目标。开放式信息抽取在高效挖掘网络文本信息方面已成为必然趋势,按关系参数可分为二元、多元实体关系抽取,该文按此路线对典型方法的现状和存在问题进行... 从大规模非结构化文本中自动地抽取有用信息是自然语言处理和人工智能的一个重要目标。开放式信息抽取在高效挖掘网络文本信息方面已成为必然趋势,按关系参数可分为二元、多元实体关系抽取,该文按此路线对典型方法的现状和存在问题进行分析与总结。目前多数开放式实体关系抽取仍是浅层语义处理,对隐含关系抽取很少涉及。采用马尔科夫逻辑、本体结构推理等联合推理方法可综合多种特征,有效推断细微完整信息,为深入理解文本打开新局面。 展开更多
关键词 开放式信息抽取 联合推理 文本理解
在线阅读 下载PDF
开放式文本信息抽取 被引量:62
2
作者 赵军 刘康 +1 位作者 周光有 蔡黎 《中文信息学报》 CSCD 北大核心 2011年第6期98-110,共13页
信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。该文在回顾文本... 信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。该文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。 展开更多
关键词 开放式信息抽取 知识工程 文本理解
在线阅读 下载PDF
中文开放式多元实体关系抽取 被引量:14
3
作者 李颖 郝晓燕 王勇 《计算机科学》 CSCD 北大核心 2017年第S1期80-83,共4页
传统信息抽取针对特定的领域。当转换到新领域时,需要人工编写新的抽取规则和人工标记新的训练样本。开放信息抽取突破了传统信息抽取的局限性。现有的开放式信息抽取系统大多针对英文,然而,目前对于中文的研究相对较少,并主要以抽取三... 传统信息抽取针对特定的领域。当转换到新领域时,需要人工编写新的抽取规则和人工标记新的训练样本。开放信息抽取突破了传统信息抽取的局限性。现有的开放式信息抽取系统大多针对英文,然而,目前对于中文的研究相对较少,并主要以抽取三元组为主,没有针对中文抽取多元组的方法。因此提出了一种基于依存分析的中文开放式多元实体关系抽取方法。首先,对文本集进行预处理和依存关系分析;然后将动词视为候选关系词,将与此动词有满足条件的有效依存路径的基本名词短语视为实体词,关联两个及两个以上的实体词的关系词可与实体词组成候选多元实体关系组;最后,使用经过训练的逻辑回归分类器对多元实体关系组进行过滤。对百度百科数据集的抽取结果显示,所提方法在抽取大量实体关系多元组时准确性可达到81%。 展开更多
关键词 中文开放式信息抽取 依存分析 实体关系抽取 机器学习 OIE word2vec
在线阅读 下载PDF
基于依存分析的开放式中文实体关系抽取方法 被引量:28
4
作者 李明耀 杨静 《计算机工程》 CAS CSCD 北大核心 2016年第6期201-207,共7页
实体关系抽取是信息抽取的组成部分,其目标是确定实体之间是否存在某种语义关系。由于中文语法错综复杂、表达方式灵活、语义多样等固有性质的限制,导致在中文中以动词作为关系表述容易引起实体间的关系含糊不清。为此,利用依存分析,提... 实体关系抽取是信息抽取的组成部分,其目标是确定实体之间是否存在某种语义关系。由于中文语法错综复杂、表达方式灵活、语义多样等固有性质的限制,导致在中文中以动词作为关系表述容易引起实体间的关系含糊不清。为此,利用依存分析,提出一种开放式中文实体关系抽取方法。对输入的单句进行依存分析,通过依存分析输出的依存弧判断单句是否为动词谓语句,如果是动词谓语句则结合中文语法启发式规则抽取关系表述。根据距离确定论元位置,对三元组进行评估,输出符合条件的三元组。在Sogou CA和Sogou CS语料库上的实验结果表明,提出的方法适用于大规模语料库,具有较好的性能与可移植性。与基于卷积树核的无监督层次聚类方法相比,F值提高了16.68%。 展开更多
关键词 开放式信息抽取 中文实体关系抽取 依存分析 无监督 启发式规则
在线阅读 下载PDF
融合WordNet的无监督语义分析研究 被引量:2
5
作者 杨博 蔡东风 +1 位作者 赵奇猛 杨华 《小型微型计算机系统》 CSCD 北大核心 2014年第2期368-373,共6页
应用机器学习方法处理机器阅读的相关任务是人工智能的长远目标,但通常需要大量的人工监督操作.研究一种无监督学习在机器阅读的一个主要任务-语义分析中的应用,这种无监督方法得益于统计关系学习统一框架-Markov逻辑网.鉴于该方法通过... 应用机器学习方法处理机器阅读的相关任务是人工智能的长远目标,但通常需要大量的人工监督操作.研究一种无监督学习在机器阅读的一个主要任务-语义分析中的应用,这种无监督方法得益于统计关系学习统一框架-Markov逻辑网.鉴于该方法通过依存句法信息无法解析语义分析中普遍存在的反义词、词形变化等语言现象,该文融合WordNet进行改进,促进概念的抽取及合并,并将机器阅读的主要目标-问答作为评价手段,结果表明这种WordNet词典与无监督机器学习相结合的方法可更好地进行语义分析,并且问答正确率可提高至90.6%. 展开更多
关键词 MARKOV逻辑网 无监督学习 开放式信息抽取 WORDNET
在线阅读 下载PDF
基于故事浅层理解与事件框架的语义建模 被引量:1
6
作者 谢秋妹 高春鸣 王小兰 《计算机科学》 CSCD 北大核心 2013年第10期221-225,264,共6页
针对故事文本的语义理解需要,采用开放式信息抽取方式对故事文本进行多元事实抽取,并将多元事实框架表示成事件语义模型。本方法提出了基于依存关系分析和正则表达式相结合的多元事实抽取方法,得到故事浅层语义的多元事实框架,然后将多... 针对故事文本的语义理解需要,采用开放式信息抽取方式对故事文本进行多元事实抽取,并将多元事实框架表示成事件语义模型。本方法提出了基于依存关系分析和正则表达式相结合的多元事实抽取方法,得到故事浅层语义的多元事实框架,然后将多元事实框架通过规则映射到具有定量时空描述的事件本体模型即Story-Oriented Semantic Description Language(SOSDL)本体。实验表明,多元事实抽取方法能抽取出较多的事实,具有较高的准确率,且SOSDL本体能有效地表示多元事实框架的事件、语义要素以及它们之间的关系。 展开更多
关键词 开放式信息抽取 自然语言处理 故事文本 事件本体
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部