-
题名开放式信息抽取研究进展
被引量:28
- 1
-
-
作者
杨博
蔡东风
杨华
-
机构
沈阳航空航天大学知识工程研究中心
沈阳航空航天大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2014年第4期1-11,36,共12页
-
基金
国家"十二五"科技支撑计划(2012BAH14F00)
国家自然科学基金(61073123)
-
文摘
从大规模非结构化文本中自动地抽取有用信息是自然语言处理和人工智能的一个重要目标。开放式信息抽取在高效挖掘网络文本信息方面已成为必然趋势,按关系参数可分为二元、多元实体关系抽取,该文按此路线对典型方法的现状和存在问题进行分析与总结。目前多数开放式实体关系抽取仍是浅层语义处理,对隐含关系抽取很少涉及。采用马尔科夫逻辑、本体结构推理等联合推理方法可综合多种特征,有效推断细微完整信息,为深入理解文本打开新局面。
-
关键词
开放式信息抽取
联合推理
文本理解
-
Keywords
open information extraction
joint inference
text understanding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名开放式文本信息抽取
被引量:62
- 2
-
-
作者
赵军
刘康
周光有
蔡黎
-
机构
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2011年第6期98-110,共13页
-
基金
国家自然科学基金资助项目(60875041
61070106)
-
文摘
信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。该文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。
-
关键词
开放式信息抽取
知识工程
文本理解
-
Keywords
open information extraction
knowledge engineering
text understanding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文开放式多元实体关系抽取
被引量:14
- 3
-
-
作者
李颖
郝晓燕
王勇
-
机构
太原理工大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2017年第S1期80-83,共4页
-
基金
基于框架语义标注的中文篇章指代消解策略研究(2012011011-2)资助
-
文摘
传统信息抽取针对特定的领域。当转换到新领域时,需要人工编写新的抽取规则和人工标记新的训练样本。开放信息抽取突破了传统信息抽取的局限性。现有的开放式信息抽取系统大多针对英文,然而,目前对于中文的研究相对较少,并主要以抽取三元组为主,没有针对中文抽取多元组的方法。因此提出了一种基于依存分析的中文开放式多元实体关系抽取方法。首先,对文本集进行预处理和依存关系分析;然后将动词视为候选关系词,将与此动词有满足条件的有效依存路径的基本名词短语视为实体词,关联两个及两个以上的实体词的关系词可与实体词组成候选多元实体关系组;最后,使用经过训练的逻辑回归分类器对多元实体关系组进行过滤。对百度百科数据集的抽取结果显示,所提方法在抽取大量实体关系多元组时准确性可达到81%。
-
关键词
中文开放式信息抽取
依存分析
实体关系抽取
机器学习
OIE
word2vec
-
Keywords
Chinese open information extraction
Dependency parsing
Entity-relation extraction
Machine learning
OIE
Word2vec
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于依存分析的开放式中文实体关系抽取方法
被引量:28
- 4
-
-
作者
李明耀
杨静
-
机构
上海市多维度信息处理重点实验室
华东师范大学计算机科学技术系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第6期201-207,共7页
-
基金
上海市科委基金资助项目(14511107000)
-
文摘
实体关系抽取是信息抽取的组成部分,其目标是确定实体之间是否存在某种语义关系。由于中文语法错综复杂、表达方式灵活、语义多样等固有性质的限制,导致在中文中以动词作为关系表述容易引起实体间的关系含糊不清。为此,利用依存分析,提出一种开放式中文实体关系抽取方法。对输入的单句进行依存分析,通过依存分析输出的依存弧判断单句是否为动词谓语句,如果是动词谓语句则结合中文语法启发式规则抽取关系表述。根据距离确定论元位置,对三元组进行评估,输出符合条件的三元组。在Sogou CA和Sogou CS语料库上的实验结果表明,提出的方法适用于大规模语料库,具有较好的性能与可移植性。与基于卷积树核的无监督层次聚类方法相比,F值提高了16.68%。
-
关键词
开放式信息抽取
中文实体关系抽取
依存分析
无监督
启发式规则
-
Keywords
Open Information Extraction(OIE)
Chinese entity relation extraction
dependency parsing
unsupervised
heuristic rule
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名融合WordNet的无监督语义分析研究
被引量:2
- 5
-
-
作者
杨博
蔡东风
赵奇猛
杨华
-
机构
沈阳航空航天大学知识工程研究中心
沈阳航空航天大学计算机学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第2期368-373,共6页
-
基金
国家"十二五"科技支撑计划项目(2012BAH14F00)资助
国家自然科学基金项目(61073123)资助
-
文摘
应用机器学习方法处理机器阅读的相关任务是人工智能的长远目标,但通常需要大量的人工监督操作.研究一种无监督学习在机器阅读的一个主要任务-语义分析中的应用,这种无监督方法得益于统计关系学习统一框架-Markov逻辑网.鉴于该方法通过依存句法信息无法解析语义分析中普遍存在的反义词、词形变化等语言现象,该文融合WordNet进行改进,促进概念的抽取及合并,并将机器阅读的主要目标-问答作为评价手段,结果表明这种WordNet词典与无监督机器学习相结合的方法可更好地进行语义分析,并且问答正确率可提高至90.6%.
-
关键词
MARKOV逻辑网
无监督学习
开放式信息抽取
WORDNET
-
Keywords
markov logic network
unsupervised learning
open information extraction
WordNet
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于故事浅层理解与事件框架的语义建模
被引量:1
- 6
-
-
作者
谢秋妹
高春鸣
王小兰
-
机构
湖南大学信息科学与工程学院
湖南大学数字媒体研究所
-
出处
《计算机科学》
CSCD
北大核心
2013年第10期221-225,264,共6页
-
基金
广东省教育部产学研结合项目(2011B090400002)资助
-
文摘
针对故事文本的语义理解需要,采用开放式信息抽取方式对故事文本进行多元事实抽取,并将多元事实框架表示成事件语义模型。本方法提出了基于依存关系分析和正则表达式相结合的多元事实抽取方法,得到故事浅层语义的多元事实框架,然后将多元事实框架通过规则映射到具有定量时空描述的事件本体模型即Story-Oriented Semantic Description Language(SOSDL)本体。实验表明,多元事实抽取方法能抽取出较多的事实,具有较高的准确率,且SOSDL本体能有效地表示多元事实框架的事件、语义要素以及它们之间的关系。
-
关键词
开放式信息抽取
自然语言处理
故事文本
事件本体
-
Keywords
Open information extraction,Natural language processing, Story text, Event ontology
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-