题名 基于双仿射注意力的迭代式开放域信息抽取
被引量:1
1
作者
李欣
邵靖淇
王昊
何丽
段建勇
机构
北方工业大学信息学院
CNONIX国家标准应用与推广实验室
出处
《计算机应用研究》
CSCD
北大核心
2024年第7期2046-2051,共6页
基金
国家重点研发计划资助项目(2020AAA0109700)
国家自然科学基金资助项目(62076167,61972003)
+1 种基金
北京市教委研发计划资助项目(KM202210009002)
北方工业大学北京城市治理研究基地项目(2023CSZL16)。
文摘
当前的开放域信息抽取(OpenIE)方法无法同时兼顾抽取结果的紧凑性和模型的性能,导致其抽取结果不能更好地被应用到下游任务中。为此,提出一个基于双仿射注意力进行表格填充及迭代抽取的模型。首先,该模型通过双仿射注意力学习单词之间的方向信息、捕获单词对之间的相互作用,随后对二维表格进行填充,使句子中的成分相互共享并识别紧凑成分;其次,使用多头注意力机制将谓词和参数的表示应用于上下文的嵌入中,使谓词和参数的提取相互依赖,更好地链接关系成分和参数成分;最后,对于含有多个关系成分的句子,使用迭代抽取的方式在无须重新编码的情况下捕获每次提取之间固有的依赖关系。在公开数据集CaRB和Wire57上的实验表明,该方法比基线方法实现了更高的精度和召回率,F_(1)值提升了至少1.4%和3.2%,同时产生了更短、语义更丰富的提取。
关键词
开放 域信息 抽取
双仿射注意力
紧凑性
多头注意力
迭代抽取
Keywords
open information extraction(openie )
biaffine attention
compactness
multi-head attention
iterative extraction
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 开放式文本信息抽取
被引量:62
2
作者
赵军
刘康
周光有
蔡黎
机构
中国科学院自动化研究所模式识别国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2011年第6期98-110,共13页
基金
国家自然科学基金资助项目(60875041
61070106)
文摘
信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。该文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。
关键词
开放 式信息 抽取
知识工程
文本理解
Keywords
open information extraction
knowledge engineering
text understanding
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 开放式信息抽取研究进展
被引量:28
3
作者
杨博
蔡东风
杨华
机构
沈阳航空航天大学知识工程研究中心
沈阳航空航天大学计算机学院
出处
《中文信息学报》
CSCD
北大核心
2014年第4期1-11,36,共12页
基金
国家"十二五"科技支撑计划(2012BAH14F00)
国家自然科学基金(61073123)
文摘
从大规模非结构化文本中自动地抽取有用信息是自然语言处理和人工智能的一个重要目标。开放式信息抽取在高效挖掘网络文本信息方面已成为必然趋势,按关系参数可分为二元、多元实体关系抽取,该文按此路线对典型方法的现状和存在问题进行分析与总结。目前多数开放式实体关系抽取仍是浅层语义处理,对隐含关系抽取很少涉及。采用马尔科夫逻辑、本体结构推理等联合推理方法可综合多种特征,有效推断细微完整信息,为深入理解文本打开新局面。
关键词
开放 式信息 抽取
联合推理
文本理解
Keywords
open information extraction
joint inference
text understanding
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 开放信息抽取技术的现状研究
被引量:3
4
作者
刘振
张智雄
机构
中国科学院文献情报中心
徐州工程学院
中国科学院大学
出处
《情报杂志》
CSSCI
北大核心
2013年第11期145-148,186,共5页
基金
国家自然科学基金"基于语言网络的文本主题中心度计算方法研究"(编号:61075047)
国家"十二五"科技支撑计划项目"面向外文科技文献信息的知识组织体系建设与应用示范"(编号:2011BAH10B00)课题五"信息资源自动处理
智能检索与STKOS应用服务集成"的研究成果之一
文摘
如何高效地自动理解网络上出现的海量文本信息,日益成为了个严峻的考验。美国华盛顿大学图灵中心提出的开放信息抽取,是一个有效的解决方法。它具有领域的独立性,无监督抽取,对大量文本的可伸缩性等特点。该论文首先介绍了开放信息抽取系统的主要功能,然后详细论述了三个主要的开放信息抽取系统的特点、组成部分以及优缺点,接着分析了开放信息抽取系统的改进方法和发展趋势。最后对未来进行展望。
关键词
开放 信息 抽取
无监督抽取
关系短语
论元抽取
语义角色标注
开放 语言学习
Keywords
Open Information Extraction(OIE) unsupervised extraction relation phrase argument extraction semantic role labeling open language learning
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 开放信息抽取研究综述
被引量:4
5
作者
胡杭乐
程春雷
叶青
彭琳
沈友志
机构
江西中医药大学计算机学院
江西中医药大学中医人工智能重点研究室
出处
《计算机工程与应用》
CSCD
北大核心
2023年第16期31-49,共19页
基金
国家自然科学基金(82260988)
江西省自然科学基金(20224BAB206102)
+1 种基金
江西省教育厅科学技术研究项目(GJJ2200923)
江西省卫生和计划生育委员会科技计划项目(202211404)。
文摘
开放信息抽取(open information extraction,OpenIE)旨在从自然语言文本中以关系短语及参数的形式生成信息的结构化表示,为知识库自动化构建、开放域问答和显式推理等下游任务提供基础支持。近年来,该领域的研究与应用不断深入,涌现了众多卓有成效的OpenIE研究思路和拓展模型。从OpenIE的定义、数据集和基准度量出发,详细深入地综述和比较了传统的OpenIE模型和基于神经网络的模型。针对传统方法,分类介绍了基于学习的模型和基于规则的模型,并深入研究了不同模型的评估方法,分析了不同类别模型之间的差异。针对基于神经网络的模型,根据抽取谓词的不同方式,将其分为联合抽取和分步抽取两种类型,并对每种模型进行了综述和对比分析。对OpenIE常用的数据集以及主要的评估基准进行了概述,并在此基础上进行了对比分析。从训练、改进以及应用三个角度对OpenIE的工作进行了总结,并对该工作的未来进行了展望。
关键词
自然语言处理
开放 信息 抽取 (openie )
神经网络
Keywords
natural language processing
open information extraction(openie )
neural network
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 无指导的中文开放式实体关系抽取
被引量:48
6
作者
秦兵
刘安安
刘挺
机构
哈尔滨工业大学计算机科学与技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第5期1029-1035,共7页
基金
国家自然科学基金项目(61122012
61273321)
国家"八六三"高技术研究发展计划基金项目(2012AA011102)
文摘
传统的实体关系抽取需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的.开放式实体关系抽取技术解决了预先定义关系类型体系的问题,但是在中文上的研究还比较少.提出面向大规模网络文本的无指导开放式中文实体关系抽取方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组;然后采用全局排序和类型排序的方法来挖掘关系指示词;最后使用关系指示词和句式规则对关系三元组进行过滤.在获取大量关系三元组的同时,还保证了80%以上的微观平均准确率.
关键词
开放 式实体关系抽取
无指导
关系三元组
关系指示词
信息 抽取
Keywords
open entity relation extraction
unsupervised
relation triple
relation word
information extraction
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 中文开放式多元实体关系抽取
被引量:14
7
作者
李颖
郝晓燕
王勇
机构
太原理工大学计算机科学与技术学院
出处
《计算机科学》
CSCD
北大核心
2017年第S1期80-83,共4页
基金
基于框架语义标注的中文篇章指代消解策略研究(2012011011-2)资助
文摘
传统信息抽取针对特定的领域。当转换到新领域时,需要人工编写新的抽取规则和人工标记新的训练样本。开放信息抽取突破了传统信息抽取的局限性。现有的开放式信息抽取系统大多针对英文,然而,目前对于中文的研究相对较少,并主要以抽取三元组为主,没有针对中文抽取多元组的方法。因此提出了一种基于依存分析的中文开放式多元实体关系抽取方法。首先,对文本集进行预处理和依存关系分析;然后将动词视为候选关系词,将与此动词有满足条件的有效依存路径的基本名词短语视为实体词,关联两个及两个以上的实体词的关系词可与实体词组成候选多元实体关系组;最后,使用经过训练的逻辑回归分类器对多元实体关系组进行过滤。对百度百科数据集的抽取结果显示,所提方法在抽取大量实体关系多元组时准确性可达到81%。
关键词
中文开放 式信息 抽取
依存分析
实体关系抽取
机器学习
OIE
word2vec
Keywords
Chinese open information extraction
Dependency parsing
Entity-relation extraction
Machine learning
OIE
Word2vec
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于依存分析的开放式中文实体关系抽取方法
被引量:29
8
作者
李明耀
杨静
机构
上海市多维度信息处理重点实验室
华东师范大学计算机科学技术系
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第6期201-207,共7页
基金
上海市科委基金资助项目(14511107000)
文摘
实体关系抽取是信息抽取的组成部分,其目标是确定实体之间是否存在某种语义关系。由于中文语法错综复杂、表达方式灵活、语义多样等固有性质的限制,导致在中文中以动词作为关系表述容易引起实体间的关系含糊不清。为此,利用依存分析,提出一种开放式中文实体关系抽取方法。对输入的单句进行依存分析,通过依存分析输出的依存弧判断单句是否为动词谓语句,如果是动词谓语句则结合中文语法启发式规则抽取关系表述。根据距离确定论元位置,对三元组进行评估,输出符合条件的三元组。在Sogou CA和Sogou CS语料库上的实验结果表明,提出的方法适用于大规模语料库,具有较好的性能与可移植性。与基于卷积树核的无监督层次聚类方法相比,F值提高了16.68%。
关键词
开放 式信息 抽取
中文实体关系抽取
依存分析
无监督
启发式规则
Keywords
Open Information Extraction(OIE)
Chinese entity relation extraction
dependency parsing
unsupervised
heuristic rule
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 融合WordNet的无监督语义分析研究
被引量:2
9
作者
杨博
蔡东风
赵奇猛
杨华
机构
沈阳航空航天大学知识工程研究中心
沈阳航空航天大学计算机学院
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第2期368-373,共6页
基金
国家"十二五"科技支撑计划项目(2012BAH14F00)资助
国家自然科学基金项目(61073123)资助
文摘
应用机器学习方法处理机器阅读的相关任务是人工智能的长远目标,但通常需要大量的人工监督操作.研究一种无监督学习在机器阅读的一个主要任务-语义分析中的应用,这种无监督方法得益于统计关系学习统一框架-Markov逻辑网.鉴于该方法通过依存句法信息无法解析语义分析中普遍存在的反义词、词形变化等语言现象,该文融合WordNet进行改进,促进概念的抽取及合并,并将机器阅读的主要目标-问答作为评价手段,结果表明这种WordNet词典与无监督机器学习相结合的方法可更好地进行语义分析,并且问答正确率可提高至90.6%.
关键词
MARKOV逻辑网
无监督学习
开放 式信息 抽取
WORDNET
Keywords
markov logic network
unsupervised learning
open information extraction
WordNet
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于故事浅层理解与事件框架的语义建模
被引量:1
10
作者
谢秋妹
高春鸣
王小兰
机构
湖南大学信息科学与工程学院
湖南大学数字媒体研究所
出处
《计算机科学》
CSCD
北大核心
2013年第10期221-225,264,共6页
基金
广东省教育部产学研结合项目(2011B090400002)资助
文摘
针对故事文本的语义理解需要,采用开放式信息抽取方式对故事文本进行多元事实抽取,并将多元事实框架表示成事件语义模型。本方法提出了基于依存关系分析和正则表达式相结合的多元事实抽取方法,得到故事浅层语义的多元事实框架,然后将多元事实框架通过规则映射到具有定量时空描述的事件本体模型即Story-Oriented Semantic Description Language(SOSDL)本体。实验表明,多元事实抽取方法能抽取出较多的事实,具有较高的准确率,且SOSDL本体能有效地表示多元事实框架的事件、语义要素以及它们之间的关系。
关键词
开放 式信息 抽取
自然语言处理
故事文本
事件本体
Keywords
Open information extraction,Natural language processing, Story text, Event ontology
分类号
TP391
[自动化与计算机技术—计算机应用技术]