-
题名面向新领域的事件抽取研究综述
被引量:7
- 1
-
-
作者
黄河燕
刘啸
-
机构
北京理工大学计算机学院
北京海量语言信息处理与云计算应用工程研究中心
北京理工大学东南信息技术研究院
-
出处
《智能系统学报》
CSCD
北大核心
2022年第1期201-212,共12页
-
基金
国家自然科学基金项目(U19B2020).
-
文摘
在当前互联网时代,大量新领域下的非结构文本数据中蕴含了海量信息。面向新领域的事件抽取方法研究能快速地构建领域知识库,用于支撑基于知识的下游应用。但现有事件抽取系统的领域限定性强,在新领域中从零构建会极度依赖事件体系和标注数据的质量及规模,需要大量人力和专家知识来定制模板和标注语料。而且数据集中常见在相同的上下文中出现多个相关联的事件实例,对事件抽取和真实性检测产生了极大阻碍。本文针对面向新领域的事件抽取这一新兴研究领域进行综述,从事件模板推导、多实例联合事件抽取、事件真实性检测三个研究方向介绍了相关工作的研究现状,并对目前存在的重点和难点问题进行了讨论,指出了下一步需要开展的研究工作。
-
关键词
事件抽取
新领域
信息抽取
事件模板推导
联合抽取
事件真实性检测
自然语言处理
知识库
-
Keywords
event extraction
new domains
information extraction
event schema induction
collective extraction
event factuality prediction
natural language processing
knowledge base
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于知识增强的文本隐喻识别图编码方法
被引量:3
- 2
-
-
作者
黄河燕
刘啸
刘茜
-
机构
北京理工大学计算机学院
北京海量语言信息处理与云计算工程研究中心
北京理工大学东南信息技术研究院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第1期140-152,共13页
-
基金
国家重点研发计划项目(2018YFB1005100)
国家自然科学基金项目(61732005)。
-
文摘
隐喻识别是自然语言处理中语义理解的重要任务之一,目标为识别某一概念在使用时是否借用了其他概念的属性和特点.由于单纯的神经网络方法受到数据集规模和标注稀疏性问题的制约,近年来,隐喻识别研究者开始探索如何利用其他任务中的知识和粗粒度句法知识结合神经网络模型,获得更有效的特征向量进行文本序列编码和建模.然而,现有方法忽略了词义项知识和细粒度句法知识,造成了外部知识利用率低的问题,难以建模复杂语境.针对上述问题,提出一种基于知识增强的图编码方法(knowledge-enhanced graph encoding method,KEG)来进行文本中的隐喻识别.该方法分为3个部分:在文本编码层,利用词义项知识训练语义向量,与预训练模型产生的上下文向量结合,增强语义表示;在图网络层,利用细粒度句法知识构建信息图,进而计算细粒度上下文,结合图循环神经网络进行迭代式状态传递,获得表示词的节点向量和表示句子的全局向量,实现对复杂语境的高效建模;在解码层,按照序列标注架构,采用条件随机场对序列标签进行解码.实验结果表明,该方法的性能在4个国际公开数据集上均获得有效提升.
-
关键词
隐喻识别
图循环神经网络
知识增强方法
词义项知识
细类别句法知识
序列标注
-
Keywords
metaphor detection
graph recurrent neural network
knowledge-enhanced method
word sense knowledge
fine-grained syntactic knowledge
sequence labeling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于短语向量和主题加权的关键词抽取方法
被引量:3
- 3
-
-
作者
孙新
盖晨
申长虹
张颖捷
-
机构
北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心
北京理工大学东南信息技术研究院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2021年第9期1682-1690,共9页
-
基金
国家重点研发计划项目(No.2017YFB0803300)。
-
文摘
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法 PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.
-
关键词
短语向量
自编码器
主题加权
关键词抽取
-
Keywords
phrase embedding
auto-encoder
theme-weighted
keyphrases extraction
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-