-
题名模式与深度学习融合抽取因果事件三元组
- 1
-
-
作者
黄俏娟
曹存根
陈志文
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
中国科学院大学
-
出处
《高技术通讯》
CAS
北大核心
2024年第9期921-934,共14页
-
基金
国家重点研发计划(2022YFC3302300)
国家科技重大专项(7090201050307)
+1 种基金
国家重点研发计划子课题(2022YFC3302305-02)
国家242信息安全计划(2022A056)资助项目。
-
文摘
因果事件三元组对人们理解事件之间的逻辑联系至关重要。针对从文本中抽取因果事件三元组面临的缺乏高质量的数据集和因果知识覆盖范围有限的问题,本文提出了一种结合模式和深度学习的方法,从Web语料库中抽取因果事件三元组。首先,设计了反映因果关系的词法句法模式,并在Web语料库中进行匹配。其次,通过逆向文本频率和因果事件边界词策略,过滤模式匹配结果中的噪音。随后,采用规则的方法对因果事件进行规范化处理,形成了一个高质量的因果事件三元组数据集。最后,在双向长短期记忆-条件随机场(BiLSTM-CRF)模型中将字、词、词性、因果模式特征词和因果事件边界词进行了有效融合,并引入了深度学习策略。经过在因果事件三元组数据集上的训练,本文模型在抽取大规模且涵盖广泛领域知识的Web语料库的因果事件三元组任务中表现出色。实验结果表明,模型抽取因果事件三元组的F1值高达92.44%,边界词识别精确率达到94.00%。该结果证明了模式与深度学习的高效结合、构建数据集的高质量,以及该文模型在实际应用中对抽取Web语料库的因果事件三元组具有显著价值。
-
关键词
因果事件三元组
词法句法模式
双向长短期记忆-条件随机场(BiLSTM-CRF)
多特征融合
深度学习
-
Keywords
causal event triples
lexical-syntactic pattern
bidirectional long short-term memory-conditional random field(BiLSTM-CRF)
multi-feature fusion
deep learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-