基于“预训练+微调”范式的实体关系联合抽取方法依赖大规模标注数据,在数据标注难度大、成本高的中文古籍小样本场景下微调效率低,抽取性能不佳;中文古籍中普遍存在实体嵌套和关系重叠的问题,限制了实体关系联合抽取的效果;管道式抽取...基于“预训练+微调”范式的实体关系联合抽取方法依赖大规模标注数据,在数据标注难度大、成本高的中文古籍小样本场景下微调效率低,抽取性能不佳;中文古籍中普遍存在实体嵌套和关系重叠的问题,限制了实体关系联合抽取的效果;管道式抽取方法存在错误传播问题,影响抽取效果。针对以上问题,提出一种基于提示学习和全局指针网络的中文古籍实体关系联合抽取方法。首先,利用区间抽取式阅读理解的提示学习方法对预训练语言模型(PLM)注入领域知识以统一预训练和微调的优化目标,并对输入句子进行编码表示;其次,使用全局指针网络分别对主、客实体边界和不同关系下的主、客实体边界进行预测和联合解码,对齐成实体关系三元组,并构建了PTBG(Prompt Tuned BERT with Global pointer)模型,解决实体嵌套和关系重叠问题,同时避免了管道式解码的错误传播问题;最后,在上述工作基础上分析了不同提示模板对抽取性能的影响。在《史记》数据集上进行实验的结果表明,相较于注入领域知识前后的OneRel模型,PTBG模型所取得的F1值分别提升了1.64和1.97个百分点。可见,PTBG模型能更好地对中文古籍实体关系进行联合抽取,为低资源的小样本深度学习场景提供了新的研究思路与方法。展开更多
实体关系联合抽取作为构建知识图谱的核心环节,旨在从非结构化文本中提取实体-关系三元组。针对现有联合抽取方法在解码时未能有效处理实体关系间的相互作用,导致对语境理解不足,产生冗余信息等问题,提出一种基于并行解码和聚类的实体...实体关系联合抽取作为构建知识图谱的核心环节,旨在从非结构化文本中提取实体-关系三元组。针对现有联合抽取方法在解码时未能有效处理实体关系间的相互作用,导致对语境理解不足,产生冗余信息等问题,提出一种基于并行解码和聚类的实体关系联合抽取模型。首先,利用BERT(bidirectional encoder representations from transformers)模型进行文本编码,获取语义信息丰富的字符向量。其次,采用非自回归并行解码器增强实体关系间的交互,并引入层次凝聚聚类算法及多数投票机制进一步优化解码结果以捕获语境信息,减少冗余信息。最后,生成高质量的三元组集合,以构建课程知识图谱。为评估该方法的性能,在公共数据集NYT和WebNLG以及自建C语言数据集上进行实验,结果表明,该方法在精确率和F1值上优于其他对比模型。展开更多
文摘基于“预训练+微调”范式的实体关系联合抽取方法依赖大规模标注数据,在数据标注难度大、成本高的中文古籍小样本场景下微调效率低,抽取性能不佳;中文古籍中普遍存在实体嵌套和关系重叠的问题,限制了实体关系联合抽取的效果;管道式抽取方法存在错误传播问题,影响抽取效果。针对以上问题,提出一种基于提示学习和全局指针网络的中文古籍实体关系联合抽取方法。首先,利用区间抽取式阅读理解的提示学习方法对预训练语言模型(PLM)注入领域知识以统一预训练和微调的优化目标,并对输入句子进行编码表示;其次,使用全局指针网络分别对主、客实体边界和不同关系下的主、客实体边界进行预测和联合解码,对齐成实体关系三元组,并构建了PTBG(Prompt Tuned BERT with Global pointer)模型,解决实体嵌套和关系重叠问题,同时避免了管道式解码的错误传播问题;最后,在上述工作基础上分析了不同提示模板对抽取性能的影响。在《史记》数据集上进行实验的结果表明,相较于注入领域知识前后的OneRel模型,PTBG模型所取得的F1值分别提升了1.64和1.97个百分点。可见,PTBG模型能更好地对中文古籍实体关系进行联合抽取,为低资源的小样本深度学习场景提供了新的研究思路与方法。
文摘实体关系联合抽取作为构建知识图谱的核心环节,旨在从非结构化文本中提取实体-关系三元组。针对现有联合抽取方法在解码时未能有效处理实体关系间的相互作用,导致对语境理解不足,产生冗余信息等问题,提出一种基于并行解码和聚类的实体关系联合抽取模型。首先,利用BERT(bidirectional encoder representations from transformers)模型进行文本编码,获取语义信息丰富的字符向量。其次,采用非自回归并行解码器增强实体关系间的交互,并引入层次凝聚聚类算法及多数投票机制进一步优化解码结果以捕获语境信息,减少冗余信息。最后,生成高质量的三元组集合,以构建课程知识图谱。为评估该方法的性能,在公共数据集NYT和WebNLG以及自建C语言数据集上进行实验,结果表明,该方法在精确率和F1值上优于其他对比模型。