医疗关系抽取可以识别医疗文本中实体间的关系,在医疗领域中发挥了积极作用。然而现有的关系抽取模型没有充分利用文本的全部特征,如文本的层次结构信息。该文提出了一种多特征融合模型(Multi Feature Fusion model,MFF),在使用实体类...医疗关系抽取可以识别医疗文本中实体间的关系,在医疗领域中发挥了积极作用。然而现有的关系抽取模型没有充分利用文本的全部特征,如文本的层次结构信息。该文提出了一种多特征融合模型(Multi Feature Fusion model,MFF),在使用实体类型标记方法处理文本中的主体和客体的基础上,使用BERT获取语义信息,并使用双向长短时记忆网络(Bidirectional Long Short Term Memory,BiLSTM)获取上下文信息,通过图卷积网络(Graph Convolutional Network,GCN)提取多种剪枝策略下的句法依存树中的层次结构信息,最后将获取的多种特征进行融合后完成关系抽取任务。在两个中文医疗实体关系抽取数据集CMeIE和TCM上进行实验,与其他先进模型相比,其F1值有所提高,证明了模型的有效性。该文的代码开源到https://github.com/zzhdbw/RE_MFF,供复现与参考。展开更多
现有知识追踪模型大多以概念为中心评估学生的未来表现,忽略了包含相同概念的练习之间的差异,从而影响模型的预测准确性。此外,在构建学生知识状态过程中,现有模型未能充分利用学生在答题过程中的学习遗忘特征,导致对学生知识状态的刻...现有知识追踪模型大多以概念为中心评估学生的未来表现,忽略了包含相同概念的练习之间的差异,从而影响模型的预测准确性。此外,在构建学生知识状态过程中,现有模型未能充分利用学生在答题过程中的学习遗忘特征,导致对学生知识状态的刻画不够精确。针对以上问题,提出了一种练习嵌入和学习遗忘特征增强的知识追踪模型(exercise embeddings and learning-forgetting features boosted knowledge tracing, ELFBKT)。该模型利用练习概念二部图中的显性关系,深入计算二部图中的隐性关系,构建了一个练习概念异构关系图。为充分利用异构图中的丰富关系信息,ELFBKT模型引入了关系图卷积网络。通过该网络的处理,模型能够增强练习嵌入的质量,并以练习为中心更准确地预测学生的未来表现。此外,ELFBKT充分利用多种学习遗忘特征,构建了两个门控机制,分别针对学生的学习行为和遗忘行为进行建模,更精确地刻画学生的知识状态。在两个真实世界数据集上进行实验,结果表明ELFBKT在知识追踪任务上的性能优于其他模型。展开更多
远程监督关系抽取通过自动对齐自然语言文本与知识库生成带有标签的训练数据集,解决样本人工标注的问题。目前的远程监督研究大多没有关注到长尾(long-tail)数据,因此远程监督得到的大多数句包中所含句子太少,不能真实全面地反映数据的...远程监督关系抽取通过自动对齐自然语言文本与知识库生成带有标签的训练数据集,解决样本人工标注的问题。目前的远程监督研究大多没有关注到长尾(long-tail)数据,因此远程监督得到的大多数句包中所含句子太少,不能真实全面地反映数据的情况。因此,提出基于位置-类型注意力机制和图卷积网络的远程监督关系抽取模型PG+PTATT。利用图卷积网络GCN聚合相似句包的隐含高阶特征,并对句包进行优化以此得到句包更丰富全面的特征信息;同时构建位置-类型注意力机制PTATT,以解决远程监督关系抽取中错误标签的问题。PTATT利用实体词与非实体词的位置关系以及类型关系进行建模,减少噪声词带来的影响。提出的模型在New York Times数据集上进行实验验证,实验结果表明提出的模型能够有效解决远程监督关系抽取中存在的问题;同时,能够有效提升关系抽取的正确率。展开更多
关系抽取是梳理学科知识的重要手段以及构建教育知识图谱的重要步骤。在当前研究中,如BERT(Bidirectional Encoder Representations from Transformers)等以Transformer架构为基础的预训练语言模型多数存在参数量大、复杂度过高的问题,...关系抽取是梳理学科知识的重要手段以及构建教育知识图谱的重要步骤。在当前研究中,如BERT(Bidirectional Encoder Representations from Transformers)等以Transformer架构为基础的预训练语言模型多数存在参数量大、复杂度过高的问题,难以部署于终端设备,限制了在真实教育场景中的应用。此外,大多数传统的轻量级关系抽取模型并不是通过文本结构对数据进行建模,容易忽略实体间的结构信息;且生成的词嵌入向量难以捕捉文本的上下文特征、对一词多义问题解决能力差,难以契合学科知识文本非结构化以及专有名词占比大的特点,不利于高质量的关系抽取。针对上述问题,提出一种基于改进分段卷积神经网络(PCNN)和知识蒸馏(KD)的学科知识实体间关系抽取方法。首先,利用BERT生成高质量的领域文本词向量,改进PCNN模型的输入层,从而有效捕捉文本上下文特征并在一定程度上解决一词多义问题;其次,利用卷积和分段最大池化操作深入挖掘实体间结构信息,构建BERTPCNN模型,实现高质量的关系抽取;最后,考虑到教育场景对高效且轻量化模型的需求,蒸馏BERT-PCNN模型输出层和中间层知识,用于指导PCNN模型,完成KD-PCNN模型的构建。实验结果表明,BERT-PCNN模型的加权平均F1值达到94%,相较于R-BERT和EC_BERT模型分别提升了1和2个百分点;KD-PCNN模型的加权平均F1值达到92%,与EC_BERT模型持平;参数量相较于BERT-PCNN、KD-RB-l模型下降了3个数量级。可见,所提方法能在性能评价指标和网络参数量之间更好地权衡,有利于教育知识图谱自动化构建水平的提高和新型教育应用的研发与部署。展开更多
事实核查是指基于证据文本的虚假信息检测任务,目前已有的研究方法主要是将声明文本与证据文本拼接后输入预训练模型进行分类判断,或者通过单一节点的全连接图进行推理判断。这些方法忽略了证据文本间的远距离语义关联和其包含的噪声干...事实核查是指基于证据文本的虚假信息检测任务,目前已有的研究方法主要是将声明文本与证据文本拼接后输入预训练模型进行分类判断,或者通过单一节点的全连接图进行推理判断。这些方法忽略了证据文本间的远距离语义关联和其包含的噪声干扰。针对以上问题,该文提出了一种基于跨证据文本实体关系的图卷积神经网络模型(C ross-E vidence Entity R elation Reasoning M odel,CERM)。该模型以多个证据文本的实体共现关系为基础,聚合不同实体对象的语义结构信息,同时减小噪声信息干扰,有效提升模型的虚假信息判别能力。实验结果证明,在公开数据集上该文提出的方法在通用评测指标上均优于现有的对比模型,验证了CERM模型在事实核查研究任务上的有效性。展开更多
文摘医疗关系抽取可以识别医疗文本中实体间的关系,在医疗领域中发挥了积极作用。然而现有的关系抽取模型没有充分利用文本的全部特征,如文本的层次结构信息。该文提出了一种多特征融合模型(Multi Feature Fusion model,MFF),在使用实体类型标记方法处理文本中的主体和客体的基础上,使用BERT获取语义信息,并使用双向长短时记忆网络(Bidirectional Long Short Term Memory,BiLSTM)获取上下文信息,通过图卷积网络(Graph Convolutional Network,GCN)提取多种剪枝策略下的句法依存树中的层次结构信息,最后将获取的多种特征进行融合后完成关系抽取任务。在两个中文医疗实体关系抽取数据集CMeIE和TCM上进行实验,与其他先进模型相比,其F1值有所提高,证明了模型的有效性。该文的代码开源到https://github.com/zzhdbw/RE_MFF,供复现与参考。
文摘现有知识追踪模型大多以概念为中心评估学生的未来表现,忽略了包含相同概念的练习之间的差异,从而影响模型的预测准确性。此外,在构建学生知识状态过程中,现有模型未能充分利用学生在答题过程中的学习遗忘特征,导致对学生知识状态的刻画不够精确。针对以上问题,提出了一种练习嵌入和学习遗忘特征增强的知识追踪模型(exercise embeddings and learning-forgetting features boosted knowledge tracing, ELFBKT)。该模型利用练习概念二部图中的显性关系,深入计算二部图中的隐性关系,构建了一个练习概念异构关系图。为充分利用异构图中的丰富关系信息,ELFBKT模型引入了关系图卷积网络。通过该网络的处理,模型能够增强练习嵌入的质量,并以练习为中心更准确地预测学生的未来表现。此外,ELFBKT充分利用多种学习遗忘特征,构建了两个门控机制,分别针对学生的学习行为和遗忘行为进行建模,更精确地刻画学生的知识状态。在两个真实世界数据集上进行实验,结果表明ELFBKT在知识追踪任务上的性能优于其他模型。
文摘远程监督关系抽取通过自动对齐自然语言文本与知识库生成带有标签的训练数据集,解决样本人工标注的问题。目前的远程监督研究大多没有关注到长尾(long-tail)数据,因此远程监督得到的大多数句包中所含句子太少,不能真实全面地反映数据的情况。因此,提出基于位置-类型注意力机制和图卷积网络的远程监督关系抽取模型PG+PTATT。利用图卷积网络GCN聚合相似句包的隐含高阶特征,并对句包进行优化以此得到句包更丰富全面的特征信息;同时构建位置-类型注意力机制PTATT,以解决远程监督关系抽取中错误标签的问题。PTATT利用实体词与非实体词的位置关系以及类型关系进行建模,减少噪声词带来的影响。提出的模型在New York Times数据集上进行实验验证,实验结果表明提出的模型能够有效解决远程监督关系抽取中存在的问题;同时,能够有效提升关系抽取的正确率。
文摘关系抽取是梳理学科知识的重要手段以及构建教育知识图谱的重要步骤。在当前研究中,如BERT(Bidirectional Encoder Representations from Transformers)等以Transformer架构为基础的预训练语言模型多数存在参数量大、复杂度过高的问题,难以部署于终端设备,限制了在真实教育场景中的应用。此外,大多数传统的轻量级关系抽取模型并不是通过文本结构对数据进行建模,容易忽略实体间的结构信息;且生成的词嵌入向量难以捕捉文本的上下文特征、对一词多义问题解决能力差,难以契合学科知识文本非结构化以及专有名词占比大的特点,不利于高质量的关系抽取。针对上述问题,提出一种基于改进分段卷积神经网络(PCNN)和知识蒸馏(KD)的学科知识实体间关系抽取方法。首先,利用BERT生成高质量的领域文本词向量,改进PCNN模型的输入层,从而有效捕捉文本上下文特征并在一定程度上解决一词多义问题;其次,利用卷积和分段最大池化操作深入挖掘实体间结构信息,构建BERTPCNN模型,实现高质量的关系抽取;最后,考虑到教育场景对高效且轻量化模型的需求,蒸馏BERT-PCNN模型输出层和中间层知识,用于指导PCNN模型,完成KD-PCNN模型的构建。实验结果表明,BERT-PCNN模型的加权平均F1值达到94%,相较于R-BERT和EC_BERT模型分别提升了1和2个百分点;KD-PCNN模型的加权平均F1值达到92%,与EC_BERT模型持平;参数量相较于BERT-PCNN、KD-RB-l模型下降了3个数量级。可见,所提方法能在性能评价指标和网络参数量之间更好地权衡,有利于教育知识图谱自动化构建水平的提高和新型教育应用的研发与部署。
文摘事实核查是指基于证据文本的虚假信息检测任务,目前已有的研究方法主要是将声明文本与证据文本拼接后输入预训练模型进行分类判断,或者通过单一节点的全连接图进行推理判断。这些方法忽略了证据文本间的远距离语义关联和其包含的噪声干扰。针对以上问题,该文提出了一种基于跨证据文本实体关系的图卷积神经网络模型(C ross-E vidence Entity R elation Reasoning M odel,CERM)。该模型以多个证据文本的实体共现关系为基础,聚合不同实体对象的语义结构信息,同时减小噪声信息干扰,有效提升模型的虚假信息判别能力。实验结果证明,在公开数据集上该文提出的方法在通用评测指标上均优于现有的对比模型,验证了CERM模型在事实核查研究任务上的有效性。