准确识别和提取海量学术文献中蕴含的各类知识实体,对于精准满足科研人员的知识需求、促进细粒度知识发现具有重要意义。针对学术文献中领域知识实体数据稀疏和不均衡等问题,本研究提出一种融合语义增强和知识蒸馏的知识实体抽取改进方...准确识别和提取海量学术文献中蕴含的各类知识实体,对于精准满足科研人员的知识需求、促进细粒度知识发现具有重要意义。针对学术文献中领域知识实体数据稀疏和不均衡等问题,本研究提出一种融合语义增强和知识蒸馏的知识实体抽取改进方案。首先,本研究提出语义增强的教师模型。一方面,通过构建融合SciBERT(bidirectional encoder representations from transformers for scientific text)和ELMo(embeddings from language models)模型的嵌入表示方法,将全局语义与动态词义信息相结合生成更加全面的语义表示,从而提升教师模型对领域学术文献复杂上下文的建模能力;另一方面,基于领域预训练词嵌入模型筛选出与知识实体语义关联度最高的Top n单词或短语,并结合注意力和门控机制对增强的实体语义信息进行动态加权,以有效缓解实体数据稀疏和长尾类别建模的不足。其次,采用一组异构的单一实体教师模型,生成不同教师模型在聚合数据集下的概率分布结果,并以此来指导学生模型的训练。最后,本研究利用材料科学领域的三个公开数据集验证所提方法的有效性。实验结果表明,所提方法在材料科学领域的三个数据集上均取得了最高的micro F1和macro F1,并且在实体数据稀疏和不均衡等情境下,具有显著的鲁棒性和泛化能力。展开更多
文摘准确识别和提取海量学术文献中蕴含的各类知识实体,对于精准满足科研人员的知识需求、促进细粒度知识发现具有重要意义。针对学术文献中领域知识实体数据稀疏和不均衡等问题,本研究提出一种融合语义增强和知识蒸馏的知识实体抽取改进方案。首先,本研究提出语义增强的教师模型。一方面,通过构建融合SciBERT(bidirectional encoder representations from transformers for scientific text)和ELMo(embeddings from language models)模型的嵌入表示方法,将全局语义与动态词义信息相结合生成更加全面的语义表示,从而提升教师模型对领域学术文献复杂上下文的建模能力;另一方面,基于领域预训练词嵌入模型筛选出与知识实体语义关联度最高的Top n单词或短语,并结合注意力和门控机制对增强的实体语义信息进行动态加权,以有效缓解实体数据稀疏和长尾类别建模的不足。其次,采用一组异构的单一实体教师模型,生成不同教师模型在聚合数据集下的概率分布结果,并以此来指导学生模型的训练。最后,本研究利用材料科学领域的三个公开数据集验证所提方法的有效性。实验结果表明,所提方法在材料科学领域的三个数据集上均取得了最高的micro F1和macro F1,并且在实体数据稀疏和不均衡等情境下,具有显著的鲁棒性和泛化能力。