摘要
三元组信息通常以自然语言的形式存在于电子教材等非结构化文本中,现有模型难以理解其语义内容。为了从相关文档中精确提取三元组数据,提出一种基于实体映射的指针网络标注框架EPM(Entity Pair Mapping)。框架首先为每对实体分配唯一标签,通过将尾实体建模为从编码到头实体的映射加强实体间的依赖,再利用基于双通道注意力机制的关系分类器为上述实体对分配关系类型,从而完成三元组的抽取任务。此外,构建C++学科知识数据集,并将EDA方法用于小样本的数据增强。实验表明,上述模型的F1分数比最优方法实现了1.2个百分点的增益。
Triple information usually exists in unstructured texts such as electronic textbooks in the form of natural language,and it is difficult for existing models to understand its semantic content.In order to accurately extract triple data from related documents,a pointer network annotation framework EPM(Entity Pair Mapping)based on entity mapping is proposed.This framework first assigns a unique label to each pair of entities,strengthens the dependence between entities by modeling the tail entity as a mapping from the code to the head entity,and then uses the relation classifier based on the dual-channel attention mechanism to assign the relationship types to the above entity pairs.So as to complete the task of extracting triples.In addition,a C++knowledge dataset is constructed,and the EDA meth-od is used for data enhancement of small samples.Experiments show that this model is 1.2 percentage points higher than the F1 score of the relevant pointer network baseline model.
作者
杨泽森
田秀霞
赵红成
YANG Ze-sen;TIAN Xiu-xia;ZHAO Hong-cheng(College of Computer Science and Technology,Shanghai University of Electric Power,Shanghai 200090,China)
出处
《计算机仿真》
北大核心
2023年第5期312-317,共6页
Computer Simulation
基金
国家自然科学基金面上项目(61772327)
国网甘肃省电力公司电力科学研究院项目(H2019-275)。
关键词
关系抽取
注意力机制
自然语言处理
知识图谱
指针网络
Triple extraction
Attention mechanism
Natural language processing
Knowledge graph
pointer-network
作者简介
杨泽森(1996-),男(汉族),山东省滨州人,硕士研究生,主要研究领域为自然语言处理,知识图谱,信息抽取;田秀霞(1976-),女(汉族),河南省人,教授,硕士研究生导师,主要研究领域为数据库安全、隐私保护;赵红成(1996-),男(汉族),江苏省人,硕士研究生,主要研究领域为图像处理。