-
题名基于图排序和最大信息增益的领域实体抽取方法
被引量:6
- 1
-
-
作者
张晓明
郑理欣
王会勇
-
机构
河北科技大学信息科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第12期140-149,共10页
-
基金
河北省自然科学基金(F2018208116)
河北省高等学校科学技术研究重点项目(ZD2021048)。
-
文摘
领域知识图谱在各行各业中都发挥着重要作用,领域实体的获取则是构建领域知识图谱的重要基础。数据标注、编写抽取规则等现有的实体抽取方法往往需要较多的人工参与工作。提出一种基于图排序的实体抽取方法和基于最大信息增益的实体扩展方法来构建领域实体集,通过实体识别获得候选实体,基于维基百科的背景信息计算候选实体间的相关度构建实体图,并利用基于置信度传播的图排序算法筛选领域核心实体。在DBpedia中根据最大信息增益来平衡类与领域核心实体相关性及类的抽象程度两个因素以生成实体扩展的共性类。在此基础上,通过SKOS体系中的“Is subject of”关系获得共性类的实例实体,并根据基于字符串相似和结构相关度的方法对扩展实例实体进一步筛选,最终获得全面、准确的领域实体集。以数据结构课程为例构建该课程领域实体集,得到1115个实体。实验结果表明,在领域数据集上,领域实体抽取F1值达到0.67,能够在较少人工参与的条件下有效获得领域实体,有助于领域知识图谱的构建。
-
关键词
实体抽取
实体扩展
图排序算法
最大信息增益
知识图谱
-
Keywords
entity extraction
entity expansion
graph sorting algorithm
maximal information gain
knowledge graph
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-