-
题名基于随机游走的实体类型补全方法
被引量:1
- 1
-
-
作者
张香玲
陈跃国
毛文祥
荣垂田
杜小勇
-
机构
数据工程与知识工程教育部重点实验室(中国人民大学)
中国人民大学信息学院
天津工业大学计算机科学与软件学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2017年第10期2352-2366,共15页
-
基金
国家自然科学基金(61472426
61402329)资助~~
-
文摘
伴随着大数据的大量涌现以及开放链接数据(LOD)等项目的开展,语义网知识库的数量激增,语义网知识库正在引起学术界和工业界越来越多的关注,在信息检索系统中起着重要的作用,如实体搜索和问答系统等.实体类型信息在信息检索中扮演着重要的角色,例如,查询"汤姆·汉克斯所出演的电影",该查询限定了返回的实体类型是"电影",这对提高查询结果的精度具有重要作用.然而,知识库中实体类型信息的缺失是十分严重的,影响了知识库在信息检索等领域中使用的正确性和广泛性.据统计,在DBpedia2014中,8%的实体没有任何类型信息,28%的实体只有高度抽象的类型信息(比如类型为"Thing"),因此对于实体类型补全的研究尤其是实体细粒度类型的补全是十分重要的.目前已有的方法包括基于概率模型和表示学习两类.以基于概率模型的SDType算法为例.首先,SDType为每个谓词计算对各个类型的区分能力得分,然后,在为实体做类型补全时,累加该实体所具有的谓词对各个类型的得分.此类方法没有考虑谓词与谓词之间的相互增强作用,在存在知识缺失的情况下会影响补全效果.以表示学习的类型补全方法TransE为例,此方法对于简单的关系(1-1的关系)补全是可以的,但是对于补全实体类型这种复杂的关系效果并不理想,另外,表示学习的训练集尤其是负例难以获得.由于模型需要学习大量的参数,在大数据量的背景下,性能也是一个问题.文中提出一种基于谓词-类型推理图的随机游走方法来补全缺失的实体类型.首先对知识库中已有知识进行统计,包括具有某个谓词的实体数目、属于某个类型的实体数目以及属于某个类型并且具有某个谓词的实体数目.其次,基于得到的统计信息构建结点由谓词和类型组成的有向推理图,推理图的边包括谓词-谓词和谓词-类型两种.在构建推理图时,作者考虑了谓词之间的相互增强作用,在类型补全中是有效果的,尤其是在知识库存在知识缺失的背景下.最后,对于一个缺失类型信息的实体,根据该实体所具有的谓词在推理图上做随机游走来补全类型.为了解决由于知识库中存在错误知识等原因导致的类型语义漂移现象,文中使用PMI(点互信息)技术对结果进行了进一步的优化.在真实DBpedia知识库上的实验,验证了文中提出的算法相比于已有的典型算法有更高的精确度.
-
关键词
知识库
类型补全
图模型
随机游走
大数据
-
Keywords
knowledge base
type completion
graph model
random walk
big data
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-