摘要
该文提出了一种基于卷积树核的无指导中文实体关系抽取方法。该方法以最短路径包含树作为关系实例的结构化表示形式,以卷积树核函数作为树相似度计算方法,并采用分层聚类方法进行无指导中文实体关系抽取。在ACE RDC 2005中文基准语料库上的无指导关系抽取实验表明,采用该方法的F值最高可达到60.1,这说明基于卷积树核的无指导中文实体关系抽取是行之有效的。
This paper proposes a convolution tree kernelbased approach for unsupervised Chinese entity relation extraction.This method first represents potential relation instances as shortest path-enclosed trees,then computes similarities between them using convolution tree kernel,finally groups them into various clusters through hierarchical clustering algorithms.Evaluation on the ACE RDC 2005 benchmark corpus shows that the convolution tree kernel-based approach achieves the highest F-measure of 60.1 on the task of unsupervised Chinese entity relation extraction,suggesting that this method is promising.
出处
《中文信息学报》
CSCD
北大核心
2010年第4期11-17,共7页
Journal of Chinese Information Processing
基金
国家自然科学基金资助项目(60873150
60970056
90920004)
江苏省自然科学基金资助项目(BK2008160)
关键词
计算机应用
中文信息处理
实体关系抽取
卷积树核
无指导学习
层次聚类
computer application
Chinese information processing
entity relation extraction
unsupervised learning
convolution tree kernel
作者简介
黄晨(1979-),女,硕士生,主要研究方向为信息抽取;
钱龙华(1966-),男,副教授,硕导,通信作者,主要研究方向为自然语言处理;
周国栋(1967-),男,教授,博导,主要研究方向为自然语言处理。