-
题名融合概念对齐信息的中文AMR语料库的构建
被引量:22
- 1
-
-
作者
李斌
闻媛
宋丽
卜丽君
曲维光
薛念文
-
机构
南京师范大学文学院
南京师范大学计算机科学与技术学院
闽江学院福建省信息处理与智能控制重点实验室
布兰迪斯大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2017年第6期93-102,共10页
-
基金
江苏高校哲学社会科学研究项目(2016SJB740004)
国家自然科学基金(61772278
+1 种基金
61472191)
福建省信息处理与智能控制重点实验室开放基金(MJUKF201705)
-
文摘
作为一种新的句子语义表示方法,抽象语义表示(AMR)将一个句子抽象为单根有向无环图,目前已经建立了较大规模的英文语料库。然而,句子中的词语和AMR图的概念对齐信息缺失,使得自动分析效果和语料标注质量受到影响,同时中文尚无较大规模的AMR语料库。该文介绍了中文AMR语料库的构建工作,针对汉语特点调整了AMR的标注体系,增加对复句关系的标注,提出了融合概念对齐的一体化标注方案,解决了中英文输入法频繁切换的问题,增加了错别字纠正和未标注词高亮功能,提高了标注效率。然后,从CTB中选取了6 923句进行人工标注,形成中文AMR语料库,统计得到图和环的比例分别为48%和1%,以及利用对齐信息才能获取的非投影句的比例32%,为中文AMR的理论和自动分析研究奠定基础。
-
关键词
抽象语义表示
语义图
句子语义
语言知识库
-
Keywords
abstract semantic representation
semantic graph
sentence meaning
language knowledgebase
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-