-
题名TibNER:藏文命名实体识别数据集
- 1
-
-
作者
周毛克
俄见才让
道吉才旦
戚肖克
赵小兵
-
机构
中央民族大学中国少数民族语言文学学院
国家语言资源监测与研究民族语言中心
中央民族大学信息工程学院
中国民族语文翻译中心(局)
中国政法大学法治信息管理学院
-
出处
《中国科学数据(中英文网络版)》
CSCD
2024年第4期10-20,共11页
-
基金
国家社科基金重大项目(22&ZD035)。
-
文摘
结构化的语言资源是自然语言处理的重要基础。目前,由于缺乏公开的大规模数据集,藏文命名实体识别研究进展缓慢,成果积累较少。基于此,本文利用实体词典半自动地构建并公开了藏文命名实体识别数据集(TibNER)。为保证数据集质量,对自动标注结果进行了人工校审。TibNER包含20096个句子,平均句长为44.2069个音节,标注的实体类型包括人名、地名、组织机构名,三类实体总数达43678。为了验证数据集的有效性,本文在三个主流的序列标注模型上进行对比测试,最优模型的F1值达到80.60%。经研究,本数据为低资源语言提供了数据构建经验,同时为藏文命名实体识别等任务提供了一定的数据基础。
-
关键词
藏语
命名实体识别
实体词典
数据集
-
Keywords
Tibetan
named entity recognition
entity dictionary
dataset
-
分类号
H214
[语言文字—少数民族语言]
TP391.1
[自动化与计算机技术—计算机应用技术]
-