期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
TibNER:藏文命名实体识别数据集
1
作者 周毛克 俄见才让 +2 位作者 道吉才旦 戚肖克 赵小兵 《中国科学数据(中英文网络版)》 CSCD 2024年第4期10-20,共11页
结构化的语言资源是自然语言处理的重要基础。目前,由于缺乏公开的大规模数据集,藏文命名实体识别研究进展缓慢,成果积累较少。基于此,本文利用实体词典半自动地构建并公开了藏文命名实体识别数据集(TibNER)。为保证数据集质量,对自动... 结构化的语言资源是自然语言处理的重要基础。目前,由于缺乏公开的大规模数据集,藏文命名实体识别研究进展缓慢,成果积累较少。基于此,本文利用实体词典半自动地构建并公开了藏文命名实体识别数据集(TibNER)。为保证数据集质量,对自动标注结果进行了人工校审。TibNER包含20096个句子,平均句长为44.2069个音节,标注的实体类型包括人名、地名、组织机构名,三类实体总数达43678。为了验证数据集的有效性,本文在三个主流的序列标注模型上进行对比测试,最优模型的F1值达到80.60%。经研究,本数据为低资源语言提供了数据构建经验,同时为藏文命名实体识别等任务提供了一定的数据基础。 展开更多
关键词 藏语 命名实体识别 实体词典 数据集
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部