-
题名贫语言资源条件下藏文分句数据集构建研究
被引量:1
- 1
-
-
作者
才让叁智
多拉
-
机构
西北民族大学中国语言文学学部
西藏大学信息科学技术学院
青海师范大学藏语智能信息处理及应用国家重点实验室
-
出处
《高原科学研究》
CSCD
2022年第4期85-94,共10页
-
基金
国家自然科学基金项目(62266037,61866034)
2019年度西藏大学校级培育基金项目(ZDCZJH19-19)
西藏大学在职攻读博士学位资助项目(藏财预指[2022]1号)。
-
文摘
基于深度学习的藏文自动分句研究中构建分句数据集,事关藏文分句模型性能和质量。鉴于现有的藏文自动分句数据稀缺问题,文章通过梳理藏文句法结构,提出了位于句末的谓语动词和谓语形容词,以及终结虚词和离合虚词可充当句尾标识符号的观点,并通过相关语料库构建了谓语形容词词典、谓语动词词典和句尾虚词词典,最终使用句尾词匹对方法成功从语料中切分出了40万条句子,解决了藏文分句数据集建构问题,为基于深度学习的藏文分句研究提供了可靠和较大规模的数据基础。
-
关键词
藏文
句子
藏文垂符
分句数据集
-
Keywords
Tibetan
sentences
Tibetan brush stroke(shad)
clause dataset
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-