期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于预训练模型的藏文分词方法 被引量:1
1
作者 色差甲 桑杰端珠 +1 位作者 才让加 慈祯嘉措 《中文信息学报》 CSCD 北大核心 2023年第12期70-75,共6页
藏文分词是藏语信息处理的基础与关键。虽然藏文分词技术得到了长足的进步,但在实际应用过程中仍面临着语料领域受限及未登录词问题。该文针对以上问题提出一种基于预训练语言模型的藏文分词方法,先在含有46.55亿字符的纯文本语料上进... 藏文分词是藏语信息处理的基础与关键。虽然藏文分词技术得到了长足的进步,但在实际应用过程中仍面临着语料领域受限及未登录词问题。该文针对以上问题提出一种基于预训练语言模型的藏文分词方法,先在含有46.55亿字符的纯文本语料上进行预训练,然后利用人工标注的藏文分词语料进行进一步的微调。实验结果表明,该文所提出的藏文分词方法在MLIP2021语料上F_1值提高2.5个百分点,另外在新闻、语文、法律和自传等不同领域上分别提高4.6、6、4.2和2.3个百分点。 展开更多
关键词 藏文分词 藏文文本语料 预训练模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部