-
题名一种基于预训练模型的藏文分词方法
被引量:1
- 1
-
-
作者
色差甲
桑杰端珠
才让加
慈祯嘉措
-
机构
省部共建藏语智能信息处理及应用国家重点实验室
青海省藏文信息处理工程研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2023年第12期70-75,共6页
-
基金
青海省重点研发与转化计划项目(2022-GX-104)
藏文智能信息处理及应用国家重点实验室自主课题(2024-SKL-006)。
-
文摘
藏文分词是藏语信息处理的基础与关键。虽然藏文分词技术得到了长足的进步,但在实际应用过程中仍面临着语料领域受限及未登录词问题。该文针对以上问题提出一种基于预训练语言模型的藏文分词方法,先在含有46.55亿字符的纯文本语料上进行预训练,然后利用人工标注的藏文分词语料进行进一步的微调。实验结果表明,该文所提出的藏文分词方法在MLIP2021语料上F_1值提高2.5个百分点,另外在新闻、语文、法律和自传等不同领域上分别提高4.6、6、4.2和2.3个百分点。
-
关键词
藏文分词
藏文文本语料
预训练模型
-
Keywords
Tibetan word segmentation
Tibetan text corpus
pre-training model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词典注入的藏汉机器翻译模型预训练方法
- 2
-
-
作者
桑杰端珠
才让加
-
机构
青海师范大学计算机学院
-
出处
《中文信息学报》
北大核心
2023年第8期43-51,共9页
-
基金
青海省重点研发与转化计划项目(2022-GX-104)
青海省中央引导地方科技发展资金项目(2022ZY006)。
-
文摘
近年来,预训练方法在自然语言处理领域引起了广泛关注,但是在比如藏汉机器翻译等低资源的任务设定下,由于双语监督信息无法直接参与预训练,限制了预训练模型在此类任务上的性能改进。考虑到双语词典是丰富且廉价的先验翻译知识来源,同时受到跨语言交流中人们往往会使用混合语言增加沟通效率这一现象启发,该文提出一种基于词典注入的藏汉机器翻译模型的预训练方法,为预训练提供学习双语知识关联的广泛可能。经验证,该方法在藏汉和汉藏翻译方向测试集上的BLEU值比BART强基准分别高出2.3和2.1,证实了该文所提出的方法在藏汉机器翻译任务上的有效性。
-
关键词
藏汉
机器翻译
预训练
词典注入
-
Keywords
Tibetan-Chinese
machine translation
pretraining
dictionary injection
-
分类号
TP391
[自动化与计算机技术]
-
-
题名融合单语语言模型的藏汉机器翻译方法研究
- 3
-
-
作者
慈祯嘉措
桑杰端珠
孙茂松
色差甲
周毛先
-
机构
青海师范大学藏文信息处理教育部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2019年第12期61-66,共6页
-
基金
国家自然科学基金(61063033,61662061)
国家重点研发计划(2017YFB1402200)
-
文摘
由于藏汉平行语料匮乏,导致藏汉神经网络机器翻译效果欠佳,该文提出了一种将藏语单语语言模型融合到藏汉神经网络机器翻译的方法,首先利用神经网络实现藏语单语语言模型,然后使用Transformer实现藏汉神经网络机器翻译模型,最后将藏语单语语言模型融合到藏汉神经网络机器翻译中。实验表明,该方法能显著提升藏汉神经网络机器翻译质量。基线系统藏语到汉语的BLEU值为21.1,汉语到藏语的BLEU值为18.6,融合藏语单语语言模型后,藏语到汉语的BLEU值为24.5,汉语到藏语的BLEU值为23.3,比原有基线系统的BLEU值分别提高了3.4和4.7。
-
关键词
藏语
语言模型
机器翻译
融合
神经网络
-
Keywords
Tibetan
language model
machine translation
fusion
neural net
-
分类号
TP391
[自动化与计算机技术]
-
-
题名基于迭代式回译策略的藏汉机器翻译方法研究
- 4
-
-
作者
慈祯嘉措
桑杰端珠
孙茂松
周毛先
色差甲
-
机构
青海师范大学藏文信息处理教育部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2020年第11期67-73,83,共8页
-
基金
国家自然科学基金(61063033,61662061)
国家重点研发计划(2017YFB1402200)。
-
文摘
该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系统,作为起始数据资源,然后结合翻译等效性分类器,利用迭代式回译策略和译文自动筛选机制,实现了稀缺资源条件下提升藏汉神经网络机器翻译性能的有效模型,使最终的模型比基准模型在藏到汉的翻译上有6.7个BLEU值的提升,在汉到藏的翻译上有9.8个BLEU值的提升,证实了迭代式回译策略和平行句对过滤机制在汉藏(藏汉)机器翻译中的有效性。
-
关键词
藏汉
回译
稀缺资源
自动筛选
神经网络
-
Keywords
Tibetan-Chinese
back-translation
data-sparsity
auto-filtering
neural networks
-
分类号
TP391
[自动化与计算机技术]
-