期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
一种基于预训练模型的藏文分词方法 被引量:1
1
作者 色差甲 桑杰端珠 +1 位作者 才让加 慈祯嘉措 《中文信息学报》 CSCD 北大核心 2023年第12期70-75,共6页
藏文分词是藏语信息处理的基础与关键。虽然藏文分词技术得到了长足的进步,但在实际应用过程中仍面临着语料领域受限及未登录词问题。该文针对以上问题提出一种基于预训练语言模型的藏文分词方法,先在含有46.55亿字符的纯文本语料上进... 藏文分词是藏语信息处理的基础与关键。虽然藏文分词技术得到了长足的进步,但在实际应用过程中仍面临着语料领域受限及未登录词问题。该文针对以上问题提出一种基于预训练语言模型的藏文分词方法,先在含有46.55亿字符的纯文本语料上进行预训练,然后利用人工标注的藏文分词语料进行进一步的微调。实验结果表明,该文所提出的藏文分词方法在MLIP2021语料上F_1值提高2.5个百分点,另外在新闻、语文、法律和自传等不同领域上分别提高4.6、6、4.2和2.3个百分点。 展开更多
关键词 藏文分词 藏文文本语料 预训练模型
在线阅读 下载PDF
基于词典注入的藏汉机器翻译模型预训练方法
2
作者 桑杰端珠 才让加 《中文信息学报》 北大核心 2023年第8期43-51,共9页
近年来,预训练方法在自然语言处理领域引起了广泛关注,但是在比如藏汉机器翻译等低资源的任务设定下,由于双语监督信息无法直接参与预训练,限制了预训练模型在此类任务上的性能改进。考虑到双语词典是丰富且廉价的先验翻译知识来源,同... 近年来,预训练方法在自然语言处理领域引起了广泛关注,但是在比如藏汉机器翻译等低资源的任务设定下,由于双语监督信息无法直接参与预训练,限制了预训练模型在此类任务上的性能改进。考虑到双语词典是丰富且廉价的先验翻译知识来源,同时受到跨语言交流中人们往往会使用混合语言增加沟通效率这一现象启发,该文提出一种基于词典注入的藏汉机器翻译模型的预训练方法,为预训练提供学习双语知识关联的广泛可能。经验证,该方法在藏汉和汉藏翻译方向测试集上的BLEU值比BART强基准分别高出2.3和2.1,证实了该文所提出的方法在藏汉机器翻译任务上的有效性。 展开更多
关键词 藏汉 机器翻译 预训练 词典注入
在线阅读 下载PDF
融合单语语言模型的藏汉机器翻译方法研究
3
作者 慈祯嘉措 桑杰端珠 +2 位作者 孙茂松 色差甲 周毛先 《中文信息学报》 CSCD 北大核心 2019年第12期61-66,共6页
由于藏汉平行语料匮乏,导致藏汉神经网络机器翻译效果欠佳,该文提出了一种将藏语单语语言模型融合到藏汉神经网络机器翻译的方法,首先利用神经网络实现藏语单语语言模型,然后使用Transformer实现藏汉神经网络机器翻译模型,最后将藏语单... 由于藏汉平行语料匮乏,导致藏汉神经网络机器翻译效果欠佳,该文提出了一种将藏语单语语言模型融合到藏汉神经网络机器翻译的方法,首先利用神经网络实现藏语单语语言模型,然后使用Transformer实现藏汉神经网络机器翻译模型,最后将藏语单语语言模型融合到藏汉神经网络机器翻译中。实验表明,该方法能显著提升藏汉神经网络机器翻译质量。基线系统藏语到汉语的BLEU值为21.1,汉语到藏语的BLEU值为18.6,融合藏语单语语言模型后,藏语到汉语的BLEU值为24.5,汉语到藏语的BLEU值为23.3,比原有基线系统的BLEU值分别提高了3.4和4.7。 展开更多
关键词 藏语 语言模型 机器翻译 融合 神经网络
在线阅读 下载PDF
基于迭代式回译策略的藏汉机器翻译方法研究
4
作者 慈祯嘉措 桑杰端珠 +2 位作者 孙茂松 周毛先 色差甲 《中文信息学报》 CSCD 北大核心 2020年第11期67-73,83,共8页
该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系... 该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系统,作为起始数据资源,然后结合翻译等效性分类器,利用迭代式回译策略和译文自动筛选机制,实现了稀缺资源条件下提升藏汉神经网络机器翻译性能的有效模型,使最终的模型比基准模型在藏到汉的翻译上有6.7个BLEU值的提升,在汉到藏的翻译上有9.8个BLEU值的提升,证实了迭代式回译策略和平行句对过滤机制在汉藏(藏汉)机器翻译中的有效性。 展开更多
关键词 藏汉 回译 稀缺资源 自动筛选 神经网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部