检索结果-维普期刊中文期刊服务平台

一种基于预训练模型的藏文分词方法被引量：1: 1; 作者色差甲桑杰端珠 +1 位作者才让加慈祯嘉措《中文信息学报》 CSCD 北大核心 2023年第12期70-75,共6页; 藏文分词是藏语信息处理的基础与关键。虽然藏文分词技术得到了长足的进步,但在实际应用过程中仍面临着语料领域受限及未登录词问题。该文针对以上问题提出一种基于预训练语言模型的藏文分词方法,先在含有46.55亿字符的纯文本语料上进... 展开更多; 关键词藏文分词藏文文本语料预训练模型; 在线阅读下载PDF 职称材料

基于词典注入的藏汉机器翻译模型预训练方法: 2; 作者桑杰端珠才让加《中文信息学报》北大核心 2023年第8期43-51,共9页; 近年来,预训练方法在自然语言处理领域引起了广泛关注,但是在比如藏汉机器翻译等低资源的任务设定下,由于双语监督信息无法直接参与预训练,限制了预训练模型在此类任务上的性能改进。考虑到双语词典是丰富且廉价的先验翻译知识来源,同... 展开更多; 关键词藏汉机器翻译预训练词典注入; 在线阅读下载PDF 职称材料

融合单语语言模型的藏汉机器翻译方法研究: 3; 作者慈祯嘉措桑杰端珠 +2 位作者孙茂松色差甲周毛先《中文信息学报》 CSCD 北大核心 2019年第12期61-66,共6页; 由于藏汉平行语料匮乏,导致藏汉神经网络机器翻译效果欠佳,该文提出了一种将藏语单语语言模型融合到藏汉神经网络机器翻译的方法,首先利用神经网络实现藏语单语语言模型,然后使用Transformer实现藏汉神经网络机器翻译模型,最后将藏语单... 展开更多; 关键词藏语语言模型机器翻译融合神经网络; 在线阅读下载PDF 职称材料

基于迭代式回译策略的藏汉机器翻译方法研究: 4; 作者慈祯嘉措桑杰端珠 +2 位作者孙茂松周毛先色差甲《中文信息学报》 CSCD 北大核心 2020年第11期67-73,83,共8页; 该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系... 展开更多; 关键词藏汉回译稀缺资源自动筛选神经网络; 在线阅读下载PDF 职称材料

题名一种基于预训练模型的藏文分词方法被引量：1: 1; 作者色差甲桑杰端珠才让加慈祯嘉措; 机构省部共建藏语智能信息处理及应用国家重点实验室青海省藏文信息处理工程研究中心; 出处《中文信息学报》 CSCD 北大核心 2023年第12期70-75,共6页; 基金青海省重点研发与转化计划项目(2022-GX-104) 藏文智能信息处理及应用国家重点实验室自主课题(2024-SKL-006)。; 文摘藏文分词是藏语信息处理的基础与关键。虽然藏文分词技术得到了长足的进步,但在实际应用过程中仍面临着语料领域受限及未登录词问题。该文针对以上问题提出一种基于预训练语言模型的藏文分词方法,先在含有46.55亿字符的纯文本语料上进行预训练,然后利用人工标注的藏文分词语料进行进一步的微调。实验结果表明,该文所提出的藏文分词方法在MLIP2021语料上F_1值提高2.5个百分点,另外在新闻、语文、法律和自传等不同领域上分别提高4.6、6、4.2和2.3个百分点。; 关键词藏文分词藏文文本语料预训练模型; Keywords Tibetan word segmentation Tibetan text corpus pre-training model; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于词典注入的藏汉机器翻译模型预训练方法: 2; 作者桑杰端珠才让加; 机构青海师范大学计算机学院; 出处《中文信息学报》北大核心 2023年第8期43-51,共9页; 基金青海省重点研发与转化计划项目(2022-GX-104) 青海省中央引导地方科技发展资金项目(2022ZY006)。; 文摘近年来,预训练方法在自然语言处理领域引起了广泛关注,但是在比如藏汉机器翻译等低资源的任务设定下,由于双语监督信息无法直接参与预训练,限制了预训练模型在此类任务上的性能改进。考虑到双语词典是丰富且廉价的先验翻译知识来源,同时受到跨语言交流中人们往往会使用混合语言增加沟通效率这一现象启发,该文提出一种基于词典注入的藏汉机器翻译模型的预训练方法,为预训练提供学习双语知识关联的广泛可能。经验证,该方法在藏汉和汉藏翻译方向测试集上的BLEU值比BART强基准分别高出2.3和2.1,证实了该文所提出的方法在藏汉机器翻译任务上的有效性。; 关键词藏汉机器翻译预训练词典注入; Keywords Tibetan-Chinese machine translation pretraining dictionary injection; 分类号 TP391 [自动化与计算机技术]; 在线阅读下载PDF 职称材料

题名融合单语语言模型的藏汉机器翻译方法研究: 3; 作者慈祯嘉措桑杰端珠孙茂松色差甲周毛先; 机构青海师范大学藏文信息处理教育部重点实验室; 出处《中文信息学报》 CSCD 北大核心 2019年第12期61-66,共6页; 基金国家自然科学基金(61063033,61662061) 国家重点研发计划(2017YFB1402200); 文摘由于藏汉平行语料匮乏,导致藏汉神经网络机器翻译效果欠佳,该文提出了一种将藏语单语语言模型融合到藏汉神经网络机器翻译的方法,首先利用神经网络实现藏语单语语言模型,然后使用Transformer实现藏汉神经网络机器翻译模型,最后将藏语单语语言模型融合到藏汉神经网络机器翻译中。实验表明,该方法能显著提升藏汉神经网络机器翻译质量。基线系统藏语到汉语的BLEU值为21.1,汉语到藏语的BLEU值为18.6,融合藏语单语语言模型后,藏语到汉语的BLEU值为24.5,汉语到藏语的BLEU值为23.3,比原有基线系统的BLEU值分别提高了3.4和4.7。; 关键词藏语语言模型机器翻译融合神经网络; Keywords Tibetan language model machine translation fusion neural net; 分类号 TP391 [自动化与计算机技术]; 在线阅读下载PDF 职称材料

题名基于迭代式回译策略的藏汉机器翻译方法研究: 4; 作者慈祯嘉措桑杰端珠孙茂松周毛先色差甲; 机构青海师范大学藏文信息处理教育部重点实验室; 出处《中文信息学报》 CSCD 北大核心 2020年第11期67-73,83,共8页; 基金国家自然科学基金(61063033,61662061) 国家重点研发计划(2017YFB1402200)。; 文摘该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系统,作为起始数据资源,然后结合翻译等效性分类器,利用迭代式回译策略和译文自动筛选机制,实现了稀缺资源条件下提升藏汉神经网络机器翻译性能的有效模型,使最终的模型比基准模型在藏到汉的翻译上有6.7个BLEU值的提升,在汉到藏的翻译上有9.8个BLEU值的提升,证实了迭代式回译策略和平行句对过滤机制在汉藏(藏汉)机器翻译中的有效性。; 关键词藏汉回译稀缺资源自动筛选神经网络; Keywords Tibetan-Chinese back-translation data-sparsity auto-filtering neural networks; 分类号 TP391 [自动化与计算机技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	一种基于预训练模型的藏文分词方法	色差甲桑杰端珠才让加慈祯嘉措	《中文信息学报》 CSCD 北大核心	2023	1	在线阅读下载PDF 职称材料
2	基于词典注入的藏汉机器翻译模型预训练方法	桑杰端珠才让加	《中文信息学报》北大核心	2023		在线阅读下载PDF 职称材料
3	融合单语语言模型的藏汉机器翻译方法研究	慈祯嘉措桑杰端珠孙茂松色差甲周毛先	《中文信息学报》 CSCD 北大核心	2019		在线阅读下载PDF 职称材料
4	基于迭代式回译策略的藏汉机器翻译方法研究	慈祯嘉措桑杰端珠孙茂松周毛先色差甲	《中文信息学报》 CSCD 北大核心	2020		在线阅读下载PDF 职称材料