期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
融入实体翻译的汉越神经机器翻译模型
1
作者 高盛祥 侯哲 +1 位作者 余正涛 赖华 《计算机应用》 北大核心 2025年第1期69-74,共6页
在汉越低资源翻译任务中,句子中的实体词准确翻译是一大难点。针对实体词在训练语料中出现的频率较低,模型无法构建双语实体词之间的映射关系等问题,构建一种融入实体翻译的汉越神经机器翻译模型。首先,通过汉越实体双语词典预先获取源... 在汉越低资源翻译任务中,句子中的实体词准确翻译是一大难点。针对实体词在训练语料中出现的频率较低,模型无法构建双语实体词之间的映射关系等问题,构建一种融入实体翻译的汉越神经机器翻译模型。首先,通过汉越实体双语词典预先获取源句中实体词的翻译结果;其次,将结果拼接在源句末端作为模型的输入,同时在编码端引入“约束提示信息”增强表征;最后,在解码端融入指针网络机制,以确保模型能复制输出源端句的词汇。实验结果表明,该模型相较于跨语言模型XLM-R(Cross-lingual Language Model-RoBERTa)的双语评估替补(BLEU)值在汉越方向提升了1.37,越汉方向提升了0.21,时间性能上相较于Transformer该模型在汉越方向和越汉方向分别缩短3.19%和3.50%,可有效地提升句子中实体词翻译的综合性能。 展开更多
关键词 汉越神经机器翻译 实体翻译 双语词典 指针网络 低资源
在线阅读 下载PDF
基于降噪原型序列的汉越神经机器翻译 被引量:1
2
作者 杨汉清 赖华 +1 位作者 于志强 余正涛 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期705-713,共9页
[目的]在汉越低资源场景下,平行语料匮乏,原型序列蕴含庞杂的信息,直接使用会增加翻译模型训练的难度,甚至引入噪声,故对原型序列的降噪策略进行研究.[方法]首先,利用跨语言检索得到原型序列;其次,基于实体词典对原型序列中的噪声信息... [目的]在汉越低资源场景下,平行语料匮乏,原型序列蕴含庞杂的信息,直接使用会增加翻译模型训练的难度,甚至引入噪声,故对原型序列的降噪策略进行研究.[方法]首先,利用跨语言检索得到原型序列;其次,基于实体词典对原型序列中的噪声信息进行掩盖,再综合稀有词词频及语义相似度,得到原型序列的参考价值;最后使用额外的编码器接收原型序列,并允许解码器到两个编码器间建立注意力机制.[结果]相比基线模型,相似度评分、稀有词词频、依据实体词典降噪,以及3种降噪融合的策略使汉越神经机器翻译的性能分别提升0.24,0.12,0.29,以及0.69个百分点的BLEU值.[结论]经降噪策略处理的原型序列能提升汉越神经机器翻译的性能. 展开更多
关键词 汉越神经机器翻译 低资源 原型序列 降噪
在线阅读 下载PDF
基于深度可分离卷积的汉越神经机器翻译 被引量:2
3
作者 徐毓 赖华 +2 位作者 余正涛 高盛祥 文永华 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期220-224,共5页
在汉越神经机器翻译中,由于汉越平行语料稀少,使得数据稀疏问题十分严重,极大地影响了模型的翻译效果.为了提升数据稀疏情况下的汉越神经机器翻译性能,提出一种基于深度可分离卷积的汉越神经机器翻译方法.该方法根据越南语的语言特点,... 在汉越神经机器翻译中,由于汉越平行语料稀少,使得数据稀疏问题十分严重,极大地影响了模型的翻译效果.为了提升数据稀疏情况下的汉越神经机器翻译性能,提出一种基于深度可分离卷积的汉越神经机器翻译方法.该方法根据越南语的语言特点,将越南语切分为词、音节、字符、子词4种不同的粒度并利用深度可分离卷积改进神经机器翻译模型,通过增加深度可分离卷积神经网络,对模型输入的不同粒度序列进行卷积运算,提取更多的特征数据,相比传统卷积降低了模型的理论计算量.实验结果表明,该方法在越南语4种不同翻译粒度上均取得最佳效果,一定程度上提升了汉越神经机器翻译性能. 展开更多
关键词 汉越神经机器翻译 数据稀疏 粒度 深度可分离卷积
在线阅读 下载PDF
融合单语语言模型的汉越伪平行语料生成 被引量:3
4
作者 贾承勋 赖华 +2 位作者 余正涛 文永华 于志强 《计算机应用》 CSCD 北大核心 2021年第6期1652-1658,共7页
神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳。目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据。考虑到单语数据的可利用性,在回译方法的基础上... 神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳。目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据。考虑到单语数据的可利用性,在回译方法的基础上,首先将利用大量单语数据训练的语言模型与神经机器翻译模型进行融合,然后在回译过程中通过语言模型融入语言特性,以此生成更规范质量更优的伪平行数据,最后将生成的语料添加到原始小规模语料中训练最终翻译模型。在汉越翻译任务上的实验结果表明,与普通的回译方法相比,通过融合语言模型生成的伪平行数据使汉越神经机器翻译的BLEU值提升了1.41个百分点。 展开更多
关键词 汉越神经机器翻译 数据增强 伪平行数据 单语数据 语言模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部