期刊文献+
共找到969篇文章
< 1 2 49 >
每页显示 20 50 100
基于长尾词分布的藏汉机器翻译数据增强方法
1
作者 格桑加措 尼玛扎西 +5 位作者 群诺 嘎玛扎西 道吉扎西 罗桑益西 拉毛吉 钱木吉 《计算机科学》 北大核心 2026年第1期224-230,共7页
现有藏汉机器翻译语料中存在领域数据分布不平衡的问题,导致训练出来的模型对各个领域数据的翻译能力表现不均衡。反向翻译作为一种常见的数据增强方法,通过提供更多样化的伪数据来提高模型的性能。然而,传统的反向翻译方法难以充分考... 现有藏汉机器翻译语料中存在领域数据分布不平衡的问题,导致训练出来的模型对各个领域数据的翻译能力表现不均衡。反向翻译作为一种常见的数据增强方法,通过提供更多样化的伪数据来提高模型的性能。然而,传统的反向翻译方法难以充分考虑数据的领域分布不平衡问题,导致模型在整体性能提升过程中难以提升资源稀缺领域的翻译性能。对此,通过深入分析语料中的长尾词的分布,有针对性地利用现有藏汉双语语料的长尾词来选取单语数据,通过反向翻译构造伪数据进行数据增强操作。这一策略旨在提升藏汉机器翻译模型整体性能的同时,改善数据匮乏领域的翻译性能。实验结果表明,通过充分考虑领域数据不平衡情况,结合长尾词数据增强,能够有效提升机器翻译模型在稀缺领域的翻译性能,为解决领域数据不平衡问题提供了一种有针对性的策略。 展开更多
关键词 长尾词 数据增强 藏汉机器翻译 领域数据不平衡
在线阅读 下载PDF
融入依存关系的迭代非自回归机器翻译方法
2
作者 李佳佳 朱俊国 余正涛 《中文信息学报》 北大核心 2026年第1期100-108,共9页
目前神经机器翻译中的自回归模型在翻译任务上表现良好,但受限于自回归模型从左到右的解码方式,解码速度相对较慢。对于自回归模型,非自回归模型在解码过程中相对独立地生成目标句单词,以提高解码速度,但这种独立解码方式使得词与词之... 目前神经机器翻译中的自回归模型在翻译任务上表现良好,但受限于自回归模型从左到右的解码方式,解码速度相对较慢。对于自回归模型,非自回归模型在解码过程中相对独立地生成目标句单词,以提高解码速度,但这种独立解码方式使得词与词之间的关系变得松散。为了兼顾翻译质量并提高解码速度,该文提出了一种将依存信息融入迭代非自回归模型的方法,利用依存关系对翻译系统的初步翻译结果进行迭代解码,从而纠正初始翻译译文中的错误。该文提出的模型与经典迭代非自回归模型进行对比,在WMT14Ro-En数据集上提升了1.10的BLEU分数,比经典迭代非自回归模型翻译质量改善了4%,而解码速度几乎没有受到显著影响。 展开更多
关键词 神经机器翻译 非自回归 依存关系
在线阅读 下载PDF
基于译文易错词纠正机制的大语言模型机器翻译
3
作者 李博 季佰军 段湘煜 《计算机工程》 北大核心 2026年第2期372-382,共11页
大语言模型在机器翻译任务中已经展现出一定水平,通过提供翻译提示,模型能够生成译文。然而,受预训练语料质量和语言分布的限制,大语言模型生成的译文仍存在一些低质量翻译问题,如错译、漏译、幻觉和脱靶翻译等。为了减少大语言模型的... 大语言模型在机器翻译任务中已经展现出一定水平,通过提供翻译提示,模型能够生成译文。然而,受预训练语料质量和语言分布的限制,大语言模型生成的译文仍存在一些低质量翻译问题,如错译、漏译、幻觉和脱靶翻译等。为了减少大语言模型的低质量翻译,提出基于译文易错词纠正机制的大语言模型机器翻译方法。首先使用原始训练集的模型译文和参考译文定义大语言模型在特定语向的译文易错词,然后根据译文中的易错词及其纠正词构建易错词纠正数据集,利用易错词纠正数据集微调另外一个小型预训练模型得到纠正模型。在推理阶段,使用纠正模型对大语言模型译文中的易错词进行纠正,纠正后再由大语言模型完成自回归解码,最终得到更高质量的译文。实验采用Llama2-7B模型,在WMT2022测试集的中↔英、德↔英和俄↔英6个语向中进行了验证。结果显示,与未经纠正的译文相比,X-英翻译语向的平均COMET(Crosslingual Optimized Metric for Evaluation of Translation)和平均SacreBLEU(Bilingual Evaluation Understudy)分别提高了0.018 7和1.26分,英-X语向的平均COMET和平均SacreBLEU分别提高了0.087 9和7.67分。实验证明了易错词纠正机制能够有效提高文本翻译质量。 展开更多
关键词 机器翻译 大语言模型 易错词 纠正机制 脱靶翻译
在线阅读 下载PDF
置信度优化的k近邻机器翻译方法
4
作者 周茂春 朱俊国 《小型微型计算机系统》 北大核心 2026年第4期902-908,共7页
k近邻机器翻译(kNN-MT)通过检索外部数据存储中的翻译知识,显著地提升神经机器翻译(NMT)模型预测的准确性.然而,使用固定的融合比例聚合NMT模型预测和kNN检索的概率分布容易使模型受到检索结果中噪声的干扰,且kNN检索的高延迟特性限制... k近邻机器翻译(kNN-MT)通过检索外部数据存储中的翻译知识,显著地提升神经机器翻译(NMT)模型预测的准确性.然而,使用固定的融合比例聚合NMT模型预测和kNN检索的概率分布容易使模型受到检索结果中噪声的干扰,且kNN检索的高延迟特性限制了其实际应用.为此,本文提出了一种基于置信度优化的k近邻机器翻译方法.具体地,引入置信度估计模块动态评估NMT预测的概率分布与kNN检索分布的可靠性,以自适应的方式计算概率融合比例以提升翻译的准确性.同时,基于模型的置信度修剪数据存储中冗余的知识实例,提升模型的解码效率.在两组特定语言对翻译任务的实验结果表明,该方法在翻译质量和解码效率上均显著优于标准的kNN-MT模型. 展开更多
关键词 k近邻机器翻译 数据存储 检索 置信度
在线阅读 下载PDF
多策略机器翻译研究综述 被引量:21
5
作者 李业刚 黄河燕 +2 位作者 史树敏 冯冲 苏超 《中文信息学报》 CSCD 北大核心 2015年第2期1-9,23,共10页
该文全面综述和分析了多策略机器翻译的研究。根据所采用策略方式的差异,我们将多策略机器翻译分为系统级策略融合和模块级策略融合。在分别介绍了不同的翻译方法后,着重介绍了系统级策略融合和模块级策略融合各自具有代表性的研究工作... 该文全面综述和分析了多策略机器翻译的研究。根据所采用策略方式的差异,我们将多策略机器翻译分为系统级策略融合和模块级策略融合。在分别介绍了不同的翻译方法后,着重介绍了系统级策略融合和模块级策略融合各自具有代表性的研究工作。最后,对多策略机器翻译的研究进行了展望。 展开更多
关键词 机器翻译 多策略机器翻译 融合机器翻译 混合机器翻译 多引擎机器翻译
在线阅读 下载PDF
融入实体翻译的汉越神经机器翻译模型 被引量:2
6
作者 高盛祥 侯哲 +1 位作者 余正涛 赖华 《计算机应用》 北大核心 2025年第1期69-74,共6页
在汉越低资源翻译任务中,句子中的实体词准确翻译是一大难点。针对实体词在训练语料中出现的频率较低,模型无法构建双语实体词之间的映射关系等问题,构建一种融入实体翻译的汉越神经机器翻译模型。首先,通过汉越实体双语词典预先获取源... 在汉越低资源翻译任务中,句子中的实体词准确翻译是一大难点。针对实体词在训练语料中出现的频率较低,模型无法构建双语实体词之间的映射关系等问题,构建一种融入实体翻译的汉越神经机器翻译模型。首先,通过汉越实体双语词典预先获取源句中实体词的翻译结果;其次,将结果拼接在源句末端作为模型的输入,同时在编码端引入“约束提示信息”增强表征;最后,在解码端融入指针网络机制,以确保模型能复制输出源端句的词汇。实验结果表明,该模型相较于跨语言模型XLM-R(Cross-lingual Language Model-RoBERTa)的双语评估替补(BLEU)值在汉越方向提升了1.37,越汉方向提升了0.21,时间性能上相较于Transformer该模型在汉越方向和越汉方向分别缩短3.19%和3.50%,可有效地提升句子中实体词翻译的综合性能。 展开更多
关键词 汉越神经机器翻译 实体翻译 双语词典 指针网络 低资源
在线阅读 下载PDF
基于标签句子重构的多语言零样本神经机器翻译
7
作者 陈潇 杨雅婷 +3 位作者 董瑞 时现伟 马博 吐尔洪·吾司曼 《中文信息学报》 北大核心 2025年第2期80-88,共9页
针对当前多语言零样本翻译的标签策略难以提供丰富的翻译方向信息和模型对语言建模能力的不足,进而导致翻译脱靶的问题,该文提出了使用标签句子重构的多语言零样本神经机器翻译方法。具体而言,首先提出了一种词级别的标签策略,在编码器... 针对当前多语言零样本翻译的标签策略难以提供丰富的翻译方向信息和模型对语言建模能力的不足,进而导致翻译脱靶的问题,该文提出了使用标签句子重构的多语言零样本神经机器翻译方法。具体而言,首先提出了一种词级别的标签策略,在编码器端增加目标语言标签嵌入,在源语言句子每个词的嵌入表示中注入目标语言信息;其次设计了标签句子重构任务,对句子添加噪声和使用词级别的标签策略后进行重构操作,以达到增强模型语言建模能力的目的。在MultiUN数据集和Europarl数据集上的零样本实验结果表明,所提方法在零样本翻译上的平均BLEU值分别超过强基线0.7和0.3。消融实验结果表明,所提出的语言标签嵌入策略和标签句子重构均能有效提升模型的零样本翻译性能。 展开更多
关键词 零样本机器翻译 多语言神经机器翻译 自然语言处理
在线阅读 下载PDF
基于多视角注意力的篇章神经机器翻译
8
作者 贾爱鑫 李军辉 《中文信息学报》 北大核心 2025年第9期43-52,共10页
序列到序列模型Transformer在句子级神经机器翻译任务上已取得了瞩目的效果。但直接将Transformer应用于长文本(如篇章)的翻译,却很难达到较好的效果。该文首先分析了Transformer模型在长文本(篇章)上翻译性能欠佳的主要原因,然后合理... 序列到序列模型Transformer在句子级神经机器翻译任务上已取得了瞩目的效果。但直接将Transformer应用于长文本(如篇章)的翻译,却很难达到较好的效果。该文首先分析了Transformer模型在长文本(篇章)上翻译性能欠佳的主要原因,然后合理地提出了多视角注意力机制。具体地,该文改进传统的多头注意力机制,使得多头注意力机制可以主动地关注序列内的不同内容,让一部分注意力头关注当前句,另一部分注意力头关注上下文等。在中英和英德篇章数据集上的实验结果表明,该文方法简单有效,在不增加任何参数的情况下,能够有效提升篇章神经机器翻译性能。 展开更多
关键词 神经机器翻译 篇章神经机器翻译 长序列翻译 多视角注意力机制
在线阅读 下载PDF
基于神经网络的机器翻译研究综述
9
作者 马潇 田永红 赵伟 《计算机工程与应用》 北大核心 2025年第22期36-54,共19页
随着计算机技术的进步,机器翻译已成为实现跨语言沟通的关键工具,其发展历程可分为基于规则的机器翻译、基于统计的机器翻译以及基于深度学习的神经机器翻译。聚焦于大语言模型在翻译领域的应用与创新,全面回顾并系统性梳理了神经机器翻... 随着计算机技术的进步,机器翻译已成为实现跨语言沟通的关键工具,其发展历程可分为基于规则的机器翻译、基于统计的机器翻译以及基于深度学习的神经机器翻译。聚焦于大语言模型在翻译领域的应用与创新,全面回顾并系统性梳理了神经机器翻译(neural machine translation,NMT)的最新进展。从早期的循环神经网络到卷积神经网络,再到当前广泛应用的Transformer模型及其变体,概述了机器翻译的演进历程,分析了NMT的主流架构发展。深入剖析了大语言模型翻译的三个关键维度,系统比较了全参数微调与高效参数微调等技术在翻译任务上的差异性表现;详细探讨了多语言大模型翻译技术、零样本与少样本跨语言迁移的技术挑战与解决方案;全面综述了知识图谱增强、领域专业知识融合及多模态知识融合的大模型翻译方法;介绍了机器翻译的评价指标与常用数据集,并对低资源语言翻译提升、可解释与可控翻译系统、跨文化适应性翻译、计算资源优化以及隐私保护与安全可控等方向的研究前景进行了展望。 展开更多
关键词 神经机器翻译 大语言模型 参数微调 多语言机器翻译 低资源语言翻译 知识图谱增强
在线阅读 下载PDF
文档级神经机器翻译综述 被引量:3
10
作者 吕星林 李军辉 +2 位作者 陶仕敏 杨浩 张民 《软件学报》 北大核心 2025年第1期152-183,共32页
机器翻译(machine translation,MT)研究旨在构建一个自动转换系统,将给定源语言序列自动地转换为具有相同语义的目标语言序列.由于机器翻译广阔的应用场景,使其成为自然语言理解领域乃至人工智能领域的一个重要的研究方向.近年来,端到... 机器翻译(machine translation,MT)研究旨在构建一个自动转换系统,将给定源语言序列自动地转换为具有相同语义的目标语言序列.由于机器翻译广阔的应用场景,使其成为自然语言理解领域乃至人工智能领域的一个重要的研究方向.近年来,端到端的神经机器翻译(neural machine translation,NMT)方法显著超越了统计机器翻译(statistical machine translation,SMT)方法,成为目前机器翻译研究的主流方法.然而,神经机器翻译系统通常以句子为翻译单位,在面向文档的翻译场景中,将文档中每个句子独立地进行翻译,会因脱离文档的篇章语境引起一些篇章级的错误,如词语错翻、句子间不连贯等.因此将文档级的信息融入到翻译的过程中去解决跨句的篇章级错误是更加自然和合理的做法,文档级的神经机器翻译(document-level neural machine translation,DNMT)的目标正是如此,成为机器翻译研究的热门方向.调研了近年来在文档级神经机器翻译研究方向的主要工作,从篇章评测方法、使用的数据集和模型方法等方面系统地对当前研究工作进行了归纳与阐述,目的是帮助研究者们快速了解文档级神经机器翻译研究现状以及未来的发展和研究方向.同时在文中也阐述了在文档级神经机器翻译的一些展望、困难和挑战,希望能带给研究者们一些启发. 展开更多
关键词 神经机器翻译 Transformer模型 文档上下文 篇章评测
在线阅读 下载PDF
中国机器翻译研究的机遇与挑战——第八届全国机器翻译研讨会总结与展望 被引量:34
11
作者 杜金华 张萌 +1 位作者 宗成庆 孙乐 《中文信息学报》 CSCD 北大核心 2013年第4期1-8,共8页
随着统计方法逐渐成为机器翻译研究的主流,机器翻译系统评测的分值越来越高,人们对机器翻译的信心和期望逐渐增加,社会对机器翻译应用的需求也越来越大。然而,现有的机器翻译理论和方法在系统性能上提升的空间逐渐减小,而且距离用户实... 随着统计方法逐渐成为机器翻译研究的主流,机器翻译系统评测的分值越来越高,人们对机器翻译的信心和期望逐渐增加,社会对机器翻译应用的需求也越来越大。然而,现有的机器翻译理论和方法在系统性能上提升的空间逐渐减小,而且距离用户实际需求仍有很长的路要走。那么,面对期望、面对需求,机器翻译之路应该如何走?为此,第八届全国机器翻译研讨会对当前机器翻译研究所面临的挑战和机遇进行了深入研讨。该文详细介绍了该次研讨会六个专题的讨论情况,对机器翻译研究面临的机遇和挑战进行了认真的分析和总结。 展开更多
关键词 机器翻译理论 机器翻译应用 语音翻译 少数民族语言 机器翻译评测
在线阅读 下载PDF
2005统计机器翻译研讨班研究报告 被引量:10
12
作者 徐波 史晓东 +11 位作者 刘群 宗成庆 庞薇 陈振标 杨振东 魏玮 杜金华 陈毅东 刘洋 熊德意 侯宏旭 何中军 《中文信息学报》 CSCD 北大核心 2006年第5期1-9,共9页
2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研... 2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研究起步虽晚,但已有快速进展,参评系统在短期内得到了较好的翻译质量,与往年参加863评测的基于规则方法的系统相比性能虽还有差距,但差距已经不大。从目前国际统计机器翻译研究的现状和发展趋势来看,随着数据资源规模的不断扩大和计算机性能的迅速提高,统计机器翻译还有很大的发展空间。在未来几年内,在基于短语的主流统计翻译方法中融入句法、语义信息,必将成为机器翻译发展的趋势。 展开更多
关键词 人工智能 机器翻译 统计机器翻译 基于短语的翻译模型 机器翻译评测
在线阅读 下载PDF
基于句法的统计机器翻译综述 被引量:13
13
作者 熊德意 刘群 林守勋 《中文信息学报》 CSCD 北大核心 2008年第2期28-39,共12页
本文对基于句法的统计机器翻译进行了综述。按照模型所基于的语法不同,将基于句法的统计机器翻译分为两大类:基于形式化语法和基于语言学语法。对这两个不同类别,我们分别介绍它们代表性的工作,包括模型的构建、训练和解码器的设计等,... 本文对基于句法的统计机器翻译进行了综述。按照模型所基于的语法不同,将基于句法的统计机器翻译分为两大类:基于形式化语法和基于语言学语法。对这两个不同类别,我们分别介绍它们代表性的工作,包括模型的构建、训练和解码器的设计等,并对比了各个模型的优点和缺点。最后我们对基于句法的统计机器翻译进行了总结,指出设计句法模型时要注意的问题,并对未来的发展趋势进行了预测。 展开更多
关键词 人工智能 机器翻译 统计机器翻译 基于句法的统计机器翻译 树到串 树到树 依存语法
在线阅读 下载PDF
多策略汉日机器翻译系统中的核心技术研究 被引量:4
14
作者 杜伟 陈群秀 《中文信息学报》 CSCD 北大核心 2008年第5期60-66,共7页
多策略的机器翻译是当今机器翻译系统的一个发展方向。该文论述了一个多策略的汉日机器翻译系统中各翻译核心子系统所使用的核心技术和算法,其中包含了使用词法分析、句法分析和语义角色标注的汉语分析子系统、利用双重索引技术的基于... 多策略的机器翻译是当今机器翻译系统的一个发展方向。该文论述了一个多策略的汉日机器翻译系统中各翻译核心子系统所使用的核心技术和算法,其中包含了使用词法分析、句法分析和语义角色标注的汉语分析子系统、利用双重索引技术的基于翻译记忆技术的机器翻译子系统、以句法树片段为模板的基于实例模式的机器翻译子系统以及综合了配价模式和断段分析的机器翻译子系统。翻译记忆子系统的测试结果表明其具有高效的特性;实例模式子系统在1 559个句子的封闭测试中达到99%的准确率,在1 500个句子的开放测试中达到85%的准确率;配价模式子系统在3 059个句子的测试中达到了89%的准确率。 展开更多
关键词 人工智能 机器翻译 汉日机器翻译系统 汉语分析 翻译记忆技术 基于实例的机器翻译方法 基于配价的 机器翻译方法
在线阅读 下载PDF
交互式机器翻译综述 被引量:8
15
作者 廖兴滨 秦小林 +1 位作者 张思齐 钱杨舸 《计算机应用》 CSCD 北大核心 2023年第2期329-334,共6页
随着深度学习的发展和成熟,神经机器翻译的质量也越来越高,然而仍不完美,为了达到可接受的翻译效果,需要人工进行后期编辑。交互式机器翻译(IMT)是这种串行工作的一个替代,即在翻译过程中进行人工互动,由用户对翻译系统产生的候选翻译... 随着深度学习的发展和成熟,神经机器翻译的质量也越来越高,然而仍不完美,为了达到可接受的翻译效果,需要人工进行后期编辑。交互式机器翻译(IMT)是这种串行工作的一个替代,即在翻译过程中进行人工互动,由用户对翻译系统产生的候选翻译进行验证,并且,如有必要,由用户提供新的输入,系统根据用户当前的反馈生成新的候选译文,如此往复,直到产生一个使用户满意的输出。首先,介绍了IMT的基本概念以及当前的研究进展;然后,分类对一些常用方法和前沿工作加以介绍,并简述每个工作的背景和创新之处;最后,探讨了IMT的发展趋势和研究难点。 展开更多
关键词 机器翻译 交互式机器翻译 交互式统计机器翻译 交互式神经机器翻译 强化学习 自然语言处理
在线阅读 下载PDF
神经机器翻译前沿综述 被引量:46
16
作者 冯洋 邵晨泽 《中文信息学报》 CSCD 北大核心 2020年第7期1-18,共18页
机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。神经机器翻译仅需使用神经网络就能实现从源语言到目标语言的端到端翻译,目前已成为机器翻译研究的主流方向。该文... 机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。神经机器翻译仅需使用神经网络就能实现从源语言到目标语言的端到端翻译,目前已成为机器翻译研究的主流方向。该文选取了近期神经机器翻译的几个主要研究领域,包括同声传译、多模态机器翻译、非自回归模型、篇章翻译、领域自适应、多语言翻译和模型训练,并对这些领域的前沿研究进展做简要介绍。 展开更多
关键词 神经机器翻译 模型训练 同声传译 多模态机器翻译 非自回归机器翻译 篇章翻译 领域自适应 多语言翻译
在线阅读 下载PDF
融合回译与多种改进的汉老神经机器翻译方法
17
作者 雷歆 周兰江 毛存礼 《中文信息学报》 北大核心 2025年第11期104-111,共8页
神经机器翻译现已成为翻译技术主流,在诸多大语种上已取得了极佳的进展,但对于老挝语这种低资源语言的机器翻译技术尚存在欠缺。该文使用弱监督的方法将汉老双语映射在同一向量空间中,减小了因跨语言而带来的嵌入差异,接着使用反向翻译... 神经机器翻译现已成为翻译技术主流,在诸多大语种上已取得了极佳的进展,但对于老挝语这种低资源语言的机器翻译技术尚存在欠缺。该文使用弱监督的方法将汉老双语映射在同一向量空间中,减小了因跨语言而带来的嵌入差异,接着使用反向翻译策略缓解了老挝语低资源语言问题,运用汉老平行句对筛选策略得到了扩充的高质量平行句对。在此基础上,对Transformer模型进行改进,实现了编码器-解码器层间的信息增强,使模型翻译性能得到提升,同时引入平均注意力机制,使模型解码速度得到提升。实验表明,该文模型在老汉和汉老翻译任务中BLEU值较基线系统提升了1.36和1.22。 展开更多
关键词 汉语-老挝语 神经机器翻译 回译 信息传输增强 解码加速
在线阅读 下载PDF
利用压缩多语言BERT知识增强的低资源神经机器翻译
18
作者 朱嘉辉 韩韧 +1 位作者 张生 陈思州 《计算机工程与应用》 北大核心 2025年第8期163-172,共10页
利用BERT等预训练模型的上下文表示增强神经机器翻译,能够显著提升低资源翻译的效果。现有融合BERT的方法主要分为两大类,其一是初始化编码器参数并微调,其二是将上下文嵌入融入翻译模型。前者训练参数量大且容易受到灾难性遗忘的影响,... 利用BERT等预训练模型的上下文表示增强神经机器翻译,能够显著提升低资源翻译的效果。现有融合BERT的方法主要分为两大类,其一是初始化编码器参数并微调,其二是将上下文嵌入融入翻译模型。前者训练参数量大且容易受到灾难性遗忘的影响,后者融合的方法较为复杂。此外,这两类方法仅利用了源语言端的BERT表征,而未充分利用机器翻译的对偶特性。针对上述问题,提出一种线性复杂度的压缩注意力模块。通过可学习的压缩向量,压缩mBERT上下文嵌入并对齐到翻译模型的语义空间中。将压缩向量与编码器的输入向量拼接,从而增强源端语义表示。通过所提出的对偶多粒度训练的方式,同时增强翻译模型的双语表示能力。在IWSLT的两个公开低资源翻译口语数据集上的实验结果显示,相较于基线模型Transformer,该方法取得了2.07~2.66的BLEU值提升,验证了其有效性。 展开更多
关键词 mBERT知识增强 压缩注意力 低资源机器翻译 对偶训练
在线阅读 下载PDF
融合领域双语词典的泰-汉法律领域神经机器翻译方法
19
作者 李畅 高盛祥 余正涛 《厦门大学学报(自然科学版)》 北大核心 2025年第4期597-605,共9页
[目的]对于泰-汉法律领域神经机器翻译,由于训练所需平行语料稀缺,缺乏双语词级别的有效语义监督,难以做到一些实体词以及领域术语等领域关键词的精准翻译.针对该问题,本文提出一种融合领域双语词典的神经机器翻译方法.[方法]首先利用... [目的]对于泰-汉法律领域神经机器翻译,由于训练所需平行语料稀缺,缺乏双语词级别的有效语义监督,难以做到一些实体词以及领域术语等领域关键词的精准翻译.针对该问题,本文提出一种融合领域双语词典的神经机器翻译方法.[方法]首先利用法律领域语料库挖掘领域双语词典;然后使用基于不频繁法律领域中文词覆盖的方法筛选额外伪法律领域训练数据;在模型输入端,利用源句匹配的领域双语词典目标词构建额外提示数据;在模型结构中,引入提示浅编码器对提示进行表征,在源句编码器层中加入新的交叉注意力模块强化源句的表征,将源句表征与提示表征拼接作为最终编码器表征,在解码器端对编码器表征的交叉注意力作用下指导产生目标词序列.[结果]基于本文筛选方法混合训练的Transformer模型相比于仅用领域数据训练的模型,BLEU值提高了0.54个百分点;采用该混合训练集,融入提示信息的模型相比Transformer模型BLEU值又提升了0.90个百分点,并且相比于经典“语码转换”方法训练的模型BLEU值提升了0.61个百分点.[结论]本文数据筛选方法可在解决领域专业术语稀疏问题的同时降低通用高频词对翻译结果的干扰,提升领域翻译基线模型的性能;引入提示信息的模型能够有效地与提示进行交互,实现翻译性能的提升,并使领域关键词翻译更准确. 展开更多
关键词 法律领域 泰-汉神经机器翻译 领域双语词典 数据筛选 提示浅编码器 交叉注意力
在线阅读 下载PDF
词典释义增强的古文机器翻译
20
作者 李家欢 吴若纯 +4 位作者 黄书剑 胡文菁 陈冀轩 徐维潞 陈家骏 《中文信息学报》 北大核心 2025年第4期85-95,共11页
古文自动翻译技术可有效促进古籍的传承和发展,弘扬中华传统文化。然而,现有古籍翻译语料规模较小,知识缺乏,导致古文翻译系统性能不佳。该文提出使用词典注释资源增强古文翻译系统。作者收集古汉语常见汉字的释义,并设计了一个词典释... 古文自动翻译技术可有效促进古籍的传承和发展,弘扬中华传统文化。然而,现有古籍翻译语料规模较小,知识缺乏,导致古文翻译系统性能不佳。该文提出使用词典注释资源增强古文翻译系统。作者收集古汉语常见汉字的释义,并设计了一个词典释义选择-融合的二阶段机器翻译框架,以从词典释义中获取有效信息,去除无效信息。在一个中等规模的古文翻译数据集上的实验表明,该文的方法相比于基线模型和前人的释义融合方法,显著提升了翻译质量。另外,该文还设计了一个具有古文特色的翻译人工评估体系,并对现有的古文翻译系统进行了综合、全面的评估。 展开更多
关键词 古汉语 机器翻译 词典释义
在线阅读 下载PDF
上一页 1 2 49 下一页 到第
使用帮助 返回顶部