期刊文献+
共找到831篇文章
< 1 2 42 >
每页显示 20 50 100
A Comparative Study of Machine Translation and Computer Aided Translation
1
作者 Li Qingzhao 《学术界》 CSSCI 北大核心 2015年第11期303-307,共5页
In the information era,computer translation has attracted more and more translators' interests.MT(Machine Translation)and CAT(Computer Aided Translation)are closely connected with difference in essence.MT is conve... In the information era,computer translation has attracted more and more translators' interests.MT(Machine Translation)and CAT(Computer Aided Translation)are closely connected with difference in essence.MT is convenient but with many defects,while CAT has a great advantage with translation memory core technology.The features of CAT will make it the inevitable trend of future translation. 展开更多
关键词 计算机辅助翻译 机器翻译 计算机翻译 信息时代 翻译记忆
在线阅读 下载PDF
Design of Chinese-English Machine Translation System CEMT-Ⅱ
2
作者 Zhou Ming Li Sheng Cheng Guangxi Hu Mingzeng (Department of Computer Science) 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 1990年第3期39-44,共6页
This paper describes the design of CEMT-Ⅱ, an interactive Chinese-English machine translation system. Based on the CEMT-Ⅰsystem, CEMT-Ⅱwill be developed to have the ability to translate Chinese scientific documents... This paper describes the design of CEMT-Ⅱ, an interactive Chinese-English machine translation system. Based on the CEMT-Ⅰsystem, CEMT-Ⅱwill be developed to have the ability to translate Chinese scientific documents into English. Now an user-friendly interface has been worked out to solve various complex ambiguities. The Chinese user need not know English well since all the questions and choices are expressed in Chinese. 展开更多
关键词 汉英机器翻译系统 CEMT-Ⅱ 句型分析 科技语言 设计
在线阅读 下载PDF
On Eigen-Matrix Translation Method for Classification of Biological Data
3
作者 JIANG Hao QIU Yushan +1 位作者 CHENG Xiaoqing CHING Waiki 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2015年第5期1212-1230,共19页
Driven by the challenge of integrating large amount of experimental data, classification technique emerges as one of the major and popular tools in computational biology and bioinformatics research. Machine learning m... Driven by the challenge of integrating large amount of experimental data, classification technique emerges as one of the major and popular tools in computational biology and bioinformatics research. Machine learning methods, especially kernel methods with Support Vector Machines (SVMs) are very popular and effective tools. In the perspective of kernel matrix, a technique namely Eigen- matrix translation has been introduced for protein data classification. The Eigen-matrix translation strategy has a lot of nice properties which deserve more exploration. This paper investigates the major role of Eigen-matrix translation in classification. The authors propose that its importance lies in the dimension reduction of predictor attributes within the data set. This is very important when the dimension of features is huge. The authors show by numerical experiments on real biological data sets that the proposed framework is crucial and effective in improving classification accuracy. This can therefore serve as a novel perspective for future research in dimension reduction problems. 展开更多
关键词 CLASSIFICATION dimension reduction eigen-matrix translation glycan data kernel method(KM) support vector machine (SVM)
在线阅读 下载PDF
融入实体翻译的汉越神经机器翻译模型
4
作者 高盛祥 侯哲 +1 位作者 余正涛 赖华 《计算机应用》 北大核心 2025年第1期69-74,共6页
在汉越低资源翻译任务中,句子中的实体词准确翻译是一大难点。针对实体词在训练语料中出现的频率较低,模型无法构建双语实体词之间的映射关系等问题,构建一种融入实体翻译的汉越神经机器翻译模型。首先,通过汉越实体双语词典预先获取源... 在汉越低资源翻译任务中,句子中的实体词准确翻译是一大难点。针对实体词在训练语料中出现的频率较低,模型无法构建双语实体词之间的映射关系等问题,构建一种融入实体翻译的汉越神经机器翻译模型。首先,通过汉越实体双语词典预先获取源句中实体词的翻译结果;其次,将结果拼接在源句末端作为模型的输入,同时在编码端引入“约束提示信息”增强表征;最后,在解码端融入指针网络机制,以确保模型能复制输出源端句的词汇。实验结果表明,该模型相较于跨语言模型XLM-R(Cross-lingual Language Model-RoBERTa)的双语评估替补(BLEU)值在汉越方向提升了1.37,越汉方向提升了0.21,时间性能上相较于Transformer该模型在汉越方向和越汉方向分别缩短3.19%和3.50%,可有效地提升句子中实体词翻译的综合性能。 展开更多
关键词 汉越神经机器翻译 实体翻译 双语词典 指针网络 低资源
在线阅读 下载PDF
基于深度学习的手语翻译:过去、现状与未来
5
作者 张磊 王振宇 +3 位作者 连帅帅 蒲冰倩 刘毓涛 秦铭哲 《计算机应用研究》 北大核心 2025年第8期2241-2254,共14页
基于深度学习的手语翻译(SLT)旨在使用深度学习方法对手语动作进行翻译,以提高翻译准确性。SLT降低了正常人与听障人士的沟通门槛,但由于各国手语不统一以及手语动作与口语句子的结构不匹配等问题,手语翻译面临诸多挑战。随着深度学习... 基于深度学习的手语翻译(SLT)旨在使用深度学习方法对手语动作进行翻译,以提高翻译准确性。SLT降低了正常人与听障人士的沟通门槛,但由于各国手语不统一以及手语动作与口语句子的结构不匹配等问题,手语翻译面临诸多挑战。随着深度学习技术的发展,基于深度学习的手语翻译被研究人员广泛关注。通过对近年来基于深度学习的手语翻译方法进行总结,并依照模型结构与发展历程将其分为基于线性结构的手语翻译、基于编码器-解码器的手语翻译、基于大模型微调的手语翻译和基于对比学习的手语翻译四类。通过对各类方法的特点与性能进行分析,并为手语翻译方法的进展提供了全面的评估。最后,展望了未来研究的方向,重点讨论了实时翻译、基于对比学习的手语翻译和基于大模型微调的手语翻译等关键技术的潜力和发展趋势。 展开更多
关键词 深度学习 手语翻译 机器翻译 对比学习 大语言模型 编码器-解码器
在线阅读 下载PDF
基于多语种文本符号的艺术图像生成模型
6
作者 唐宏 卓诗语 《无线电通信技术》 北大核心 2025年第3期486-492,共7页
文本生成图像(Text-to-Image,TTI)任务是指利用文本符号来生成图像,在艺术设计领域中有重要应用前景。由于缺乏不同语种的注释图像数据,对TTI的研究主要集中在英文领域,现有TTI模型无法利用其他语种数据进行图像生成。基于上述考虑,研... 文本生成图像(Text-to-Image,TTI)任务是指利用文本符号来生成图像,在艺术设计领域中有重要应用前景。由于缺乏不同语种的注释图像数据,对TTI的研究主要集中在英文领域,现有TTI模型无法利用其他语种数据进行图像生成。基于上述考虑,研究多语种TTI(Multilingual TTI,MTTI)以及基于神经机器翻译引导的MTTI系统,依托多语种多模态编码器,提出基于多语种文本符号的艺术图像生成模型(Art Image Generation Model Based on Multilingual Text Symbols,AIG-MTS),学习权重并整合多语种文本知识,减少语种之间的差异,提高模型性能。在标准数据集COCO-CN、Multi30K Task2和LAION-5B上进行实验,相比于主流算法,AIG-MTS模型在所有数据集上的性能最佳。 展开更多
关键词 设计领域 多语种 文本生成图像 多模态编码器 神经机器翻译
在线阅读 下载PDF
基于深度学习的英语学习者语法纠错研究综述
7
作者 杨林伟 《计算机应用与软件》 北大核心 2025年第7期12-21,65,共11页
全面调研2015年至2021年间基于深度学习的学习者语法纠错研究,将其分为通用型和适用型两大类型并详细分析其研究方法;介绍预训练语言模型和语料库数据的类型和作用,并对比不同的评估指标以及系统的纠错性能;对现有研究进行综合评价。未... 全面调研2015年至2021年间基于深度学习的学习者语法纠错研究,将其分为通用型和适用型两大类型并详细分析其研究方法;介绍预训练语言模型和语料库数据的类型和作用,并对比不同的评估指标以及系统的纠错性能;对现有研究进行综合评价。未来应重点关注:1)构建适用型、个性化纠错系统。2)深度分析模型的劣势,从以下两个方面探索增强其推理能力的方法:(1)探索预训练语言模型的应用方法;(2)构建多模型混合系统。 展开更多
关键词 语法错误 学习者英语 深度学习 机器翻译 序列标注
在线阅读 下载PDF
基于标签句子重构的多语言零样本神经机器翻译
8
作者 陈潇 杨雅婷 +3 位作者 董瑞 时现伟 马博 吐尔洪·吾司曼 《中文信息学报》 北大核心 2025年第2期80-88,共9页
针对当前多语言零样本翻译的标签策略难以提供丰富的翻译方向信息和模型对语言建模能力的不足,进而导致翻译脱靶的问题,该文提出了使用标签句子重构的多语言零样本神经机器翻译方法。具体而言,首先提出了一种词级别的标签策略,在编码器... 针对当前多语言零样本翻译的标签策略难以提供丰富的翻译方向信息和模型对语言建模能力的不足,进而导致翻译脱靶的问题,该文提出了使用标签句子重构的多语言零样本神经机器翻译方法。具体而言,首先提出了一种词级别的标签策略,在编码器端增加目标语言标签嵌入,在源语言句子每个词的嵌入表示中注入目标语言信息;其次设计了标签句子重构任务,对句子添加噪声和使用词级别的标签策略后进行重构操作,以达到增强模型语言建模能力的目的。在MultiUN数据集和Europarl数据集上的零样本实验结果表明,所提方法在零样本翻译上的平均BLEU值分别超过强基线0.7和0.3。消融实验结果表明,所提出的语言标签嵌入策略和标签句子重构均能有效提升模型的零样本翻译性能。 展开更多
关键词 零样本机器翻译 多语言神经机器翻译 自然语言处理
在线阅读 下载PDF
基于多语义空间的机器译文质量估计
9
作者 陈康 刘尧舜 +2 位作者 李茂西 王倩 吴水秀 《中文信息学报》 北大核心 2025年第5期72-81,共10页
在不需要人工参考译文对照的情况下,仅利用源语言句子对机器译文的质量进行评估是机器译文质量估计任务的目标。当前的机器译文质量估计方法仅在单个语义空间内比较源语言句子和机器译文,难以全面捕捉不同语言的语义特征,导致译文质量... 在不需要人工参考译文对照的情况下,仅利用源语言句子对机器译文的质量进行评估是机器译文质量估计任务的目标。当前的机器译文质量估计方法仅在单个语义空间内比较源语言句子和机器译文,难以全面捕捉不同语言的语义特征,导致译文质量估计的准确性和可靠性不足。针对这个问题,该文提出基于多语义空间的机器译文质量估计方法,通过融合源语言、目标语言和跨语言语义空间质量特征,更准确地评估机器译文的质量。该文方法借助大语言模型和相应提示对源语言句子进行翻译生成伪参考译文,对机器译文进行翻译生成回译;利用跨语言预训练模型X-MOD表征源语言句子和回译提取在源语言语义空间的机器译文质量特征、利用X-MOD表征源语言句子和机器译文提取在跨语言语义空间的机器译文质量特征、利用X-MOD表征机器译文和伪参考译文提取在目标语言语义空间的机器译文质量特征;通过多头自注意力机制和前馈神经网络融合多语义空间特征构建端到端的机器译文质量估计神经网络模型。在WMT′23句子级别机器译文质量估计任务基准数据集上的实验结果表明,该文方法性能超过了当前先进的机器译文质量估计方法TransQuest和UniTE,并超过了参与评测的最优系统。 展开更多
关键词 机器译文质量估计 跨语言预训练模型 多语义空间特征 伪参考译文 回译
在线阅读 下载PDF
词典释义增强的古文机器翻译
10
作者 李家欢 吴若纯 +4 位作者 黄书剑 胡文菁 陈冀轩 徐维潞 陈家骏 《中文信息学报》 北大核心 2025年第4期85-95,共11页
古文自动翻译技术可有效促进古籍的传承和发展,弘扬中华传统文化。然而,现有古籍翻译语料规模较小,知识缺乏,导致古文翻译系统性能不佳。该文提出使用词典注释资源增强古文翻译系统。作者收集古汉语常见汉字的释义,并设计了一个词典释... 古文自动翻译技术可有效促进古籍的传承和发展,弘扬中华传统文化。然而,现有古籍翻译语料规模较小,知识缺乏,导致古文翻译系统性能不佳。该文提出使用词典注释资源增强古文翻译系统。作者收集古汉语常见汉字的释义,并设计了一个词典释义选择-融合的二阶段机器翻译框架,以从词典释义中获取有效信息,去除无效信息。在一个中等规模的古文翻译数据集上的实验表明,该文的方法相比于基线模型和前人的释义融合方法,显著提升了翻译质量。另外,该文还设计了一个具有古文特色的翻译人工评估体系,并对现有的古文翻译系统进行了综合、全面的评估。 展开更多
关键词 古汉语 机器翻译 词典释义
在线阅读 下载PDF
文档级神经机器翻译综述
11
作者 吕星林 李军辉 +2 位作者 陶仕敏 杨浩 张民 《软件学报》 北大核心 2025年第1期152-183,共32页
机器翻译(machine translation,MT)研究旨在构建一个自动转换系统,将给定源语言序列自动地转换为具有相同语义的目标语言序列.由于机器翻译广阔的应用场景,使其成为自然语言理解领域乃至人工智能领域的一个重要的研究方向.近年来,端到... 机器翻译(machine translation,MT)研究旨在构建一个自动转换系统,将给定源语言序列自动地转换为具有相同语义的目标语言序列.由于机器翻译广阔的应用场景,使其成为自然语言理解领域乃至人工智能领域的一个重要的研究方向.近年来,端到端的神经机器翻译(neural machine translation,NMT)方法显著超越了统计机器翻译(statistical machine translation,SMT)方法,成为目前机器翻译研究的主流方法.然而,神经机器翻译系统通常以句子为翻译单位,在面向文档的翻译场景中,将文档中每个句子独立地进行翻译,会因脱离文档的篇章语境引起一些篇章级的错误,如词语错翻、句子间不连贯等.因此将文档级的信息融入到翻译的过程中去解决跨句的篇章级错误是更加自然和合理的做法,文档级的神经机器翻译(document-level neural machine translation,DNMT)的目标正是如此,成为机器翻译研究的热门方向.调研了近年来在文档级神经机器翻译研究方向的主要工作,从篇章评测方法、使用的数据集和模型方法等方面系统地对当前研究工作进行了归纳与阐述,目的是帮助研究者们快速了解文档级神经机器翻译研究现状以及未来的发展和研究方向.同时在文中也阐述了在文档级神经机器翻译的一些展望、困难和挑战,希望能带给研究者们一些启发. 展开更多
关键词 神经机器翻译 Transformer模型 文档上下文 篇章评测
在线阅读 下载PDF
利用压缩多语言BERT知识增强的低资源神经机器翻译
12
作者 朱嘉辉 韩韧 +1 位作者 张生 陈思州 《计算机工程与应用》 北大核心 2025年第8期163-172,共10页
利用BERT等预训练模型的上下文表示增强神经机器翻译,能够显著提升低资源翻译的效果。现有融合BERT的方法主要分为两大类,其一是初始化编码器参数并微调,其二是将上下文嵌入融入翻译模型。前者训练参数量大且容易受到灾难性遗忘的影响,... 利用BERT等预训练模型的上下文表示增强神经机器翻译,能够显著提升低资源翻译的效果。现有融合BERT的方法主要分为两大类,其一是初始化编码器参数并微调,其二是将上下文嵌入融入翻译模型。前者训练参数量大且容易受到灾难性遗忘的影响,后者融合的方法较为复杂。此外,这两类方法仅利用了源语言端的BERT表征,而未充分利用机器翻译的对偶特性。针对上述问题,提出一种线性复杂度的压缩注意力模块。通过可学习的压缩向量,压缩mBERT上下文嵌入并对齐到翻译模型的语义空间中。将压缩向量与编码器的输入向量拼接,从而增强源端语义表示。通过所提出的对偶多粒度训练的方式,同时增强翻译模型的双语表示能力。在IWSLT的两个公开低资源翻译口语数据集上的实验结果显示,相较于基线模型Transformer,该方法取得了2.07~2.66的BLEU值提升,验证了其有效性。 展开更多
关键词 mBERT知识增强 压缩注意力 低资源机器翻译 对偶训练
在线阅读 下载PDF
基于连接时序分类解码器的实时语音翻译方法
13
作者 张绍磊 冯洋 《计算机学报》 北大核心 2025年第5期1100-1115,共16页
实时场景中的跨语言沟通是全球化进程中的重要场景。实时语音翻译旨在通过计算机在说话者讲话的同时输出目标语言的翻译文本,在诸多实时场景中具有广泛的应用前景。当前的离线模型尽管拥有大规模参数,但其架构仍无法直接处理实时跨语言... 实时场景中的跨语言沟通是全球化进程中的重要场景。实时语音翻译旨在通过计算机在说话者讲话的同时输出目标语言的翻译文本,在诸多实时场景中具有广泛的应用前景。当前的离线模型尽管拥有大规模参数,但其架构仍无法直接处理实时跨语言沟通场景。在此背景下,实时语音翻译对于实时性的独有要求使得其在研究和应用上具备特定的必要性。与离线语音翻译相比,实时语音翻译更具挑战性,因为其需要额外制定读/写策略以控制模型在合适的时机开始翻译,从而在低延时下获得高质量翻译。理想情况下,实时语音翻译模型应在接收到相关语音后立即生成对应的目标文本,以确保高翻译质量和低延时。因此,建模源语音和目标文本之间的对齐是指导读/写策略的关键。基于此,本文提出了一种基于连接时序分类解码器的实时语音翻译方法。该方法通过连接时序分类技术插入空白标记和重复标记,实现语音和文本不等长序列间的对齐,并根据此对齐制定读/写策略来控制模型在接收到对应的语音之后开始翻译。在训练中引入连接时序分类损失能有效地将对齐学习与目标文本生成整合在统一的框架中,从而找到最佳的读/写策略。本文在两个实时语音翻译基准上对提出的方法进行了全面评估,结果表明提出的方法在实时语音翻译性能上超过了现有最佳方法。进一步的分析实验展示了该方法的有效性和优越性。 展开更多
关键词 实时翻译 语音翻译 机器翻译 连接时序分类 非自回归生成 对齐
在线阅读 下载PDF
基于修辞结构的篇章级神经机器翻译
14
作者 姜云卓 贡正仙 《计算机工程与科学》 北大核心 2025年第1期180-190,共11页
虽然篇章级神经机器翻译发展多年,并取得了长足的进步,但是其大部分工作都是从模型的角度出发,利用上下文字词信息来构建有效的网络结构,忽视了使用跨句子的篇章结构和修辞信息对模型进行指导。针对这一问题,在修辞结构理论的指导下,提... 虽然篇章级神经机器翻译发展多年,并取得了长足的进步,但是其大部分工作都是从模型的角度出发,利用上下文字词信息来构建有效的网络结构,忽视了使用跨句子的篇章结构和修辞信息对模型进行指导。针对这一问题,在修辞结构理论的指导下,提出了对篇章单元和修辞结构树特征分别进行编码的方法。实验结果表明,所提方法加强了编码器对篇章结构和修辞上的表征能力,使用该方法对模型进行改进后,其翻译结果在多个数据集上都获得了明显提升,性能超过了多个优质的基线模型,并且在提出的定量评估方法和人工分析中译文质量上也表现出了明显改善。 展开更多
关键词 神经机器翻译 篇章分析 篇章翻译 修辞结构理论
在线阅读 下载PDF
利用词链提高文档级神经机器翻译的词汇翻译一致性
15
作者 雷翔宇 李军辉 《中文信息学报》 北大核心 2025年第2期72-79,共8页
近年来,各种上下文感知模块的引入,使得文档级神经机器翻译(Document-level Neural Machine Translation,DNMT)取得了令人瞩目的进步。受“一个语篇一个翻译(one translation per discourse)”的启发,该文在代表性DNMT模型G-Transforme... 近年来,各种上下文感知模块的引入,使得文档级神经机器翻译(Document-level Neural Machine Translation,DNMT)取得了令人瞩目的进步。受“一个语篇一个翻译(one translation per discourse)”的启发,该文在代表性DNMT模型G-Transformer的基础上,提出一种有效的方法对源端文档中重复出现的词汇进行建模以缓解词汇翻译不一致问题。具体来说,首先获取源端文档中每个单词的词链;然后,使用词链注意力机制以交换同一词链单词之间的上下文信息,从而增强词汇翻译一致性。基于汉?英和德?英文档级翻译任务的实验结果表明,该文的办法不仅显著缓解了词汇翻译不一致的问题,而且提高了翻译性能。 展开更多
关键词 文档级神经机器翻译 词汇翻译一致性 词链
在线阅读 下载PDF
基于Transformer神经机器翻译的文本隐写方法
16
作者 金家立 马卫娇 +1 位作者 李晖 金纾羽 《计算机应用与软件》 北大核心 2025年第5期381-386,共6页
针对基于机器翻译的文本隐写方法存在的翻译质量差、隐藏容量低的问题,提出一种基于Transformer神经机器翻译的文本隐写方法。通过使用较为先进的神经机器翻译模型以及加入隐藏模块的Beam Search解码器,能够根据秘密信息在每一时间步输... 针对基于机器翻译的文本隐写方法存在的翻译质量差、隐藏容量低的问题,提出一种基于Transformer神经机器翻译的文本隐写方法。通过使用较为先进的神经机器翻译模型以及加入隐藏模块的Beam Search解码器,能够根据秘密信息在每一时间步输出与之对应的BPE编码,实现在翻译的过程中嵌入秘密信息。实验结果表明,该方法能够生成高质量、大隐藏容量的隐写译文。与以往的方法相比,BLEU值和隐藏容量分别提升4.84和1.63百分点。 展开更多
关键词 信息隐藏 文本隐写 机器翻译 TRANSFORMER
在线阅读 下载PDF
基于参数分配的多语言神经机器翻译连续学习研究
17
作者 谷舒豪 冯洋 《中文信息学报》 北大核心 2025年第4期77-84,共8页
多语言神经机器翻译的连续学习旨在让模型能够不断支持新的翻译方向,且保证原有翻译方向的性能不发生大幅下降。然而,现有的连续学习方法往往对新支持的翻译方向存在着若干限制或者模型参数爆炸等问题。为了解决这些问题,该文提出了一... 多语言神经机器翻译的连续学习旨在让模型能够不断支持新的翻译方向,且保证原有翻译方向的性能不发生大幅下降。然而,现有的连续学习方法往往对新支持的翻译方向存在着若干限制或者模型参数爆炸等问题。为了解决这些问题,该文提出了一种基于参数对翻译模型重要性的“分而治之”方法。该文提出的方法首先对预训练翻译模型的不同参数关于当前翻译性能的重要性进行评估,然后将对当前翻译性能影响大的参数在原有翻译方向和新的翻译方向之间进行共享,对当前翻译性能影响较小的参数则单独分配给新的翻译方向,用于学习新语言的知识。该文在不同的语言对上进行了实验,并与其他系统进行了对比,结果表明,该方法对模型性能有显著提升。 展开更多
关键词 多语言机器翻译 连续学习 参数分配
在线阅读 下载PDF
融合领域双语词典的泰-汉法律领域神经机器翻译方法
18
作者 李畅 高盛祥 余正涛 《厦门大学学报(自然科学版)》 北大核心 2025年第4期597-605,共9页
[目的]对于泰-汉法律领域神经机器翻译,由于训练所需平行语料稀缺,缺乏双语词级别的有效语义监督,难以做到一些实体词以及领域术语等领域关键词的精准翻译.针对该问题,本文提出一种融合领域双语词典的神经机器翻译方法.[方法]首先利用... [目的]对于泰-汉法律领域神经机器翻译,由于训练所需平行语料稀缺,缺乏双语词级别的有效语义监督,难以做到一些实体词以及领域术语等领域关键词的精准翻译.针对该问题,本文提出一种融合领域双语词典的神经机器翻译方法.[方法]首先利用法律领域语料库挖掘领域双语词典;然后使用基于不频繁法律领域中文词覆盖的方法筛选额外伪法律领域训练数据;在模型输入端,利用源句匹配的领域双语词典目标词构建额外提示数据;在模型结构中,引入提示浅编码器对提示进行表征,在源句编码器层中加入新的交叉注意力模块强化源句的表征,将源句表征与提示表征拼接作为最终编码器表征,在解码器端对编码器表征的交叉注意力作用下指导产生目标词序列.[结果]基于本文筛选方法混合训练的Transformer模型相比于仅用领域数据训练的模型,BLEU值提高了0.54个百分点;采用该混合训练集,融入提示信息的模型相比Transformer模型BLEU值又提升了0.90个百分点,并且相比于经典“语码转换”方法训练的模型BLEU值提升了0.61个百分点.[结论]本文数据筛选方法可在解决领域专业术语稀疏问题的同时降低通用高频词对翻译结果的干扰,提升领域翻译基线模型的性能;引入提示信息的模型能够有效地与提示进行交互,实现翻译性能的提升,并使领域关键词翻译更准确. 展开更多
关键词 法律领域 泰-汉神经机器翻译 领域双语词典 数据筛选 提示浅编码器 交叉注意力
在线阅读 下载PDF
基于对比学习的转录文本翻译方法研究
19
作者 王世宁 刘宇宸 宗成庆 《中文信息学报》 北大核心 2025年第4期67-76,共10页
神经机器翻译系统极易受到输入噪声的干扰,特别是在口语翻译场景中,翻译系统的输入来自语音识别模块的输出,而后者不可避免地存在着识别错误,最终影响翻译性能。现有方法多采用错误修正和翻译的级联式策略以减少识别错误造成的影响,但... 神经机器翻译系统极易受到输入噪声的干扰,特别是在口语翻译场景中,翻译系统的输入来自语音识别模块的输出,而后者不可避免地存在着识别错误,最终影响翻译性能。现有方法多采用错误修正和翻译的级联式策略以减少识别错误造成的影响,但易导致系统时延增长,且可能引入额外的噪声。该文提出了一种基于对比学习的鲁棒神经机器翻译方法,将包含识别错误的样本作为正例,通过句子级别或词级别的对比损失,分别从整体和局部两种不同角度拉近含噪声文本与干净文本在表示空间中的距离,以降低识别错误对文本表示的影响。同时,该文设计了多种精细化的错误合成方法以模拟更加真实的语音识别错误。在英汉双向多个数据集上的实验表明,该文所提出的方法可以有效降低语音识别错误对翻译模型的影响,提高模型的鲁棒性和翻译性能。 展开更多
关键词 对比学习 鲁棒神经机器翻译 语音识别错误
在线阅读 下载PDF
基于孪生XLM-R模型的机器翻译双语平行语料过滤方法
20
作者 涂杰 李茂西 裘白莲 《中文信息学报》 北大核心 2025年第2期63-71,共9页
在机器翻译中,模型训练使用的双语平行语料的数量和质量极大地影响了系统的性能,然而当前很多双语平行语料是从双语可比语料中利用自动过滤方法提取的。为了提高双语平行语料自动过滤的性能,该文提出基于孪生XLM-R模型的双语平行语料过... 在机器翻译中,模型训练使用的双语平行语料的数量和质量极大地影响了系统的性能,然而当前很多双语平行语料是从双语可比语料中利用自动过滤方法提取的。为了提高双语平行语料自动过滤的性能,该文提出基于孪生XLM-R模型的双语平行语料过滤方法,使用基于跨语言预训练语言模型XLM-R的孪生神经网络将源语言句子与目标语言句子映射到深层语义空间,利用平均池化操作获得它们相同维度的句子表征,根据句子表征间余弦距离提取相似度高的平行句对。在WMT18双语平行语料过滤任务上的实验结果表明,该文所提模型优于对比的基线模型,与参与该评测的系统具有较好的可比性。 展开更多
关键词 机器翻译 双语平行语料自动过滤 孪生神经网络 XLM-R模型 对比损失
在线阅读 下载PDF
上一页 1 2 42 下一页 到第
使用帮助 返回顶部