期刊文献+
共找到3,507篇文章
< 1 2 176 >
每页显示 20 50 100
大模型微调的多领域机器翻译方法综述 被引量:1
1
作者 陈子建 王斯日古楞 斯琴图 《计算机科学与探索》 北大核心 2025年第4期916-928,共13页
随着机器翻译技术的快速发展,基于预训练大模型的机器翻译方法已在自然语言处理领域占据重要地位。然而,由于不同领域之间语言特征、词汇风格和表达方式的显著差异,单一预训练模型在多领域翻译任务中难以实现高效且稳定的性能。为此,聚... 随着机器翻译技术的快速发展,基于预训练大模型的机器翻译方法已在自然语言处理领域占据重要地位。然而,由于不同领域之间语言特征、词汇风格和表达方式的显著差异,单一预训练模型在多领域翻译任务中难以实现高效且稳定的性能。为此,聚焦于多领域机器翻译任务中大模型微调技术的关键问题,系统性地综述了微调技术的核心原理、主要方法及应用效果,重点分析了全参数微调、参数高效微调和提示微调三类策略的性能表现与适用场景。深入探讨了不同微调方法的优势与局限性,重点分析了在资源受限条件下如何通过高效微调策略平衡领域泛化能力与任务特异性,展示了参数高效微调与提示微调在资源利用效率和领域适应性方面的显著优势。通过对比分析与实验验证,进一步评估了不同微调策略在领域迁移和资源利用方面的实际效果,并通过案例分析验证了其有效性。未来的研究方向应重点关注资源的高效利用、模型的领域自适应能力,以及翻译质量和鲁棒性的提升,从而推动多领域机器翻译系统在性能与适应性方面的持续发展。 展开更多
关键词 模型微调 多领域机器翻译 全参数微调 参数高效微调 提示微调
在线阅读 下载PDF
基于孪生XLM-R模型的机器翻译双语平行语料过滤方法
2
作者 涂杰 李茂西 裘白莲 《中文信息学报》 北大核心 2025年第2期63-71,共9页
在机器翻译中,模型训练使用的双语平行语料的数量和质量极大地影响了系统的性能,然而当前很多双语平行语料是从双语可比语料中利用自动过滤方法提取的。为了提高双语平行语料自动过滤的性能,该文提出基于孪生XLM-R模型的双语平行语料过... 在机器翻译中,模型训练使用的双语平行语料的数量和质量极大地影响了系统的性能,然而当前很多双语平行语料是从双语可比语料中利用自动过滤方法提取的。为了提高双语平行语料自动过滤的性能,该文提出基于孪生XLM-R模型的双语平行语料过滤方法,使用基于跨语言预训练语言模型XLM-R的孪生神经网络将源语言句子与目标语言句子映射到深层语义空间,利用平均池化操作获得它们相同维度的句子表征,根据句子表征间余弦距离提取相似度高的平行句对。在WMT18双语平行语料过滤任务上的实验结果表明,该文所提模型优于对比的基线模型,与参与该评测的系统具有较好的可比性。 展开更多
关键词 机器翻译 双语平行语料自动过滤 孪生神经网络 XLM-R模型 对比损失
在线阅读 下载PDF
文档级神经机器翻译综述
3
作者 吕星林 李军辉 +2 位作者 陶仕敏 杨浩 张民 《软件学报》 北大核心 2025年第1期152-183,共32页
机器翻译(machine translation,MT)研究旨在构建一个自动转换系统,将给定源语言序列自动地转换为具有相同语义的目标语言序列.由于机器翻译广阔的应用场景,使其成为自然语言理解领域乃至人工智能领域的一个重要的研究方向.近年来,端到... 机器翻译(machine translation,MT)研究旨在构建一个自动转换系统,将给定源语言序列自动地转换为具有相同语义的目标语言序列.由于机器翻译广阔的应用场景,使其成为自然语言理解领域乃至人工智能领域的一个重要的研究方向.近年来,端到端的神经机器翻译(neural machine translation,NMT)方法显著超越了统计机器翻译(statistical machine translation,SMT)方法,成为目前机器翻译研究的主流方法.然而,神经机器翻译系统通常以句子为翻译单位,在面向文档的翻译场景中,将文档中每个句子独立地进行翻译,会因脱离文档的篇章语境引起一些篇章级的错误,如词语错翻、句子间不连贯等.因此将文档级的信息融入到翻译的过程中去解决跨句的篇章级错误是更加自然和合理的做法,文档级的神经机器翻译(document-level neural machine translation,DNMT)的目标正是如此,成为机器翻译研究的热门方向.调研了近年来在文档级神经机器翻译研究方向的主要工作,从篇章评测方法、使用的数据集和模型方法等方面系统地对当前研究工作进行了归纳与阐述,目的是帮助研究者们快速了解文档级神经机器翻译研究现状以及未来的发展和研究方向.同时在文中也阐述了在文档级神经机器翻译的一些展望、困难和挑战,希望能带给研究者们一些启发. 展开更多
关键词 神经机器翻译 Transformer模型 文档上下文 篇章评测
在线阅读 下载PDF
基于主题模型和统计机器翻译方法的中文格律诗自动生成 被引量:17
4
作者 蒋锐滢 崔磊 +2 位作者 何晶 周明 潘志庚 《计算机学报》 EI CSCD 北大核心 2015年第12期2426-2436,共11页
文中针对格律诗自动生成进行了研究.首先根据创作者提交的若干关键词,利用主题模型进行扩展得到更多的主题相关词,然后通过语言模型自动生成首句.在此基础上通过统计机器翻译的方法生成后续句.在生成过程中,利用主题模型进行诗词的意境... 文中针对格律诗自动生成进行了研究.首先根据创作者提交的若干关键词,利用主题模型进行扩展得到更多的主题相关词,然后通过语言模型自动生成首句.在此基础上通过统计机器翻译的方法生成后续句.在生成过程中,利用主题模型进行诗词的意境扩展,从而得到更加丰富的句子候选.该研究的主要特点和贡献是:首先提出以统计机器翻译为理论基础,将格律诗的上下句关系映射为统计翻译模型中源语言与目标语言的关系,设计了融入诗词领域知识的统计机器翻译模型.其次主题模型用来在生成过程中进行词汇集扩展,从而加强了诗词的主题及意境.另外文中还论述了基于BLEU的诗句生成的自动评测方法,并配合所设计的人工评价标准,形成了比较完备的诗词评价体系.实验结果证实了该方法的有效性. 展开更多
关键词 律诗生成 主题模型 统计机器翻译 自动评测
在线阅读 下载PDF
利用统计搭配模型改进基于实例的机器翻译 被引量:12
5
作者 刘占一 李生 +1 位作者 刘挺 王海峰 《软件学报》 EI CSCD 北大核心 2012年第6期1472-1485,共14页
基于实例的机器翻译(example-based machine translation,简称EBMT)使用预处理过的双语例句作为主要翻译资源,通过编辑与待翻译句子匹配的翻译实例来生成译文.在EBMT系统中,翻译实例选择及译文选择对系统性能影响较大.提出利用统计搭配... 基于实例的机器翻译(example-based machine translation,简称EBMT)使用预处理过的双语例句作为主要翻译资源,通过编辑与待翻译句子匹配的翻译实例来生成译文.在EBMT系统中,翻译实例选择及译文选择对系统性能影响较大.提出利用统计搭配模型来增强EBMT系统中翻译实例选择及译文选择的能力,提高译文质量.首先,使用单语统计词对齐从单语语料中训练统计搭配模型.然后,利用该模型从3个方面提高EBMT的性能:(1)利用统计搭配模型估计待翻译句子与翻译实例之间的匹配度,从而增强系统的翻译实例选择能力;(2)通过引入候选译文与上下文之间搭配强度的估计来提高译文选择能力;(3)使用统计搭配模型检测翻译实例中被替换词的搭配词,同时根据新的替换词及上下文对搭配词进行矫正,进一步提高EBMT系统的译文质量.为了验证所提出的方法,在基于词的EBMT系统上评价了英汉翻译的译文质量.与基线系统相比,所提出的方法使译文的BLEU得分提高了4.73~6.48个百分点.在半结构化的EBMT系统上进一步检验了基于统计搭配模型的译文选择方法,从实验结果来看,该方法使译文的BLEU得分提高了1.82个百分点.同时,人工评价结果显示,改进后的半结构化EBMT系统的译文能够表达原文的大部分信息,并且具有较高的流利度. 展开更多
关键词 统计搭配模型 基于实例的机器翻译 实例选择 译文选择
在线阅读 下载PDF
基于短语统计机器翻译模型蒙古文形态切分 被引量:4
6
作者 李文 李淼 +3 位作者 梁青 朱海 应玉龙 乌达巴拉 《中文信息学报》 CSCD 北大核心 2011年第4期122-128,共7页
该文结合最小上下文构成代价模型,借鉴并利用统计机器翻译的方法,尝试解决蒙古文形态切分问题。基于短语的统计机器翻译形态蒙文切分模型和最小上下文构成代价模型分别对词表词和未登录词进行形态切分。前者选取了短语机器翻译系统中三... 该文结合最小上下文构成代价模型,借鉴并利用统计机器翻译的方法,尝试解决蒙古文形态切分问题。基于短语的统计机器翻译形态蒙文切分模型和最小上下文构成代价模型分别对词表词和未登录词进行形态切分。前者选取了短语机器翻译系统中三个常用的模型,包括短语翻译模型、词汇化翻译模型和语言模型,最小上下文构成代价模型考虑了一元词素上下文环境和词缀N-gram上下文环境。实验结果显示:基于短语统计机器翻译形态切分模型对词表词切分,最小上下文构成代价模型对未登录词处理后,总体的切分准确率达到96.94%。此外,词素融入机器翻译系统中后,译文质量有了显著的提高,更进一步的证实了本方法的有效性和实用性。 展开更多
关键词 形态学 形态切分 机器翻译 统计模型
在线阅读 下载PDF
N-gram统计模型在机器翻译系统中的应用 被引量:5
7
作者 张健 李素建 刘群 《计算机工程与应用》 CSCD 北大核心 2002年第8期73-75,78,共4页
文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时... 文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时等特点。实验表明,这种方法具有良好的性能,且与被处理的语言无关。 展开更多
关键词 机器翻译系统 N-gram统计模型 语料库 自然语言处理 计算机
在线阅读 下载PDF
依存句法语言模型对短语统计机器翻译性能的影响 被引量:4
8
作者 董人菘 王华 +2 位作者 张晓钟 余正涛 张涛 《计算机科学》 CSCD 北大核心 2014年第2期99-101,共3页
为提高汉-英统计机器翻译的翻译效果,提出一个基于依存句法关系的语言模型,在较成熟的基于短语翻译的统计特征下,对解码产生的NBEST候选翻译结果进行进一步约束,重新计算得分,调整NBEST候选翻译序列,以得到最佳翻译。实验以"Pharao... 为提高汉-英统计机器翻译的翻译效果,提出一个基于依存句法关系的语言模型,在较成熟的基于短语翻译的统计特征下,对解码产生的NBEST候选翻译结果进行进一步约束,重新计算得分,调整NBEST候选翻译序列,以得到最佳翻译。实验以"Pharaoh"为比较基准,以500句汉英句对为测试集,最终的实验结果表明,提出的基于依存句法关系的语言模型可以在一定程度上提高汉-英统计机器翻译最佳翻译的正确率。 展开更多
关键词 依存句法 语言模型 机器翻译
在线阅读 下载PDF
基于统计机器翻译模型的查询扩展 被引量:2
9
作者 李卫疆 赵铁军 王宪刚 《电子与信息学报》 EI CSCD 北大核心 2008年第3期725-729,共5页
在搜索引擎等实际的信息检索应用中,用户提交的查询请求通常都只包含很少的几个关键词,这会引起相关文档与用户查询之间的词不匹配问题,对检索性能有较严重的负面影响。该文在分析了查询产生模型的基础上,提出了一种新的基于统计机器翻... 在搜索引擎等实际的信息检索应用中,用户提交的查询请求通常都只包含很少的几个关键词,这会引起相关文档与用户查询之间的词不匹配问题,对检索性能有较严重的负面影响。该文在分析了查询产生模型的基础上,提出了一种新的基于统计机器翻译的查询扩展方法。通过统计机器翻译模型提取文档集中与查询词相关联的词,用以进行查询扩展。在TREC数据集上的试验结果表明:基于统计翻译的查询扩展方法不仅比不扩展的语言模型方法始终有12%~17%的提高,而且比流行的查询扩展方法-伪反馈也具有可比的平均准确率。 展开更多
关键词 信息检索 查询扩展 语言模型 统计机器翻译
在线阅读 下载PDF
引入基于主题复述知识的统计机器翻译模型 被引量:1
10
作者 苏劲松 董槐林 +2 位作者 陈毅东 史晓东 吴清强 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2014年第10期1843-1849,共7页
针对传统的基于双语平行语料的复述获取方法在复述获取和应用的过程中忽视文档上下文的缺点,引入基于主题模型的上下文信息来改善复述获取—主要致力于如何计算上下文无关的复述生成概率和上下文相关的复述生成概率.研究如何将上述2种... 针对传统的基于双语平行语料的复述获取方法在复述获取和应用的过程中忽视文档上下文的缺点,引入基于主题模型的上下文信息来改善复述获取—主要致力于如何计算上下文无关的复述生成概率和上下文相关的复述生成概率.研究如何将上述2种概率融入统计机器翻译建模,以提高翻译系统的性能.多个测试集上的实验结果证明了该方法的有效性. 展开更多
关键词 统计机器翻译 复述 主题模型
在线阅读 下载PDF
一种基于短语的汉蒙统计机器翻译与调序模型 被引量:3
11
作者 侯宏旭 刘群 李锦涛 《高技术通讯》 EI CAS CSCD 北大核心 2009年第5期475-479,共5页
根据蒙古语的一些特点,为基于短语的汉蒙统计机器翻译提出了一种适合于汉蒙统计机器翻译的调序模型,并给出了相应的训练和解码算法以及初步实验的结果。汉蒙双语语料库规模很小,数据稀疏问题严重,而在汉蒙翻译中,词序变化又非常明显,在... 根据蒙古语的一些特点,为基于短语的汉蒙统计机器翻译提出了一种适合于汉蒙统计机器翻译的调序模型,并给出了相应的训练和解码算法以及初步实验的结果。汉蒙双语语料库规模很小,数据稀疏问题严重,而在汉蒙翻译中,词序变化又非常明显,在汉英等机器翻译中使用的调序方法难于应用到汉蒙统计机器翻译中。通过对汉蒙翻译过程中词语顺序变化的正态分布假设,建立了一种概率调序模型。实验表明,这种概率调序模型好于 Moses系统中采用的调序方法。 展开更多
关键词 机器翻译 统计方法 蒙古语 调序 概率
在线阅读 下载PDF
基于短语相似度的统计机器翻译模型 被引量:3
12
作者 何中军 刘群 林守勋 《高技术通讯》 EI CAS CSCD 北大核心 2009年第4期337-341,共5页
针对基于短语的统计机器翻译(SMT)模型中由于采用精确匹配策略导致的短语稀疏问题,提出了一种基于短语相似度的统计机器翻译模型。该模型将基于实例的翻译方法引入到统计机器翻译中。翻译时,对于训练语料库中未出现过的短语,通过计算源... 针对基于短语的统计机器翻译(SMT)模型中由于采用精确匹配策略导致的短语稀疏问题,提出了一种基于短语相似度的统计机器翻译模型。该模型将基于实例的翻译方法引入到统计机器翻译中。翻译时,对于训练语料库中未出现过的短语,通过计算源语言短语之间的相似度,采用模糊匹配策略从短语表中查找相似的实例短语,并根据实例短语为其构造翻译。与精确匹配策略相比,利用相似度进行模糊匹配增加了对短语表的利用程度,缓解了短语稀疏问题。实验表明,该模型能够明显地提高统计机器翻译的质量,效果超过了当前最好的短语系统'摩西(Moses)'。 展开更多
关键词 相似度 基于短语的统计机器翻译 基于实例的机器翻译
在线阅读 下载PDF
融合被动和可能态模型的日汉统计机器翻译 被引量:1
13
作者 王楠 徐金安 +2 位作者 明芳 陈钰枫 张玉洁 《中文信息学报》 CSCD 北大核心 2016年第6期201-207,共7页
日语中谓词语态有不同的词尾变形,其中被动态和可能态具有相同的词尾变化,在统计机器翻译中难以对其正确区分及翻译。因此,该文提出一种利用最大熵模型有效地对日语可能态和被动态进行分类,然后把日语的可能态和被动态特征有效地融合到... 日语中谓词语态有不同的词尾变形,其中被动态和可能态具有相同的词尾变化,在统计机器翻译中难以对其正确区分及翻译。因此,该文提出一种利用最大熵模型有效地对日语可能态和被动态进行分类,然后把日语的可能态和被动态特征有效地融合到对数线性模型中改进翻译模型的方法,以提高可能态和被动态翻译规则选择的准确性。实验结果表明,该方法可以有效提升日语可能态和被动态句子的翻译质量,在大规模日汉语料上,最高翻译BLEU值能够由41.50提高到42.01,并在人工评测中,翻译结果的整体可理解度得到了2.71%的提升。 展开更多
关键词 被动态 可能态 统计机器翻译 最大熵模型
在线阅读 下载PDF
基于预训练语言模型的机器翻译最新进展 被引量:7
14
作者 杨滨瑕 罗旭东 孙凯丽 《计算机科学》 CSCD 北大核心 2024年第S01期38-45,共8页
自然语言处理涉及许多重要主题,其中之一是机器翻译。预训练语言模型,如BERT和GPT,是用于处理包括机器翻译在内的各种自然语言处理任务的先进方法。因此,许多研究人员使用预训练语言模型来解决机器翻译问题。为推动研究向前发展,首先概... 自然语言处理涉及许多重要主题,其中之一是机器翻译。预训练语言模型,如BERT和GPT,是用于处理包括机器翻译在内的各种自然语言处理任务的先进方法。因此,许多研究人员使用预训练语言模型来解决机器翻译问题。为推动研究向前发展,首先概述了这一领域的最新进展,包括主要的研究问题和基于各种预训练语言模型的解决方案;其次比较了这些解决方案的动机、共性、差异和局限性;然后总结了训练这类机器翻译模型常用的数据集,以及评估这些模型的指标;最后讨论了进一步的研究方向。 展开更多
关键词 自然语言处理 机器翻译 预训练语言模型 BERT GPT
在线阅读 下载PDF
短语统计机器翻译的句法调序模型 被引量:6
15
作者 薛永增 李生 +1 位作者 赵铁军 杨沐昀 《通信学报》 EI CSCD 北大核心 2008年第1期7-14,共8页
为了处理统计机器翻译中的长距离调序,在基于短语的统计翻译模型的基础上提出了句法调序模型。该模型按照短语切分来分割句法树结构,从而能够避免短语和句法结构的不一致性。在该模型中依据短语对齐和短语内词对齐确定句法树部分结构的... 为了处理统计机器翻译中的长距离调序,在基于短语的统计翻译模型的基础上提出了句法调序模型。该模型按照短语切分来分割句法树结构,从而能够避免短语和句法结构的不一致性。在该模型中依据短语对齐和短语内词对齐确定句法树部分结构的调序顺序,依据各个节点上的调序概率计算子结构的调序概率,作为对数线性模型的特征函数。该模型的实验结果比经典的短语统计翻译模型的BLEU评分有明显提高。结果表明句法调序模型对于基于短语的统计机器翻译是有效的,能够较好地将句法知识和短语翻译过程结合起来。 展开更多
关键词 人工智能 统计翻译模型 句法调序 短语
在线阅读 下载PDF
基于句法的统计机器翻译模型与方法 被引量:17
16
作者 刘群 《中文信息学报》 CSCD 北大核心 2011年第6期63-71,共9页
该文总结了我们近几年来在基于句法的统计机器翻译方面所做的研究工作,特别是基于源语言句法的一系列统计机器翻译模型与方法,具体包括:基于最大熵括号转录语法的翻译模型,基于源语言短语结构树的树到串翻译模型及其相应的基于树的翻译... 该文总结了我们近几年来在基于句法的统计机器翻译方面所做的研究工作,特别是基于源语言句法的一系列统计机器翻译模型与方法,具体包括:基于最大熵括号转录语法的翻译模型,基于源语言短语结构树的树到串翻译模型及其相应的基于树的翻译方法,基于森林的翻译方法和句法分析与解码一体化翻译方法,基于源语言依存树的翻译模型。 展开更多
关键词 统计机器翻译 基于句法的翻译模型 基于句法的翻译方法
在线阅读 下载PDF
N-Best句法知识增强的统计机器翻译预调序模型 被引量:1
17
作者 郭俊博 张喜媛 杜金华 《计算机工程与应用》 CSCD 北大核心 2016年第17期160-165,176,共7页
源语言和目标语言的句法异构性对统计机器翻译(SMT)性能有重要影响。在基于短语的汉英统计机器翻译基础上,提出了一种基于N-best句法知识增强的源语言预调序方法。首先对源语言输入句子进行N-best句法分析,计算统计概率得到高可靠性子... 源语言和目标语言的句法异构性对统计机器翻译(SMT)性能有重要影响。在基于短语的汉英统计机器翻译基础上,提出了一种基于N-best句法知识增强的源语言预调序方法。首先对源语言输入句子进行N-best句法分析,计算统计概率得到高可靠性子树结构,再根据词对齐信息从可靠性子树结构中抽取初始调序规则集。两种优化策略用于对初始规则集进行优化:基于中英文句法知识规则推导筛选和规则概率阈值控制机制。然后为减少短语内部调序,保证短语局部流利性,采用源语言短语翻译表为约束,使调序控制在短语块之间进行。最后根据获取的优化规则集和短语表约束条件对源语言端句子的句法分析树进行预调序。在基于NIST 2005和2008测试数据集上的汉英统计机器翻译实验结果表明,所提基于N-best句法知识增强的统计机器翻译预调序方法相对于基线系统,自动评价准则BLEU得分分别提高了0.68和0.83。 展开更多
关键词 统计机器翻译 预调序模型 N-best句法树 调序规则 规则优化
在线阅读 下载PDF
基于翻译日志的统计机器翻译模型剪枝
18
作者 刘凯 吕雅娟 +1 位作者 姜文斌 刘群 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第1期167-172,共6页
提出一种基于翻译日志的统计机器翻译模型的剪枝方法。该方法利用翻译规则在翻译日志中的命中频数对机器翻译规则进行过滤,保留当前机器翻译模型所需的最小规则表。实验表明,该方法能够在仅保留原有模型1%~3%翻译规则的前提下达到... 提出一种基于翻译日志的统计机器翻译模型的剪枝方法。该方法利用翻译规则在翻译日志中的命中频数对机器翻译规则进行过滤,保留当前机器翻译模型所需的最小规则表。实验表明,该方法能够在仅保留原有模型1%~3%翻译规则的前提下达到原有模型的翻译效果。 展开更多
关键词 统计机器翻译 模型剪枝 翻译日志
在线阅读 下载PDF
基于结构对齐的统计机器翻译模型 被引量:2
19
作者 孙加东 赵铁军 梁华参 《通信学报》 EI CSCD 北大核心 2009年第7期124-129,共6页
从图同构角度给出树同构的性质,并阐述了结构异构与结构对齐之间的关系。在此基础上为建立结构映射关系,以及在翻译过程中融入句法结构信息,提出元结构、互译结构组概念及多层次结构对齐的体系。最后利用对数线性模型,给出基于元结构对... 从图同构角度给出树同构的性质,并阐述了结构异构与结构对齐之间的关系。在此基础上为建立结构映射关系,以及在翻译过程中融入句法结构信息,提出元结构、互译结构组概念及多层次结构对齐的体系。最后利用对数线性模型,给出基于元结构对齐的统计机器翻译模型。模型的翻译过程中,源语言句法树以元结构为单位进行分解,利用互译结构组映射知识,转换为目标语言句法树结构序列,从而根据结构模型信息对目标语实施调序和译文的生成。实验结果表明,本模型在对于翻译知识的泛化能力和翻译结果方面都优于基于短语的统计机器翻译模型。 展开更多
关键词 统计机器翻译 结构异构 结构对齐 对数线性模型
在线阅读 下载PDF
基于同步树序列替换文法的统计机器翻译模型 被引量:2
20
作者 蒋宏飞 李生 +2 位作者 张民 赵铁军 杨沐昀 《自动化学报》 EI CSCD 北大核心 2009年第10期1317-1326,共10页
基于短语的模型是目前发展相对成熟的一种统计机器翻译(Statistical machine translation,SMT)模型.但基于短语的模型不包含任何结构信息,因而缺乏有效的全局调序能力,同时不能对非连续短语进行建模.基于句法的模型因具有结构信息而具... 基于短语的模型是目前发展相对成熟的一种统计机器翻译(Statistical machine translation,SMT)模型.但基于短语的模型不包含任何结构信息,因而缺乏有效的全局调序能力,同时不能对非连续短语进行建模.基于句法的模型因具有结构信息而具有解决以上问题的潜力,因而越来越受到研究者们的重视.然而现有的大多数基于句法的模型都因严格的句法限制而制约了模型的描述能力.为突破这种限制并将基于短语的模型的优点融入到句法模型中,本文提出一种基于同步树序列替换文法(Synchronous tree sequence substitution grammar,STSSG)的统计机器翻译模型.在此模型中,树序列被用作为基本的翻译单元.在这种框架下,不满足句法限制的翻译等价对和满足句法限制的翻译等价对都可以融入句法信息并被翻译模型所使用.从而,两种模型的优点均得到充分利用.在2005年度美国国家标准与技术研究所(NIST)举办的机器翻译评比的中文翻译任务语料上的实验表明,本文提出的模型显著地超过了两个基准系统:基于短语的翻译系统Moses和一个基于严格树结构的句法翻译模型. 展开更多
关键词 统计机器翻译 句法限制 同步文法 同步树替换文法 同步树序列替换文法
在线阅读 下载PDF
上一页 1 2 176 下一页 到第
使用帮助 返回顶部