期刊文献+
共找到54篇文章
< 1 2 3 >
每页显示 20 50 100
基于多语义空间的机器译文质量估计
1
作者 陈康 刘尧舜 +2 位作者 李茂西 王倩 吴水秀 《中文信息学报》 北大核心 2025年第5期72-81,共10页
在不需要人工参考译文对照的情况下,仅利用源语言句子对机器译文的质量进行评估是机器译文质量估计任务的目标。当前的机器译文质量估计方法仅在单个语义空间内比较源语言句子和机器译文,难以全面捕捉不同语言的语义特征,导致译文质量... 在不需要人工参考译文对照的情况下,仅利用源语言句子对机器译文的质量进行评估是机器译文质量估计任务的目标。当前的机器译文质量估计方法仅在单个语义空间内比较源语言句子和机器译文,难以全面捕捉不同语言的语义特征,导致译文质量估计的准确性和可靠性不足。针对这个问题,该文提出基于多语义空间的机器译文质量估计方法,通过融合源语言、目标语言和跨语言语义空间质量特征,更准确地评估机器译文的质量。该文方法借助大语言模型和相应提示对源语言句子进行翻译生成伪参考译文,对机器译文进行翻译生成回译;利用跨语言预训练模型X-MOD表征源语言句子和回译提取在源语言语义空间的机器译文质量特征、利用X-MOD表征源语言句子和机器译文提取在跨语言语义空间的机器译文质量特征、利用X-MOD表征机器译文和伪参考译文提取在目标语言语义空间的机器译文质量特征;通过多头自注意力机制和前馈神经网络融合多语义空间特征构建端到端的机器译文质量估计神经网络模型。在WMT′23句子级别机器译文质量估计任务基准数据集上的实验结果表明,该文方法性能超过了当前先进的机器译文质量估计方法TransQuest和UniTE,并超过了参与评测的最优系统。 展开更多
关键词 机器译文质量估计 跨语言预训练模型 多语义空间特征 伪参考译文 回译
在线阅读 下载PDF
规则压缩模型和灵活架构的Transformer加速器设计
2
作者 姜小波 邓晗珂 +1 位作者 莫志杰 黎红源 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第3期1079-1088,共10页
基于注意力机制的Transformer模型具有优越的性能,设计专用的Transformer加速器能大幅提高推理性能以及降低推理功耗。Transformer模型复杂性包括数量上和结构上的复杂性,其中结构上的复杂性导致不规则模型和规则硬件之间的失配,降低了... 基于注意力机制的Transformer模型具有优越的性能,设计专用的Transformer加速器能大幅提高推理性能以及降低推理功耗。Transformer模型复杂性包括数量上和结构上的复杂性,其中结构上的复杂性导致不规则模型和规则硬件之间的失配,降低了模型映射到硬件的效率。目前的加速器研究主要聚焦在解决模型数量上的复杂性,但对如何解决模型结构上的复杂性研究得不多。该文首先提出规则压缩模型,降低模型的结构复杂度,提高模型和硬件的匹配度,提高模型映射到硬件的效率。接着提出一种硬件友好的模型压缩方法,采用规则的偏移对角权重剪枝方案和简化硬件量化推理逻辑。此外,提出一个高效灵活的硬件架构,包括一种以块为单元的权重固定脉动运算阵列,同时包括一种准分布的存储架构。该架构可以高效实现算法到运算阵列的映射,同时实现高效的数据存储效率和降低数据移动。实验结果表明,该文工作在性能损失极小的情况下实现93.75%的压缩率,在FPGA上实现的加速器可以高效处理压缩后的Transformer模型,相比于中央处理器(CPU)和图形处理器(GPU)能效分别提高了12.45倍和4.17倍。 展开更多
关键词 自然语音处理 TRANSFORMER 模型压缩 硬件加速器 机器翻译
在线阅读 下载PDF
维吾尔语机器翻译研究综述 被引量:2
3
作者 哈里旦木·阿布都克里木 侯钰涛 +2 位作者 姚登峰 阿布都克力木·阿布力孜 陈吉尚 《计算机工程》 CSCD 北大核心 2024年第1期1-16,共16页
维吾尔语机器翻译作为我国低资源机器翻译研究的重要任务之一,其发展与应用可以更好地促进不同地区和民族之间的文化交流与贸易往来。然而,维吾尔语作为一种黏着性语言,在机器翻译领域存在形态复杂、语料稀缺等问题。近年来,在维吾尔语... 维吾尔语机器翻译作为我国低资源机器翻译研究的重要任务之一,其发展与应用可以更好地促进不同地区和民族之间的文化交流与贸易往来。然而,维吾尔语作为一种黏着性语言,在机器翻译领域存在形态复杂、语料稀缺等问题。近年来,在维吾尔语机器翻译发展的不同阶段,研究人员针对其特点在算法和模型上不断优化与创新,取得了一定的研究成果,但缺乏系统性的综述。全面回顾维吾尔语机器翻译的相关研究,并根据方法的不同将其分为基于规则和实例的维吾尔语机器翻译、基于统计的维吾尔语机器翻译以及基于神经网络的维吾尔语机器翻译3种类型,同时对相关学术活动和语料库资源进行汇总。为进一步探索维吾尔语机器翻译的潜力,采用ChatGPT模型对维吾尔语-汉语机器翻译任务进行初步研究,实验结果表明,在Few-shot情景下,随着示例数的增加,翻译性能先升后降,在10-shot时表现最佳。此外,思维链方法在维吾尔语机器翻译任务中并未展示出更优的翻译能力。最后对维吾尔语机器翻译未来的研究方向进行了展望。 展开更多
关键词 维吾尔语 基于规则和实例的机器翻译 统计机器翻译 神经机器翻译 大语言模型
在线阅读 下载PDF
SQL-to-text模型的组合泛化能力评估方法 被引量:1
4
作者 陈琳 范元凯 +3 位作者 何震瀛 刘晓清 杨阳 汤路民 《计算机工程》 CAS CSCD 北大核心 2024年第3期326-335,共10页
数据库的结构化查询语言(SQL)到自然语言的翻译(SQL-to-text)能提高关系数据库的易用性。近年来该领域主要使用机器学习的方法进行研究并已取得一定进展,然而现有翻译模型的能力仍不足以投入实际应用。由于组合泛化能力是SQL-to-text模... 数据库的结构化查询语言(SQL)到自然语言的翻译(SQL-to-text)能提高关系数据库的易用性。近年来该领域主要使用机器学习的方法进行研究并已取得一定进展,然而现有翻译模型的能力仍不足以投入实际应用。由于组合泛化能力是SQL-to-text模型在实际应用中提升翻译效果的必要能力,且目前缺少对此类模型组合泛化能力的研究,因此提出一种SQL-to-text模型的组合泛化能力评估方法。基于现有的SQL-to-text数据集生成大量SQL和对应的自然语言翻译(SQL-自然语言对),并按SQL-自然语言对所含SQL子句的个数将其划分为训练数据与测试数据,使测试数据中的SQL子句皆以不同的组合方式在训练数据中出现,从而得到可评估模型组合泛化能力的新数据集。评估结果表明,该方法对查询知识的使用程度较高,划分数据的方式更加合理,所得数据集符合评估组合泛化能力的需求且贴近模型的实际应用场景,受到原始数据集的限制程度更低,并证实现有模型的组合泛化能力仍需提升,其中针对SQL-to-text任务设计的关系感知图转换器模型组合泛化能力最弱,表明原有的SQL-to-text数据集对组合泛化能力的考察存在欠缺。 展开更多
关键词 结构化查询语言 组合泛化 机器翻译 数据库 长短期记忆模型
在线阅读 下载PDF
基于预训练语言模型的机器翻译最新进展 被引量:7
5
作者 杨滨瑕 罗旭东 孙凯丽 《计算机科学》 CSCD 北大核心 2024年第S01期38-45,共8页
自然语言处理涉及许多重要主题,其中之一是机器翻译。预训练语言模型,如BERT和GPT,是用于处理包括机器翻译在内的各种自然语言处理任务的先进方法。因此,许多研究人员使用预训练语言模型来解决机器翻译问题。为推动研究向前发展,首先概... 自然语言处理涉及许多重要主题,其中之一是机器翻译。预训练语言模型,如BERT和GPT,是用于处理包括机器翻译在内的各种自然语言处理任务的先进方法。因此,许多研究人员使用预训练语言模型来解决机器翻译问题。为推动研究向前发展,首先概述了这一领域的最新进展,包括主要的研究问题和基于各种预训练语言模型的解决方案;其次比较了这些解决方案的动机、共性、差异和局限性;然后总结了训练这类机器翻译模型常用的数据集,以及评估这些模型的指标;最后讨论了进一步的研究方向。 展开更多
关键词 自然语言处理 机器翻译 预训练语言模型 BERT GPT
在线阅读 下载PDF
面向“一带一路”的低资源语言机器翻译研究 被引量:2
6
作者 侯钰涛 阿布都克力木·阿布力孜 +2 位作者 史亚庆 马依拉木·木斯得克 哈里旦木·阿布都克里木 《计算机工程》 CAS CSCD 北大核心 2024年第4期332-341,共10页
随着“一带一路”倡议的深入推进,沿线国家和地区之间的跨语言沟通需求日渐增长,机器翻译技术逐渐成为各国之间深入交流的重要手段。然而,这些国家存在大量低资源语言,语料的稀缺性导致其机器翻译研究进展较为缓慢。针对该问题,提出一... 随着“一带一路”倡议的深入推进,沿线国家和地区之间的跨语言沟通需求日渐增长,机器翻译技术逐渐成为各国之间深入交流的重要手段。然而,这些国家存在大量低资源语言,语料的稀缺性导致其机器翻译研究进展较为缓慢。针对该问题,提出一种基于NLLB模型改进的低资源语言机器翻译训练方法。首先基于多语言预训练模型提出一种改进的训练策略,该策略在数据增强的前提下,对损失函数进行优化,从而在机器翻译任务中有效提高低资源语言的翻译性能;然后使用ChatGPT以及ChatGLM模型分别评估老挝语-汉语以及越南语-汉语的翻译能力,大语言模型(LLM)已具备一定的翻译低资源语言的能力,而且ChatGPT模型在越南语-汉语翻译任务上已经大幅超越传统的神经机器翻译(NMT)模型,但是在老挝语上的翻译性能还有待进一步提高。实验结果表明,在4种低资源语言到汉语的翻译任务上,相比NLLB-600M基线模型,平均提升了1.33个双语替换测评(BLEU)值以及0.82个chrF++值,从而充分证明了该方法在低资源语言机器翻译任务上的有效性。此外,该方法使用ChatGPT和ChatGLM模型分别对老挝语-汉语以及越南语-汉语进行了初步研究,在越南语-汉语翻译任务中,ChatGPT模型表现出色,远超传统的NMT模型,分别提高了9.28个BLEU值和3.12个chrF++值。 展开更多
关键词 低资源语言 机器翻译 数据增强 多语言预训练模型 大语言模型
在线阅读 下载PDF
融合BERT预训练语言知识的神经机器翻译方法
7
作者 谷雪鹏 郭军军 余正涛 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第6期1024-1032,共9页
[目的]针对在神经机器翻译任务中仅使用微调的方法不能充分利用预训练语言知识的问题进行研究.[方法]提出一种双阶段交互融合预训练模型的神经机器翻译方法.首先提取BERT预训练模型的多层表征,利用多层表征构建掩码知识矩阵,将BERT包含... [目的]针对在神经机器翻译任务中仅使用微调的方法不能充分利用预训练语言知识的问题进行研究.[方法]提出一种双阶段交互融合预训练模型的神经机器翻译方法.首先提取BERT预训练模型的多层表征,利用多层表征构建掩码知识矩阵,将BERT包含的预训练知识作用于神经机器翻译模型编码端词嵌入层.其次,通过自适应融合模块提取BERT多层表征中的有益知识,并与神经机器翻译模型交互融合.[结果]实验结果表明,与Transformer基线模型相比,所提方法在多个神经机器翻译任务上BLEU评分获得了1.41~4.20的提升,相较于其他融合预训练知识的神经机器翻译方法,所提方法也有较为明显的模型性能提升.[结论]本文提出的双阶段交互融合预训练模型的神经机器翻译方法缓解了灾难性遗忘问题,缩小了预训练模型与神经机器翻译模型因训练目标不同而导致的差异,可以有效利用预训练语言知识来提升神经机器翻译模型性能. 展开更多
关键词 机器翻译 预训练语言模型 注意力机制 Transformer网络模型
在线阅读 下载PDF
面向标记语言的机器翻译方法研究
8
作者 杜权 曾信 +4 位作者 李北 刘辉 李垠桥 肖桐 朱靖波 《中文信息学报》 CSCD 北大核心 2024年第8期68-75,共8页
标记语言翻译相比于纯文本类型翻译任务来说,存在标记格式复杂多样造成的译文质量低和译文端格式难以保持等技术难题。针对这些难题,该文提出基于组合泛化的标记语言建模方法。同时,针对标记语言的格式还原问题,该文提出使用标签位置准... 标记语言翻译相比于纯文本类型翻译任务来说,存在标记格式复杂多样造成的译文质量低和译文端格式难以保持等技术难题。针对这些难题,该文提出基于组合泛化的标记语言建模方法。同时,针对标记语言的格式还原问题,该文提出使用标签位置准确率、正确率、召回率和F_(1)值等指标来衡量标记语言格式还原效果。实验发现,该文所提出的泛化方法相较于基于截断、基于词对齐和已有的泛化方法,BLEU均有较大提升,格式还原率接近100%。 展开更多
关键词 标记语言 机器翻译 基于泛化的建模方法
在线阅读 下载PDF
预训练神经机器翻译研究进展分析
9
作者 曹智泉 穆永誉 +3 位作者 肖桐 李北 张春良 朱靖波 《中文信息学报》 CSCD 北大核心 2024年第6期1-23,共23页
神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下... 神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下游任务取得显著的性能提升。目前基于预训练的神经机器翻译(PTNMT)在受限资源数据集上已被广泛验证,但如何高效地在高资源NMT模型中利用PTM仍亟待研究。该文致力于对PTNMT的现状和相关问题进行系统性的整理和分析,从引入PTM的预训练方法、使用策略以及特定任务等角度对PTNMT方法进行详细的分类,并对PTNMT方法解决的问题进行总结,最后对PTNMT的研究进行展望。 展开更多
关键词 自然语言处理 预训练模型 神经机器翻译
在线阅读 下载PDF
依存句法语言模型对短语统计机器翻译性能的影响 被引量:4
10
作者 董人菘 王华 +2 位作者 张晓钟 余正涛 张涛 《计算机科学》 CSCD 北大核心 2014年第2期99-101,共3页
为提高汉-英统计机器翻译的翻译效果,提出一个基于依存句法关系的语言模型,在较成熟的基于短语翻译的统计特征下,对解码产生的NBEST候选翻译结果进行进一步约束,重新计算得分,调整NBEST候选翻译序列,以得到最佳翻译。实验以"Pharao... 为提高汉-英统计机器翻译的翻译效果,提出一个基于依存句法关系的语言模型,在较成熟的基于短语翻译的统计特征下,对解码产生的NBEST候选翻译结果进行进一步约束,重新计算得分,调整NBEST候选翻译序列,以得到最佳翻译。实验以"Pharaoh"为比较基准,以500句汉英句对为测试集,最终的实验结果表明,提出的基于依存句法关系的语言模型可以在一定程度上提高汉-英统计机器翻译最佳翻译的正确率。 展开更多
关键词 依存句法 语言模型 机器翻译
在线阅读 下载PDF
基于句法的统计机器翻译综述 被引量:13
11
作者 熊德意 刘群 林守勋 《中文信息学报》 CSCD 北大核心 2008年第2期28-39,共12页
本文对基于句法的统计机器翻译进行了综述。按照模型所基于的语法不同,将基于句法的统计机器翻译分为两大类:基于形式化语法和基于语言学语法。对这两个不同类别,我们分别介绍它们代表性的工作,包括模型的构建、训练和解码器的设计等,... 本文对基于句法的统计机器翻译进行了综述。按照模型所基于的语法不同,将基于句法的统计机器翻译分为两大类:基于形式化语法和基于语言学语法。对这两个不同类别,我们分别介绍它们代表性的工作,包括模型的构建、训练和解码器的设计等,并对比了各个模型的优点和缺点。最后我们对基于句法的统计机器翻译进行了总结,指出设计句法模型时要注意的问题,并对未来的发展趋势进行了预测。 展开更多
关键词 人工智能 机器翻译 统计机器翻译 基于句法的统计机器翻译 树到串 树到树 依存语法
在线阅读 下载PDF
基于对数模型的词义自动消歧 被引量:13
12
作者 朱靖波 李珩 +1 位作者 张跃 姚天顺 《软件学报》 EI CSCD 北大核心 2001年第9期1405-1412,共8页
提出了一种对数模型 (logarithm model,简称 L M) ,构造了一个词义自动消歧系统 LM-WSD(word sensedisambiguation based on logarithm model) .在词义自动消歧实验中 ,构造了 4种计算模型进行词义消歧 ,根据 4个计算模型的消歧结果 ,... 提出了一种对数模型 (logarithm model,简称 L M) ,构造了一个词义自动消歧系统 LM-WSD(word sensedisambiguation based on logarithm model) .在词义自动消歧实验中 ,构造了 4种计算模型进行词义消歧 ,根据 4个计算模型的消歧结果 ,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响 .目前 ,该词义自动消歧系统 L M-WSD已经应用于基于词层的英汉机器翻译系统 (汽车配件专业领域 )中 ,有效地提高了翻译性能 . 展开更多
关键词 词义自动消歧 机器翻译 对数模型 自然语言处理 计算机
在线阅读 下载PDF
基于字符层马尔科夫模型的多语种识别 被引量:5
13
作者 冯冲 黄河燕 +1 位作者 陈肇雄 张亮 《计算机科学》 CSCD 北大核心 2006年第1期226-228,235,共4页
语种识别是机器翻译等多语种语言处理任务的必要预处理过程。但双字节编码语种的识别,如中文、日文等,尚未被充分研究和试验。本文采用 Markov 语言模型,提出并测试了一种有效的基于 EM 的训练算法。同时,给出了性能分析和与其他算法的... 语种识别是机器翻译等多语种语言处理任务的必要预处理过程。但双字节编码语种的识别,如中文、日文等,尚未被充分研究和试验。本文采用 Markov 语言模型,提出并测试了一种有效的基于 EM 的训练算法。同时,给出了性能分析和与其他算法的比较。 展开更多
关键词 字符层马尔科夫模型 语种识别 机器翻译 多语种 马尔科夫模型 识别 字符 MARKOV 训练算法 预处理过程
在线阅读 下载PDF
汉蒙翻译模型中的依存语法与形态信息应用研究 被引量:5
14
作者 骆凯 李淼 +2 位作者 乌达巴拉 杨攀 朱海 《中文信息学报》 CSCD 北大核心 2009年第6期98-104,共7页
该文提出将源语言句法信息和目标语言形态信息引入汉蒙机器翻译的模型构造中,以降低译文的词形错误率等问题。在源语言端,利用汉语依存句法分析器获取依存树,将依存句法信息以标注形式记在每个词上;在目标语言端,分析并获取蒙古语形态信... 该文提出将源语言句法信息和目标语言形态信息引入汉蒙机器翻译的模型构造中,以降低译文的词形错误率等问题。在源语言端,利用汉语依存句法分析器获取依存树,将依存句法信息以标注形式记在每个词上;在目标语言端,分析并获取蒙古语形态信息;利用LOP思想将源语言依存句法信息和目标语言形态信息引入翻译模型构造中。实验表明,其BLEU评分比传统的短语统计翻译模型有明显提高。该方法通过词、短语、句法三层面信息的结合,实现了汉蒙两种语言语法结构的平衡,特别适合于源语言形态信息贫乏而目标语言形态信息丰富的统计机器翻译系统。 展开更多
关键词 人工智能 机器翻译 依存语法 形态信息 汉蒙翻译模型 LOP-Factored模型 统计机器翻译
在线阅读 下载PDF
手语计算30年:回顾与展望 被引量:7
15
作者 姚登峰 江铭虎 +2 位作者 鲍泓 李晗静 阿布都克力木.阿布力孜 《计算机学报》 EI CSCD 北大核心 2019年第1期111-135,共25页
手语的自然语言处理是计算机学科中的一项重要任务.目前随着信息技术的飞速发展,以文本和语音为主要载体的传统语言计算的工作重点已从编码、输入方法和字音的研究逐渐转移到语法层面,并进入深度计算的阶段.然而手语信息处理却严重滞后... 手语的自然语言处理是计算机学科中的一项重要任务.目前随着信息技术的飞速发展,以文本和语音为主要载体的传统语言计算的工作重点已从编码、输入方法和字音的研究逐渐转移到语法层面,并进入深度计算的阶段.然而手语信息处理却严重滞后,处于空白起步阶段.究其原因,主要是缺乏用于机器学习的具有一定规模的手语语料库资源,同时传统的语言计算技术也存在不足,这些都阻碍了手语机器翻译、手语问答系统、手语信息检索等信息处理的应用研究.该文首先阐述了手语计算与传统语言计算的本质差异在于空间建模,这种差异导致了前者核心任务是单信道与多信道转换,后者根本任务是消歧.从词法、句法、语义、语用、应用等层面对手语计算进行了回顾,重点介绍了手语机器翻译和分类词谓语计算,指出分类词谓语是手语计算的关键以及取得突破的切入点.从展望的角度,认为互联网时代体感设备的出现、认知神经科学的兴起、深度学习的进展等新技术为手语计算带来了新的机遇.将手语计算与传统语言计算进行比较,分析了手语计算的趋势和未来的研究方向,手语的认知计算是从手势的物理特征到语义表征的映射转换过程,其计算趋势是填补音韵特征、语义单元这样的中间步骤,避免直接从底层特征得到语义概念,关注在手语行为与语言特征的关系上进行机器学习,建立融合空间特征的统计学习模型.未来研究方向包括资源建设、文景转换、隐喻理解,其中文景转换有助于实现空间信息抽取,即物体的空间方向、位置等信息,结合知识库消除自然语言的模糊性,进而实现三维场景构建.指出手语计算正从萌芽期过渡到发展期,若取得重大突破,手语计算将扩展语言计算体系,推动人工智能的发展. 展开更多
关键词 手语计算 分类词谓语 机器翻译 空间建模 多信道 空间隐喻
在线阅读 下载PDF
基于统计分析的蒙汉自然语言的机器翻译 被引量:4
16
作者 苏依拉 乌尼尔 刘婉婉 《北京工业大学学报》 CAS CSCD 北大核心 2017年第1期36-42,共7页
为改变内蒙古地区蒙汉机器翻译发展相对落后的现状,采用基于统计的机器翻译方法将短语作为翻译的最基本单元,并基于最大熵模型提出了一种分词方法和词对齐方法,通过调序结果来输出译文.实验结果表明:改进后的翻译系统BLEU值在一定程度... 为改变内蒙古地区蒙汉机器翻译发展相对落后的现状,采用基于统计的机器翻译方法将短语作为翻译的最基本单元,并基于最大熵模型提出了一种分词方法和词对齐方法,通过调序结果来输出译文.实验结果表明:改进后的翻译系统BLEU值在一定程度上有所提高,所提方法可为蒙汉应用研究提供参考. 展开更多
关键词 自然语言 蒙汉翻译 统计机器翻译 最大熵模型 短语
在线阅读 下载PDF
泛化语言模型在汉维机器翻译中的应用 被引量:4
17
作者 李响 南江 +2 位作者 杨雅婷 周喜 米成刚 《计算机应用研究》 CSCD 北大核心 2014年第10期2994-2997,共4页
针对汉维统计机器翻译中维吾尔语具有长距离依赖问题和语言模型具有数据稀疏现象,提出了一种基于泛化的维吾尔语语言模型。该模型借助维吾尔语语言模型的训练过程中生成的文本,结合字符串相似度算法,取相似的维文字符串经过归一化处理... 针对汉维统计机器翻译中维吾尔语具有长距离依赖问题和语言模型具有数据稀疏现象,提出了一种基于泛化的维吾尔语语言模型。该模型借助维吾尔语语言模型的训练过程中生成的文本,结合字符串相似度算法,取相似的维文字符串经过归一化处理抽取规则,计算规则的参数值,利用规则给测试集在解码过程中生成nbest译文重新评分,将评分最高的译文作为最佳译文。实验结果表明,泛化语言模型减少了存储空间,同时,规则的合理使用有效地提高了翻译译文的质量。 展开更多
关键词 汉维机器翻译 泛化语言模型 字符串相似度算法 归一化处理 规则 译文评分
在线阅读 下载PDF
基于神经网络特征的句子级别译文质量估计 被引量:15
18
作者 陈志明 李茂西 王明文 《计算机研究与发展》 EI CSCD 北大核心 2017年第8期1804-1812,共9页
机器翻译质量估计是自然语言处理中的一个重要任务,与传统的机器翻译自动评价方法不同,译文质量估计方法评估机器译文的质量不使用人工参考译文.针对目前句子级别机器译文质量估计特征提取严重依赖语言学分析导致泛化能力不足,并且制约... 机器翻译质量估计是自然语言处理中的一个重要任务,与传统的机器翻译自动评价方法不同,译文质量估计方法评估机器译文的质量不使用人工参考译文.针对目前句子级别机器译文质量估计特征提取严重依赖语言学分析导致泛化能力不足,并且制约着后续支持向量回归算法的性能,提出了利用深度学习中上下文单词预测模型和矩阵分解模型提取句子向量特征,并将其与递归神经网络语言模型特征相结合来提高译文质量自动估计与人工评价的相关性.在WMT15和WMT16译文质量估计子任务数据集上的实验结果表明:利用上下文单词预测模型提取句子向量特征的方法性能统计一致地优于传统的QuEst方法和连续空间语言模型句子向量特征提取方法,这揭示了提出的特征提取方法不仅不需要语言学分析,而且显著地提高了译文质量估计的效果. 展开更多
关键词 机器翻译质量估计 句子级别 词向量 递归神经网络语言模型 支持向量回归
在线阅读 下载PDF
面向中间语义表示格式的汉语口语解析方法 被引量:7
19
作者 解国栋 宗成庆 徐波 《中文信息学报》 CSCD 北大核心 2003年第1期1-6,共6页
口语解析在人机对话系统和口语翻译系统中的作用是十分关键的。本文提出了一种统计和规则相结合的汉语口语解析方法 ,解析结果是一种中间语义表示格式。该方法分为两个阶段。首先 ,采用统计方法 ,解析出输入句子的语义信息 ,然后 ,利用... 口语解析在人机对话系统和口语翻译系统中的作用是十分关键的。本文提出了一种统计和规则相结合的汉语口语解析方法 ,解析结果是一种中间语义表示格式。该方法分为两个阶段。首先 ,采用统计方法 ,解析出输入句子的语义信息 ,然后 ,利用规则 ,将这些语义信息映射到中间语义表示格式。试验证明 ,此方法具有较强的鲁棒性 ,而且避免了完全用规则方法解析的一些弊端 ,达到较高的解析正确率。 展开更多
关键词 汉语 人工智能 机器翻译 口语解析 中间语义表示格式
在线阅读 下载PDF
基于树到串模型强化的层次短语机器翻译解码方法 被引量:5
20
作者 肖桐 朱靖波 《计算机学报》 EI CSCD 北大核心 2016年第4期808-821,共14页
文中研究了利用树到串模型对层次短语模型进行强化的统计机器翻译解码方法.其基本框架是把层次短语模型作为基础模型,而把树到串模型作为层次短语模型的补充,增加翻译推导空间大小.文中重点研究了在该框架下的统计机器翻译解码技术,并... 文中研究了利用树到串模型对层次短语模型进行强化的统计机器翻译解码方法.其基本框架是把层次短语模型作为基础模型,而把树到串模型作为层次短语模型的补充,增加翻译推导空间大小.文中重点研究了在该框架下的统计机器翻译解码技术,并提出了多种解码策略,包括基于树的精确解码策略、基于树的模糊解码策略和基于串的解码策略.通过NIST汉英翻译任务上的实验结果显示,文中所研究的方法可以十分有效地提升基线层次短语系统的翻译性能,比如在newswire和web数据上分别提高了1.3和1.2个BLEU点.此外,文中分析了若干影响翻译性能的因素,并给出了对比实验结果. 展开更多
关键词 统计机器翻译 层次短语模型 树到串模型 规则抽取 解码 社会媒体 社交网络 自然语言处理 机器翻译
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部