期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于预训练模型的多音字消歧方法
1
作者 高贝贝 张仰森 《计算机科学》 CSCD 北大核心 2024年第11期273-279,共7页
字音转换是中文语音合成系统(Text-To-Speech,TTS)的重要组成部分,其核心问题是多音字消歧,即在若干候选读音中为多音字选择一个正确的发音。现有的方法通常无法充分理解多音字所在词语的语义,且多音字数据集存在分布不均衡的问题。针... 字音转换是中文语音合成系统(Text-To-Speech,TTS)的重要组成部分,其核心问题是多音字消歧,即在若干候选读音中为多音字选择一个正确的发音。现有的方法通常无法充分理解多音字所在词语的语义,且多音字数据集存在分布不均衡的问题。针对以上问题,提出了一种基于预训练模型RoBERTa的多音字消歧方法CLTRoBERTa(Cross-lingual Translation RoBERTa)。首先联合跨语言互译模块获得多音字所在词语的另一种语言翻译,并将其作为额外特征输入模型以提升对词语的语义理解,然后使用判别微调中的层级学习率优化策略来适应神经网络不同层之间的学习特性,最后结合样本权重模块以解决多音字数据集的分布不均衡问题。CTLRoBERTa平衡了数据集的不均衡分布带来的性能差异,并且在CPP(Chinese Polyphone with Pinyin)基准数据集上取得了99.08%的正确率,性能优于其他基线模型。 展开更多
关键词 多音字消歧 预训练模型 字音转换 跨语言互译 层级学习率 样本权重
在线阅读 下载PDF
基于树到串模型强化的层次短语机器翻译解码方法 被引量:5
2
作者 肖桐 朱靖波 《计算机学报》 EI CSCD 北大核心 2016年第4期808-821,共14页
文中研究了利用树到串模型对层次短语模型进行强化的统计机器翻译解码方法.其基本框架是把层次短语模型作为基础模型,而把树到串模型作为层次短语模型的补充,增加翻译推导空间大小.文中重点研究了在该框架下的统计机器翻译解码技术,并... 文中研究了利用树到串模型对层次短语模型进行强化的统计机器翻译解码方法.其基本框架是把层次短语模型作为基础模型,而把树到串模型作为层次短语模型的补充,增加翻译推导空间大小.文中重点研究了在该框架下的统计机器翻译解码技术,并提出了多种解码策略,包括基于树的精确解码策略、基于树的模糊解码策略和基于串的解码策略.通过NIST汉英翻译任务上的实验结果显示,文中所研究的方法可以十分有效地提升基线层次短语系统的翻译性能,比如在newswire和web数据上分别提高了1.3和1.2个BLEU点.此外,文中分析了若干影响翻译性能的因素,并给出了对比实验结果. 展开更多
关键词 统计机器翻译 层次短语模型 树到串模型 规则抽取 解码 社会媒体 社交网络 自然语言处理 机器翻译
在线阅读 下载PDF
基于分布内存的层次短语机器翻译并行化算法 被引量:3
3
作者 赵博 黄书剑 +2 位作者 戴新宇 袁春风 黄宜华 《计算机研究与发展》 EI CSCD 北大核心 2014年第12期2724-2732,共9页
近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联... 近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联机翻译时更为突出.为了克服单机机器翻译算法在这方面的局限性,提高大规模统计机器翻译处理的计算性能,面向一个实际的联机翻译系统,提出了一个分布式和并行化翻译解码算法框架,对整个大规模语言模型和翻译模型同时采用分布式存储和并行化查询机制,在此基础上进一步研究实现完整的翻译解码并行化算法.研究实现了一个基于分布式内存数据库的层次短语并行化机器翻译解码器,该解码器使用分布式内存数据库存储和查询大数据量的翻译模型表和语言模型表,克服了传统的机器翻译系统所面临的内存容量和并发度方面的限制.为了进一步提高并行解码速度,还研究实现了另外3项优化技术:1)将翻译模型表的同步规则和Trie树结构的语言模型表转化为基于内存数据库的"键-值"结构的Hash索引表的方法;2)对Cube-Pruning算法进行了修改使其适用于批量查询;3)采用并优化了批量查询方式减少语言和翻译模型查询时的网络传输开销.所提出的解码算法实现了基于大规模语料统计机器翻译时的快速解码,并具备优异的系统可扩展性.实验结果表明:与单机解码器相比,单句翻译速度可提高2.7倍,批量翻译作业的总体解码性能可提高至少11.7倍,实现了显著的计算性能提升. 展开更多
关键词 统计机器翻译 层次短语 语言模型 翻译模型 并行化解码 分布内存
在线阅读 下载PDF
维吾尔语词尾对汉维统计机器翻译影响的研究 被引量:8
4
作者 米莉万.雪合来提 麦热哈巴.艾力 +1 位作者 吐尔根.依布拉音 姜文斌 《计算机工程》 CAS CSCD 2014年第3期224-227,共4页
维吾尔语属于阿尔泰语系,是典型的黏着语,构形词尾在维吾尔语中占很重要的地位,这与汉语差别很大。针对维吾尔语的形态特点,分析汉维统计机器翻译中维吾尔语构形词尾的作用,利用Cherio搭建一个基于层次短语的汉维统计机器翻译系统。使... 维吾尔语属于阿尔泰语系,是典型的黏着语,构形词尾在维吾尔语中占很重要的地位,这与汉语差别很大。针对维吾尔语的形态特点,分析汉维统计机器翻译中维吾尔语构形词尾的作用,利用Cherio搭建一个基于层次短语的汉维统计机器翻译系统。使用词级粒度、词干级粒度、词干词尾级粒度的汉维平行语料进行对比实验,探讨不同粒度对汉维统计机器翻译系统的影响。实验结果表明,该汉维统计机器翻译系统可以提高汉维统计翻译的质量,BLEU值达到0.1972。 展开更多
关键词 黏着语 词尾 统计机器翻译 层次短语翻译模型 语言模型
在线阅读 下载PDF
基于句法规则层次化分析的神经机器翻译 被引量:9
5
作者 张海玲 邵玉斌 +2 位作者 杨丹 龙华 杜庆治 《小型微型计算机系统》 CSCD 北大核心 2021年第11期2300-2306,共7页
神经机器翻译是人工智能和自然语言处理领域中的一个非常重要的研究方向,而句法分析在信息处理中起着承上启下的作用,在翻译过程中融入句法层面的语言学知识,对于推动机器翻译的发展具有重要的理论意义和应用价值.针对句式结构复杂的长... 神经机器翻译是人工智能和自然语言处理领域中的一个非常重要的研究方向,而句法分析在信息处理中起着承上启下的作用,在翻译过程中融入句法层面的语言学知识,对于推动机器翻译的发展具有重要的理论意义和应用价值.针对句式结构复杂的长句翻译效果不佳的问题,本文提出了一种句法规则层次化分析方法,识别并提取出最长短语和句子框架部分,再采用分而治之的策略,训练基于自注意力机制的Transformer模型,对短语和框架分别翻译再组合,得到最终译文.在中-英翻译任务上,实验结果表明,与基准系统相比,该方法能显著提高翻译性能,译文BLEU值获得了0.95个点的提升. 展开更多
关键词 神经机器翻译 句法层次化分析 最长短语 Transformer模型
在线阅读 下载PDF
基于强制对齐的层次短语模型过滤和优化 被引量:1
6
作者 付晓寅 魏玮 +1 位作者 卢世祥 徐波 《中文信息学报》 CSCD 北大核心 2013年第6期134-138,150,共6页
该文提出一种层次短语模型过滤和优化方法.该方法在采用传统方法训练得到层次短语规则的基础上,通过强制对齐同时构建源语言和目标语言的解析树,从中过滤并抽取对齐的层次短语规则,最后利用这些规则重新估计翻译模型的翻译概率.该方法... 该文提出一种层次短语模型过滤和优化方法.该方法在采用传统方法训练得到层次短语规则的基础上,通过强制对齐同时构建源语言和目标语言的解析树,从中过滤并抽取对齐的层次短语规则,最后利用这些规则重新估计翻译模型的翻译概率.该方法不需要引入任何语言学知识,适合大规模语料训练模型.在大规模中英翻译评测任务中,采用该方法训练的模型与传统层次短语模型相比,不仅能够过滤50%左右规则,同时获得0.8~1.2BLEU值的提高. 展开更多
关键词 统计机器翻译 层次短语 强制对齐 模型训练
在线阅读 下载PDF
层次短语翻译中基于Markov随机场的层次切分模型
7
作者 刘乐茂 赵铁军 +2 位作者 曹海龙 朱聪慧 张春越 《软件学报》 EI CSCD 北大核心 2012年第12期3088-3100,共13页
翻译推导的切分歧义是统计机器翻译面临的一个很重要的问题,而在层次短语机器翻译中,其尤为突出.提出了一个层次切分模型来处理推导的切分歧义性.采用Markov随机场构建模型,然后将其融入层次短语翻译模型,以便自动选择更合理的切分.在N... 翻译推导的切分歧义是统计机器翻译面临的一个很重要的问题,而在层次短语机器翻译中,其尤为突出.提出了一个层次切分模型来处理推导的切分歧义性.采用Markov随机场构建模型,然后将其融入层次短语翻译模型,以便自动选择更合理的切分.在NIST中英翻译的任务中,该模型的训练效率高,通过NIST05,NIST06和NIST08这3个测试集上的翻译效果表明,该模型提高了层次短语翻译的性能. 展开更多
关键词 层次短语翻译 切分模型 图模型 MARKOV随机场 依存树
在线阅读 下载PDF
利用依存限制抽取长距离调序规则
8
作者 涂兆鹏 刘群 林守勋 《中文信息学报》 CSCD 北大核心 2011年第2期55-60,共6页
长距离调序是统计机器翻译领域的一个重要问题。层次短语模型提供了一个很好的解决方案,它使用层次短语规则可以很好地表示局部调序和长距离调序。但是,使用传统的算法抽取长距离层次规则将会导致规则表数量急剧增加,从而加大解码内存... 长距离调序是统计机器翻译领域的一个重要问题。层次短语模型提供了一个很好的解决方案,它使用层次短语规则可以很好地表示局部调序和长距离调序。但是,使用传统的算法抽取长距离层次规则将会导致规则表数量急剧增加,从而加大解码内存和时间消耗。为了解决这个问题,该文提出了一种利用依存限制抽取长距离调序规则的新方法。实验表明,该文的方法可以比基准系统高出0.74个BLEU点。 展开更多
关键词 统计机器翻译 层次短语模型 长距离调序 依存限制
在线阅读 下载PDF
基于HNC理论的社区问答系统问句检索模型构建 被引量:4
9
作者 夏远远 王宇 《计算机应用与软件》 北大核心 2018年第8期98-101,169,共5页
社区问答系统作为一种知识组织形式,在其基础上的问句检索可以帮助用户快速地从海量问答资源中找到问题的答案,同时避免用户重复提交已解决的问题造成系统冗余。考虑到翻译模型容易受翻译概率准确性的影响,在翻译噪声严重的情况下无法... 社区问答系统作为一种知识组织形式,在其基础上的问句检索可以帮助用户快速地从海量问答资源中找到问题的答案,同时避免用户重复提交已解决的问题造成系统冗余。考虑到翻译模型容易受翻译概率准确性的影响,在翻译噪声严重的情况下无法准确获取词汇语义信息。利用社区问答系统中问题的标记信息,构建高质量的训练语料集,同时在翻译模型基础上结合概念层次网络(HNC)理论的词语语义知识,提出了一种新的基于HNC语义修正的问句检索模型。在真实的数据集上的实验结果表明,HNC理论词语语义知识的对翻译概率准确性的修正有了显著效果,同时提出的问句检索模型可以很好地识别问答系统中相似的问句对,在检索结果上优于当前使用最广泛的模型。 展开更多
关键词 社区问答 问句检索 概念层次网络(HNC)理论 翻译模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部