-
题名编码器-解码器模型合成汉英语码转换文本
被引量:1
- 1
-
-
作者
黄哲莹
刘作桢
徐及
赵庆卫
-
机构
中国科学院大学
中国科学院声学研究所语音与智能信息处理实验室
-
出处
《信号处理》
CSCD
北大核心
2022年第10期2074-2081,共8页
-
基金
国家自然科学基金(61901466)。
-
文摘
为了解决汉英语码转换文本数据稀缺的问题,本文提出了基于编码器-解码器模型合成语码转换文本的方法,从有限的语码转换文本与大量单语种平行语料中学习语码转换语言学规则与语种内部的语言学规则,来合成语码转换文本。但是该模型合成的语码转换文本自然度低,因此本文又提出基于带复制机制的编码器-解码器模型合成语码转换文本的方法,在编码器-解码器的基础上,增加了一个门控,用来决定从编码器的预测结果还是从编码器的输入源文本中产生下一个词。最终,该方法使语言模型在SEAME测试集上的困惑度降低了绝对13.96。由此可得出结论,本文提出的方法可大规模地合成自然度高的语码转换文本,缓解语码转换文本数据的稀缺性。
-
关键词
语码转换
编码器-解码器
合成文本
语言模型
语音识别
-
Keywords
code-switching
encoder-decoder
synthetic text
language model
speech recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-