-
题名基于跨语言迁移学习及联合训练的泰语语音合成
- 1
-
-
作者
张欣瑞
杨鉴
王展
-
机构
云南大学信息学院
-
出处
《计算机科学》
CSCD
北大核心
2024年第S01期298-304,共7页
-
基金
国家重点研发计划(2020AAA0107901)
国家自然科学基金(61961043)。
-
文摘
随着深度学习和神经网络的快速发展,基于深度神经网络的端到端语音合成系统因性能优异成为主流。然而近年来,泰语语音合成相关研究还不充分,主要原因是大规模泰语数据集稀缺且该语言拼写方式有其特殊性。为此,在低资源前提下基于FastSpeech2声学模型和StyleMelGAN声码器研究泰语语音合成。针对基线系统中存在的问题,提出了3个改进方法以进一步提高泰语合成语音的质量。(1)在泰语语言专家指导下,结合泰语语言学相关知识设计泰语G2P模型,旨在处理泰语文本中存在的特殊拼写方式;(2)根据所设计的泰语G2P模型转换的国际音标表示的音素,选择拥有相似音素输入单元且数据集丰富的语言进行跨语言迁移学习来解决泰语训练数据不足的问题;(3)采用FastSpeech2和StyleMelGAN声码器联合训练的方法解决声学特征失配的问题。为了验证所提方法的有效性,从注意力对齐图、客观评测MCD和主观评测MOS评分3方面进行测评。实验结果表明,使用所提泰语G2P模型可以获得更好的对齐效果进而得到更准确的音素持续时间,采用“所提泰语G2P模型+联合训练+迁移学习”方法的系统可以获得最好的语音合成质量,合成语音的MCD和MOS评分分别为7.43±0.82分和4.53分,明显优于基线系统的9.47±0.54分和1.14分。
-
关键词
语音合成
低资源
泰语g2p模型
迁移学习
联合训练
-
Keywords
Speech synthesis
Low resource
Thai g2p model
Transfer learning
Joint training
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-