-
题名完全端到端的藏语安多方言语声合成
- 1
-
-
作者
张维昭
李俊帜
-
机构
西北师范大学物理与电子工程学院
-
出处
《应用声学》
北大核心
2025年第5期1251-1262,共12页
-
基金
国家自然科学基金项目(62067008,62267008)
甘肃省高等学校创新基金项目(2022B-091)
西北师范大学青年教师科研能力提升计划项目(NWNU-LKQN2024-11)。
-
文摘
目前藏语语声合成研究多面向卫藏方言,而对安多和康方言研究相对较少。在分析藏文特点的基础上,该文首先设计并构建一个大规模标准安多方言语声合成语料库(TACSS),总时长为18.6 h。然后,设计了基于计算机可识别机读音标的SAMPA-AT和基于藏文构件的两种字素到音素(G2P)转写方案。最后,采用完全端到端语声合成模型VITS,实现了藏语安多方言的语声合成。与此同时,该文还比较了基于SAMPA-AT和基于藏文构件的两种G2P转写方案的优劣。实验结果表明,与两阶段语声合成模型相比,VITS在藏语安多方言语声合成任务上具有更好的表现。通过采用基于藏文构件的转写方案,该文提出的完全端到端藏语安多方言语声合成模型平均意见得分最优值为4.59。
-
关键词
语声合成
藏语安多方言
端到端
语料库
藏文文本转写
-
Keywords
Speech synthesis
Tibetan Amdo dialect
End-to-end
Corpus
Tibetan text transcription
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-