-
题名短时傅里叶逆变换的苗语语声合成方法
- 1
-
-
作者
蔡姗
王林
郭胜
邹雪
吴磊
-
机构
贵州民族大学数据科学与信息工程学院
贵州省模式识别与智能系统重点实验室
-
出处
《应用声学》
北大核心
2025年第2期339-349,共11页
-
基金
贵州省科技计划项目(黔科合基础-ZK[2023]一般143)
贵州省教育厅自然科学研究项目(黔教技[2023]061号,黔教技[2023]012号)
贵州省科技厅众创空间项目《黔民筑梦众创空间》(黔科合平台人才ZCKJ[2021]007)。
-
文摘
少数民族语言的语声合成研究作为语声合成研究的一个重要方向,在人机交互领域备受关注。针对现有两阶段语声合成模型复杂度高、演算速度慢的问题,提出一种基于短时傅里叶逆变换的苗语语声合成方法。该方法根据语声特征提取的过程,减少过采样卷积的使用,以降低模型的复杂度,同时结合短时傅里叶逆变换进行语声波形相位和幅度谱的重建,实现从频域到时域的快速转换。此外,文中采用残差编码器对文本进行特征提取,以保留更多的输入文本信息。为了验证所提方法的有效性,以自建苗语语声语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的两阶段和单阶段模型进行对比分析。实验结果表明,所提方法在没有降低合成语声质量的同时提高了45倍的演算速度,且实时因子为0.01,满足实时应用要求;同时具有较强的鲁棒性,合成的词错误率仅为1.02%。
-
关键词
苗语语声合成
短时傅里叶逆变换
演算速度
残差编码器
-
Keywords
Hmong language speech synthesis
Inverse short-time Fourier transform
Inference speed
Residual encoder
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-