期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
短时傅里叶逆变换的苗语语声合成方法
1
作者 蔡姗 王林 +2 位作者 郭胜 邹雪 吴磊 《应用声学》 北大核心 2025年第2期339-349,共11页
少数民族语言的语声合成研究作为语声合成研究的一个重要方向,在人机交互领域备受关注。针对现有两阶段语声合成模型复杂度高、演算速度慢的问题,提出一种基于短时傅里叶逆变换的苗语语声合成方法。该方法根据语声特征提取的过程,减少... 少数民族语言的语声合成研究作为语声合成研究的一个重要方向,在人机交互领域备受关注。针对现有两阶段语声合成模型复杂度高、演算速度慢的问题,提出一种基于短时傅里叶逆变换的苗语语声合成方法。该方法根据语声特征提取的过程,减少过采样卷积的使用,以降低模型的复杂度,同时结合短时傅里叶逆变换进行语声波形相位和幅度谱的重建,实现从频域到时域的快速转换。此外,文中采用残差编码器对文本进行特征提取,以保留更多的输入文本信息。为了验证所提方法的有效性,以自建苗语语声语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的两阶段和单阶段模型进行对比分析。实验结果表明,所提方法在没有降低合成语声质量的同时提高了45倍的演算速度,且实时因子为0.01,满足实时应用要求;同时具有较强的鲁棒性,合成的词错误率仅为1.02%。 展开更多
关键词 苗语语声合成 短时傅里叶逆变换 演算速度 残差编码器
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部