期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于多级信息嵌入的中文语声转换模型
1
作者 张国富 张朋 +1 位作者 苏兆品 岳峰 《应用声学》 2025年第5期1263-1278,共16页
现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,... 现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,从目标语声中提取音色表示;其次,利用自相关函数方法分别从目标语声和源语声中提取韵律信息,并进行归一化融合;最后,设计基于多级信息嵌入策略的生成器HiFi-GAN++,在匹配后的自监督特征基础上,将音色信息和韵律信息在多层循环中逐步嵌入并生成语声。在Thchs-30、Aishell-1以及Aishell-3三种主流中文数据集的对比实验结果表明,所提模型在字错误率和说话人嵌入余弦相似度上较对比基线模型表现更优。该文模型不仅能够生成更接近真实语声质量的中文转换语声,而且对短语声和情感语声转换场景也具有良好的适应性,具有更广泛的应用前景。 展开更多
关键词 中文语声转换 多级信息嵌入 音色 韵律 生成器HiFi-GAN++
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部