-
题名基于多级信息嵌入的中文语声转换模型
- 1
-
-
作者
张国富
张朋
苏兆品
岳峰
-
机构
合肥工业大学计算机与信息学院
-
出处
《应用声学》
2025年第5期1263-1278,共16页
-
基金
教育部人文社会科学研究规划基金项目(24YJA870011)
安徽省重点研究与开发计划项目(202104d07020001)
安徽省自然科学基金项目(2208085MF166)。
-
文摘
现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,从目标语声中提取音色表示;其次,利用自相关函数方法分别从目标语声和源语声中提取韵律信息,并进行归一化融合;最后,设计基于多级信息嵌入策略的生成器HiFi-GAN++,在匹配后的自监督特征基础上,将音色信息和韵律信息在多层循环中逐步嵌入并生成语声。在Thchs-30、Aishell-1以及Aishell-3三种主流中文数据集的对比实验结果表明,所提模型在字错误率和说话人嵌入余弦相似度上较对比基线模型表现更优。该文模型不仅能够生成更接近真实语声质量的中文转换语声,而且对短语声和情感语声转换场景也具有良好的适应性,具有更广泛的应用前景。
-
关键词
中文语声转换
多级信息嵌入
音色
韵律
生成器HiFi-GAN++
-
Keywords
Chinese voice conversion
Multi-level information embedding
Timbre
Rhythm
A generator HiFi-GAN++
-
分类号
TN912.3
[电子电信]
-