期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
融合大语言模型和预训练模型的少量语料说话人-情感语音转换方法 被引量:1
1
作者 鲁超峰 陶冶 +4 位作者 文连庆 孟菲 秦修功 杜永杰 田云龙 《计算机应用》 北大核心 2025年第3期815-822,共8页
针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先... 针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先,使用大语言模型生成带有所需情感标签的文本;其次,使用目标说话人语料微调预训练情感语音合成模型以嵌入目标说话人;然后,将生成的文本合成情感语音,以达到数据增强的目的;再次,使用合成语音与源目标语音共同训练说话人-情感语音转换模型;最后,为了进一步提升转换语音的说话人相似度和情感相似度,使用源目标说话人情感语音微调模型。在公共语料库和一个中文小说语料库上的实验结果表明,综合考虑评价指标情感相似度平均得分(EMOS)、说话人相似度平均意见得分(SMOS)、梅尔倒谱失真(MCD)和词错误率(WER)时,所提方法优于CycleGAN-EVC、Seq2Seq-EVC-WA2和SMAL-ET2等方法。 展开更多
关键词 少量语料 说话人-情感语音转换 大语言模型 预训练情感语音合成模型 微调
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部