期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
融合大语言模型和预训练模型的少量语料说话人-情感语音转换方法 被引量:1
1
作者 鲁超峰 陶冶 +4 位作者 文连庆 孟菲 秦修功 杜永杰 田云龙 《计算机应用》 北大核心 2025年第3期815-822,共8页
针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先... 针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先,使用大语言模型生成带有所需情感标签的文本;其次,使用目标说话人语料微调预训练情感语音合成模型以嵌入目标说话人;然后,将生成的文本合成情感语音,以达到数据增强的目的;再次,使用合成语音与源目标语音共同训练说话人-情感语音转换模型;最后,为了进一步提升转换语音的说话人相似度和情感相似度,使用源目标说话人情感语音微调模型。在公共语料库和一个中文小说语料库上的实验结果表明,综合考虑评价指标情感相似度平均得分(EMOS)、说话人相似度平均意见得分(SMOS)、梅尔倒谱失真(MCD)和词错误率(WER)时,所提方法优于CycleGAN-EVC、Seq2Seq-EVC-WA2和SMAL-ET2等方法。 展开更多
关键词 少量语料 说话人-情感语音转换 大语言模型 预训练情感语音合成模型 微调
在线阅读 下载PDF
维吾尔语情感语音韵律转换研究 被引量:2
2
作者 杜楠楠 赵晖 《计算机工程与应用》 CSCD 北大核心 2016年第19期154-160,共7页
面向维吾尔语情感语音转换,提出一种韵律建模转换方法。该方法结合了维吾尔语韵律特点及语言特点,首次利用离散余弦变换(DCT)分别参数化维吾尔语音节和韵律短语的情感基频。采用高斯混合模型(GMM)训练中性-情感基频联合特征,同时合成中... 面向维吾尔语情感语音转换,提出一种韵律建模转换方法。该方法结合了维吾尔语韵律特点及语言特点,首次利用离散余弦变换(DCT)分别参数化维吾尔语音节和韵律短语的情感基频。采用高斯混合模型(GMM)训练中性-情感基频联合特征,同时合成中性语速情感语音和情感语速情感语音,主观评测结果显示情感语速更有助于表达情感效果。主客观实验结果显示转换方法可有效进行维吾尔语情感韵律转换,三种情感下,音节和韵律短语的结果均达到75%以上,韵律短语的转换效果要稍优于音节。 展开更多
关键词 基频 情感语音转换 离散余弦变换 高斯混合模型 音节 韵律短语
在线阅读 下载PDF
基于非负矩阵分解的情感语音基频转换研究 被引量:1
3
作者 邓叶勋 赵晖 《计算机工程》 CAS CSCD 北大核心 2018年第5期256-261,共6页
为解决情感语音基频转换过程中基频建模的间断性问题,提高生成语音的情感自然度,利用非负矩阵分解(NMF)技术,提出带有参数控制的情感语音基频转换方法。选择连续小波变换参数化基频并对语音韵律结构中的各层级进行独立建模,采用NMF将基... 为解决情感语音基频转换过程中基频建模的间断性问题,提高生成语音的情感自然度,利用非负矩阵分解(NMF)技术,提出带有参数控制的情感语音基频转换方法。选择连续小波变换参数化基频并对语音韵律结构中的各层级进行独立建模,采用NMF将基频特征数据分解为基范例及其对应的权重,将目标基范例替换待转换语音基范例并重建目标语音基频。此外,引入激活度调整因子作为参数控制对现有模型进行优化。实验结果表明,在小数据库语料中,该方法在基频重建误差与情感力度方面都显示出优势,且能够有效地将中性语音转换为情感语音。 展开更多
关键词 情感语音转换 连续小波变换 非负矩阵分解 基频转换 韵律层级
在线阅读 下载PDF
基于多领域条件生成的语音情感转换 被引量:1
4
作者 姚文翰 柯登峰 +3 位作者 黄良杰 胡睿欣 项敏特 张劲松 《郑州大学学报(理学版)》 CAS 北大核心 2023年第5期67-72,共6页
语音情感转换是在不改变话者声纹、语义的情况下,将一种情感语音转换成另一种情感语音的技术,本质是实现语音的风格迁移。主流的风格迁移技术有对抗生成技术(如CycleGAN,StarGAN)和实例规一化技术(如IN,CIN)。CIN相对于IN添加了均值方... 语音情感转换是在不改变话者声纹、语义的情况下,将一种情感语音转换成另一种情感语音的技术,本质是实现语音的风格迁移。主流的风格迁移技术有对抗生成技术(如CycleGAN,StarGAN)和实例规一化技术(如IN,CIN)。CIN相对于IN添加了均值方差选择性模块,具有更强的风格迁移能力。提出了将StarGAN和CIN结合的语音情感转换模型CIN-StarGAN,将CIN模块嵌入到StarGAN生成器。在ESD数据集上的实验结果表明,CINStarGAN比基于CycleGAN的情感转换模型收敛速度快28%,具有较好的风格转换能力。在多领域情感转换方法上具有潜在研究价值。 展开更多
关键词 语音情感转换 转换 条件实例归一化 生成对抗网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部