期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于先验梅尔谱和神经声码器的语音丢包隐藏方法
1
作者 黄晋维 鲍长春 周静 《电子学报》 EI CAS CSCD 北大核心 2024年第8期2581-2590,共10页
对基于神经网络的丢包隐藏方法而言,输入特征是直接影响最终恢复效果的重要因素.此外,如何通过丢包隐藏恢复高自然度的语音,也是亟待解决的难题.为有效恢复丢包语音并提高自然度,本文提出了一种基于先验梅尔谱和神经声码器的语音丢包隐... 对基于神经网络的丢包隐藏方法而言,输入特征是直接影响最终恢复效果的重要因素.此外,如何通过丢包隐藏恢复高自然度的语音,也是亟待解决的难题.为有效恢复丢包语音并提高自然度,本文提出了一种基于先验梅尔谱和神经声码器的语音丢包隐藏方法.该方法采用一种非对称的编解码网络结构.在编码端,用两个独立的编码网络分别从时域波形和梅尔谱中提取深层时频特征.在解码端,将时频深层特征一同送入由时序自适应反归一化层构成的声码器中,以恢复丢失的语音信号并提高自然度.仿真实验表明,该方法在语音感知质量和短时客观可懂度上均优于现有的两种丢包隐藏算法. 展开更多
关键词 丢包隐藏 先验梅尔谱 神经声码器 时序自适应反归一化层 时频特征
在线阅读 下载PDF
MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型 被引量:6
2
作者 刘瑞 康世胤 +2 位作者 高光来 李劲东 飞龙 《中文信息学报》 CSCD 北大核心 2022年第7期86-97,共12页
针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自... 针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进:①使用蒙古文音素序列来表征蒙古文发音信息;②提出音素级的声学调节器以学习长时韵律变化;③提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法。同时,该文构建了一个当前最大规模的蒙古语语音合成数据库:MonSpeech。实验结果表明,MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score,MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonTTS合成实时率达3.63×10^(-3),满足实时高保真合成要求。最后,文中涉及的训练脚本和预训练模型全部开源(https://github.com/ttslr/MonTTS)。 展开更多
关键词 蒙古语语音合成 非自回归声学建模 非自回归神经声码器 实时 高保真
在线阅读 下载PDF
神经网络声码器的话者无关与自适应训练方法研究 被引量:2
3
作者 伍宏传 凌震华 《小型微型计算机系统》 CSCD 北大核心 2019年第2期445-450,共6页
近年来出现的基于WaveNet的神经网络声码器可以取得较高的重构语音质量,但其采用的话者相关模型训练方法对于目标发音人语音数据量依赖较大.因此,本文研究目标发音人语音数据量受限情况下的神经网络声码器训练方法.首先利用多发音人数... 近年来出现的基于WaveNet的神经网络声码器可以取得较高的重构语音质量,但其采用的话者相关模型训练方法对于目标发音人语音数据量依赖较大.因此,本文研究目标发音人语音数据量受限情况下的神经网络声码器训练方法.首先利用多发音人数据训练话者无关声码器模型,进一步利用少量目标发音人数据对话者无关模型进行自适应更新,以得到目标发音人的神经网络声码器模型.本文实验对比了自适应训练中局部更新与全局更新两种策略,以及自适应与话者相关两种训练方法.实验表明,本文方法构建的神经网络声码器可以取得优于STRAIGHT声码器的重构语音质量,在目标发音人数据量受限的情况下,该方法相对话者相关训练也可以取得更好的客观和主观性能表现. 展开更多
关键词 神经网络 WaveNet 声码器 话者无关模型 自适应训练
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部