期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于先验梅尔谱和神经声码器的语音丢包隐藏方法
1
作者
黄晋维
鲍长春
周静
《电子学报》
EI
CAS
CSCD
北大核心
2024年第8期2581-2590,共10页
对基于神经网络的丢包隐藏方法而言,输入特征是直接影响最终恢复效果的重要因素.此外,如何通过丢包隐藏恢复高自然度的语音,也是亟待解决的难题.为有效恢复丢包语音并提高自然度,本文提出了一种基于先验梅尔谱和神经声码器的语音丢包隐...
对基于神经网络的丢包隐藏方法而言,输入特征是直接影响最终恢复效果的重要因素.此外,如何通过丢包隐藏恢复高自然度的语音,也是亟待解决的难题.为有效恢复丢包语音并提高自然度,本文提出了一种基于先验梅尔谱和神经声码器的语音丢包隐藏方法.该方法采用一种非对称的编解码网络结构.在编码端,用两个独立的编码网络分别从时域波形和梅尔谱中提取深层时频特征.在解码端,将时频深层特征一同送入由时序自适应反归一化层构成的声码器中,以恢复丢失的语音信号并提高自然度.仿真实验表明,该方法在语音感知质量和短时客观可懂度上均优于现有的两种丢包隐藏算法.
展开更多
关键词
丢包隐藏
先验梅尔谱
神经声码器
时序自适应反归一化层
时频特征
在线阅读
下载PDF
职称材料
MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型
被引量:
6
2
作者
刘瑞
康世胤
+2 位作者
高光来
李劲东
飞龙
《中文信息学报》
CSCD
北大核心
2022年第7期86-97,共12页
针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自...
针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进:①使用蒙古文音素序列来表征蒙古文发音信息;②提出音素级的声学调节器以学习长时韵律变化;③提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法。同时,该文构建了一个当前最大规模的蒙古语语音合成数据库:MonSpeech。实验结果表明,MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score,MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonTTS合成实时率达3.63×10^(-3),满足实时高保真合成要求。最后,文中涉及的训练脚本和预训练模型全部开源(https://github.com/ttslr/MonTTS)。
展开更多
关键词
蒙古语语音合成
非自回归声学建模
非自回归神经声码器
实时
高保真
在线阅读
下载PDF
职称材料
神经网络声码器的话者无关与自适应训练方法研究
被引量:
2
3
作者
伍宏传
凌震华
《小型微型计算机系统》
CSCD
北大核心
2019年第2期445-450,共6页
近年来出现的基于WaveNet的神经网络声码器可以取得较高的重构语音质量,但其采用的话者相关模型训练方法对于目标发音人语音数据量依赖较大.因此,本文研究目标发音人语音数据量受限情况下的神经网络声码器训练方法.首先利用多发音人数...
近年来出现的基于WaveNet的神经网络声码器可以取得较高的重构语音质量,但其采用的话者相关模型训练方法对于目标发音人语音数据量依赖较大.因此,本文研究目标发音人语音数据量受限情况下的神经网络声码器训练方法.首先利用多发音人数据训练话者无关声码器模型,进一步利用少量目标发音人数据对话者无关模型进行自适应更新,以得到目标发音人的神经网络声码器模型.本文实验对比了自适应训练中局部更新与全局更新两种策略,以及自适应与话者相关两种训练方法.实验表明,本文方法构建的神经网络声码器可以取得优于STRAIGHT声码器的重构语音质量,在目标发音人数据量受限的情况下,该方法相对话者相关训练也可以取得更好的客观和主观性能表现.
展开更多
关键词
神经网络
WaveNet
声码器
话者无关模型
自适应训练
在线阅读
下载PDF
职称材料
题名
基于先验梅尔谱和神经声码器的语音丢包隐藏方法
1
作者
黄晋维
鲍长春
周静
机构
北京工业大学信息学部语音与音频信息处理研究所
出处
《电子学报》
EI
CAS
CSCD
北大核心
2024年第8期2581-2590,共10页
基金
国家自然科学基金(No.61831019)。
文摘
对基于神经网络的丢包隐藏方法而言,输入特征是直接影响最终恢复效果的重要因素.此外,如何通过丢包隐藏恢复高自然度的语音,也是亟待解决的难题.为有效恢复丢包语音并提高自然度,本文提出了一种基于先验梅尔谱和神经声码器的语音丢包隐藏方法.该方法采用一种非对称的编解码网络结构.在编码端,用两个独立的编码网络分别从时域波形和梅尔谱中提取深层时频特征.在解码端,将时频深层特征一同送入由时序自适应反归一化层构成的声码器中,以恢复丢失的语音信号并提高自然度.仿真实验表明,该方法在语音感知质量和短时客观可懂度上均优于现有的两种丢包隐藏算法.
关键词
丢包隐藏
先验梅尔谱
神经声码器
时序自适应反归一化层
时频特征
Keywords
packet loss concealment
Mel-spectrum
neural
vocoder
temporal adaptive de-normalization layer
timefrequency features
分类号
TN912 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型
被引量:
6
2
作者
刘瑞
康世胤
高光来
李劲东
飞龙
机构
内蒙古大学计算机学院
虎牙科技有限公司
搜狗科技发展有限公司
出处
《中文信息学报》
CSCD
北大核心
2022年第7期86-97,共12页
基金
内蒙古大学“骏马计划”高层次人才引进项目(100000-22311201/002)
国家重点研发计划项目(2018YFE0122900)
+3 种基金
国家自然科学基金(61773224,62066033)
内蒙古自然科学基金(2018MS06006)
内蒙古自治区成果转化项目(CGZH2018125)
内蒙古自治区应用技术研究与开发资金项目(2019GG372,2020GG0046)。
文摘
针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进:①使用蒙古文音素序列来表征蒙古文发音信息;②提出音素级的声学调节器以学习长时韵律变化;③提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法。同时,该文构建了一个当前最大规模的蒙古语语音合成数据库:MonSpeech。实验结果表明,MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score,MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonTTS合成实时率达3.63×10^(-3),满足实时高保真合成要求。最后,文中涉及的训练脚本和预训练模型全部开源(https://github.com/ttslr/MonTTS)。
关键词
蒙古语语音合成
非自回归声学建模
非自回归神经声码器
实时
高保真
Keywords
Mongolian text-to-speech(TTS)
non-autoregressive
acoustic model
non-autoregressive neural vocoder
real-time
high-fidelity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
神经网络声码器的话者无关与自适应训练方法研究
被引量:
2
3
作者
伍宏传
凌震华
机构
中国科学技术大学语音及语言信息处理国家工程实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2019年第2期445-450,共6页
基金
安徽省科技重大专项(17030901005)资助
文摘
近年来出现的基于WaveNet的神经网络声码器可以取得较高的重构语音质量,但其采用的话者相关模型训练方法对于目标发音人语音数据量依赖较大.因此,本文研究目标发音人语音数据量受限情况下的神经网络声码器训练方法.首先利用多发音人数据训练话者无关声码器模型,进一步利用少量目标发音人数据对话者无关模型进行自适应更新,以得到目标发音人的神经网络声码器模型.本文实验对比了自适应训练中局部更新与全局更新两种策略,以及自适应与话者相关两种训练方法.实验表明,本文方法构建的神经网络声码器可以取得优于STRAIGHT声码器的重构语音质量,在目标发音人数据量受限的情况下,该方法相对话者相关训练也可以取得更好的客观和主观性能表现.
关键词
神经网络
WaveNet
声码器
话者无关模型
自适应训练
Keywords
neural
network
WaveNet
vocoder
speaker-independent model
model adaptation
分类号
TN912.3 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于先验梅尔谱和神经声码器的语音丢包隐藏方法
黄晋维
鲍长春
周静
《电子学报》
EI
CAS
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
2
MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型
刘瑞
康世胤
高光来
李劲东
飞龙
《中文信息学报》
CSCD
北大核心
2022
6
在线阅读
下载PDF
职称材料
3
神经网络声码器的话者无关与自适应训练方法研究
伍宏传
凌震华
《小型微型计算机系统》
CSCD
北大核心
2019
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部