期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于深度神经网络的说话人年龄分类研究 被引量:1
1
作者 杨治学 黄浩 +1 位作者 胡英 吾守尔·斯拉木 《现代电子技术》 2021年第10期120-124,共5页
说话人年龄分类是通过说话人的语音来估测说话人的年龄范围,属于说话人属性分析的重要内容。传统说话人年龄分类是利用人工提取特征加后端分类器的方法,这种方法不一定能够得到最优的分类效果。针对该问题,利用深度神经网络自动获取特... 说话人年龄分类是通过说话人的语音来估测说话人的年龄范围,属于说话人属性分析的重要内容。传统说话人年龄分类是利用人工提取特征加后端分类器的方法,这种方法不一定能够得到最优的分类效果。针对该问题,利用深度神经网络自动获取特征表示的能力,提出一种基于深度神经网络的年龄分类方法,采用提取文本无关的说话人语音特征来通过深度神经网络对说话人年龄进行分类。在1000 h的AISHELL⁃2中文开源语音数据库上验证了所提出方法的有效性。与基于i⁃vector结合后端分类器的两阶段说话人年龄分类方法做了比较,实验结果证明,与i⁃vector方法相比,识别正确率获得了3.08%的性能提升。 展开更多
关键词 说话人年龄分类 深度神经网络 语音特征提取 说话人识别 数据分析 比较实验
在线阅读 下载PDF
韵律增强型汉语语音合成系统
2
作者 牛芳 吾守尔·斯拉木 《现代电子技术》 2022年第13期87-92,共6页
端到端语音合成(TTS)系统可以直接根据给定的字素或音素序列生成语音。当前主流的端到端语音合成系统可以为英语生成近似于人类声音的语音。然而,中文的文本不同于这类以罗马字母为基础的语言(如英语),直接将端到端语音合成框架应用于... 端到端语音合成(TTS)系统可以直接根据给定的字素或音素序列生成语音。当前主流的端到端语音合成系统可以为英语生成近似于人类声音的语音。然而,中文的文本不同于这类以罗马字母为基础的语言(如英语),直接将端到端语音合成框架应用于汉语时,合成音频存在较为严重的韵律问题,如断句或停顿不恰当、自然度差等。为此,结合汉语的语言特性和韵律特性,提出一种神经网络端到端韵律增强型汉语语音合成系统,该系统使用从预训练Bert模型中提取的多层次上下文特征增强端到端汉语语音合成系统的输入。在汉语语音合成公开数据集上的实验结果表明,与当前主流的端到端语音合成系统相比,该韵律增强型汉语语音合成系统可以生成更加自然且富有表现力的语音。 展开更多
关键词 文语转换 语音合成 汉语 韵律增强 Bert模型 TTS
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部