期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
采用通用语音属性建模的说话人确认 被引量:2
1
作者 张圣 郭武 《小型微型计算机系统》 CSCD 北大核心 2016年第11期2577-2581,共5页
本文提出采用通用语音属性的方法来进行自动语音识别的声学模型建模,并将其应用到说话人识别的全变量空间建模中.首先将发音方式和发音位置两种属性联合构成通用语音属性的基本单元用于声学建模,在此基础上采用深度学习算法建立语音识... 本文提出采用通用语音属性的方法来进行自动语音识别的声学模型建模,并将其应用到说话人识别的全变量空间建模中.首先将发音方式和发音位置两种属性联合构成通用语音属性的基本单元用于声学建模,在此基础上采用深度学习算法建立语音识别的声学模型;用此声学模型来获得说话人识别的每帧声学特征对应的后验概率,将这个后验概率作为全变量空间分析的零阶统计量,在此基础上完成说话人识别中的i-vector建模及识别.在NIST 2012的说话人识别评测任务中,提出的算法能够取得与主流算法相当的识别水平.进一步,当我们把基于通用语音属性的DNN/i-vector系统与目前主流的系统进行得分域的融合,相对于最好的单系统,男声等错误率平均下降了12.1%,女声等错误率平均下降了14.4%. 展开更多
关键词 说话人确认 深度神经网络 通用语音属性
在线阅读 下载PDF
采用深层神经网络中间层特征的关键词识别 被引量:2
2
作者 刘学 王年松 郭武 《小型微型计算机系统》 CSCD 北大核心 2015年第7期1540-1544,共5页
在基于模板匹配的关键词识别中,提出采用深层神经网络的中间层特征(bottleneck,BN)作为特征输入,将其取代传统的声学参数来生成后验概率图.首先采用传统语音识别的过程训练一个中间层很窄的深层神经网络,将所有的语音特征经过这个神经... 在基于模板匹配的关键词识别中,提出采用深层神经网络的中间层特征(bottleneck,BN)作为特征输入,将其取代传统的声学参数来生成后验概率图.首先采用传统语音识别的过程训练一个中间层很窄的深层神经网络,将所有的语音特征经过这个神经网络后得到稳健的BN特征;然后利用混合高斯模型将BN特征转化成后验概率图;在识别过程中,利用后验概率图作为特征参数,采用简化的分段动态时间规整算法实现关键词匹配.在TIMIT数据库上,相对于采用传统感知线性参数的系统,采用BN特征的系统,识别准确率有30%的提升. 展开更多
关键词 识别 分段动态时间规整 深层神经网络 中间层
在线阅读 下载PDF
采用音素分类的因子分析说话人识别方法
3
作者 马啸空 郭武 《小型微型计算机系统》 CSCD 北大核心 2016年第9期2130-2134,共5页
提出一种利用深度神经网络和语音学知识进行文本无关的说话人识别的方法.采用深度神经网络(Deep Neural Netw ork,DNN)来进行有监督的因子分析建模方法是目前与文本无关说话人识别的研究热点,在此基础上挖掘了不同的音素对识别性能的影... 提出一种利用深度神经网络和语音学知识进行文本无关的说话人识别的方法.采用深度神经网络(Deep Neural Netw ork,DNN)来进行有监督的因子分析建模方法是目前与文本无关说话人识别的研究热点,在此基础上挖掘了不同的音素对识别性能的影响.首先根据语音学知识对DNN的输出节点进行分类,在说话人建模过程中,根据不同的类别来提取不同的后验因子(i-vectors),然后采用拼接的方式得到一个高维的i-vector用于话者识别.在NIST SRE 2012的核心测试任务上,相对于无监督的全空间变量因子分析与基于DNN的因子分析方法,提出的算法都有不同程度的性能提升.综合来看,超过了目前已知的最佳系统性能. 展开更多
关键词 说话人识别 深度神经网络 音素分类 因子分析
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部