-
题名采用通用语音属性建模的说话人确认
被引量:2
- 1
-
-
作者
张圣
郭武
-
机构
中国科学技术大学电子工程与信息科学系语音及语言信息处理国家工程实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2016年第11期2577-2581,共5页
-
基金
安徽省自然科学基金项目(1408085MKL78)资助
-
文摘
本文提出采用通用语音属性的方法来进行自动语音识别的声学模型建模,并将其应用到说话人识别的全变量空间建模中.首先将发音方式和发音位置两种属性联合构成通用语音属性的基本单元用于声学建模,在此基础上采用深度学习算法建立语音识别的声学模型;用此声学模型来获得说话人识别的每帧声学特征对应的后验概率,将这个后验概率作为全变量空间分析的零阶统计量,在此基础上完成说话人识别中的i-vector建模及识别.在NIST 2012的说话人识别评测任务中,提出的算法能够取得与主流算法相当的识别水平.进一步,当我们把基于通用语音属性的DNN/i-vector系统与目前主流的系统进行得分域的融合,相对于最好的单系统,男声等错误率平均下降了12.1%,女声等错误率平均下降了14.4%.
-
关键词
说话人确认
深度神经网络
通用语音属性
-
Keywords
speaker verification
deep neural networks
universal speech attributes
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名采用深层神经网络中间层特征的关键词识别
被引量:2
- 2
-
-
作者
刘学
王年松
郭武
-
机构
安徽省公安厅物证鉴定中心
中国科学技术大学电子工程与信息科学系语音及语言信息处理国家工程实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2015年第7期1540-1544,共5页
-
基金
安徽省自然科学基金项目(1408085MNL78)资助
-
文摘
在基于模板匹配的关键词识别中,提出采用深层神经网络的中间层特征(bottleneck,BN)作为特征输入,将其取代传统的声学参数来生成后验概率图.首先采用传统语音识别的过程训练一个中间层很窄的深层神经网络,将所有的语音特征经过这个神经网络后得到稳健的BN特征;然后利用混合高斯模型将BN特征转化成后验概率图;在识别过程中,利用后验概率图作为特征参数,采用简化的分段动态时间规整算法实现关键词匹配.在TIMIT数据库上,相对于采用传统感知线性参数的系统,采用BN特征的系统,识别准确率有30%的提升.
-
关键词
识别
分段动态时间规整
深层神经网络
中间层
-
Keywords
keyword spotting
segmental dynamic time warping
deep neural networks
bottleneck
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名采用音素分类的因子分析说话人识别方法
- 3
-
-
作者
马啸空
郭武
-
机构
中国科学技术大学电子工程与信息科学系语音及语言信息处理国家工程实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2016年第9期2130-2134,共5页
-
基金
安徽省自然科学基金项目(1408085MKL78)资助
-
文摘
提出一种利用深度神经网络和语音学知识进行文本无关的说话人识别的方法.采用深度神经网络(Deep Neural Netw ork,DNN)来进行有监督的因子分析建模方法是目前与文本无关说话人识别的研究热点,在此基础上挖掘了不同的音素对识别性能的影响.首先根据语音学知识对DNN的输出节点进行分类,在说话人建模过程中,根据不同的类别来提取不同的后验因子(i-vectors),然后采用拼接的方式得到一个高维的i-vector用于话者识别.在NIST SRE 2012的核心测试任务上,相对于无监督的全空间变量因子分析与基于DNN的因子分析方法,提出的算法都有不同程度的性能提升.综合来看,超过了目前已知的最佳系统性能.
-
关键词
说话人识别
深度神经网络
音素分类
因子分析
-
Keywords
speaker recognition
deep neural network ( DNN )
phoneme taxonomy
factor analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-