期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于多时间尺度特征的语音识别模型
1
作者 韩疆 尹宝林 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2000年第2期201-205,共5页
提出了基于多时间尺度特征的语音识别模型 .该模型采用描述谱参数轨迹的段特征 ,在段尺度上实现了对语音信号帧间相关性的显式建模 ;采用段特征依赖的非平稳时间序列产生模型 ,实现了不同尺度特征间的相关性建模 ,并在帧尺度上通过参数... 提出了基于多时间尺度特征的语音识别模型 .该模型采用描述谱参数轨迹的段特征 ,在段尺度上实现了对语音信号帧间相关性的显式建模 ;采用段特征依赖的非平稳时间序列产生模型 ,实现了不同尺度特征间的相关性建模 ,并在帧尺度上通过参数化的均值轨迹函数 ,实现了对语音信号帧间相关性的隐式建模 .给出了基于多时间尺度特征联合统计距离优化的分段算法及基于最大似然准则的模型参数估计算法 .识别实验表明 ,该模型的识别性能优于标准HMM及趋势HMM . 展开更多
关键词 语音识别模型 帧间相关笥 多时间尺度 段特征
在线阅读 下载PDF
几种小训练样本集的数字语音识别模型的比较性研究 被引量:1
2
作者 贺苏宁 虞厥邦 《计算机科学》 CSCD 北大核心 2005年第9期170-175,共6页
本文通过对小训练样本集的基于DTW结构的数字语音识别模型的比较性分析,指出其存在的三个一般性问题:(1)DTW逐帧匹配模式割裂了观测向量序列的内在联系;(2)压扩观测向量序列造成局部信息使用的不均匀;(3)计算复杂度高,识别率低。为了解... 本文通过对小训练样本集的基于DTW结构的数字语音识别模型的比较性分析,指出其存在的三个一般性问题:(1)DTW逐帧匹配模式割裂了观测向量序列的内在联系;(2)压扩观测向量序列造成局部信息使用的不均匀;(3)计算复杂度高,识别率低。为了解决这些问题,我们提出了基于数字语音时频信息整体结构的单特征向量识别模型。这种模型完整地利用了观测向量序列的全部信息,结合置信度评估和自适应反馈学习之后可及时地吸收测试向量携带的新的环境特征信息,调整识别模型结构。该模型的错识率较之最好的基于DTW结构的混合城模型的错识率降低50%以上,计算复杂度则是固定帧长模型的 13.12%。 展开更多
关键词 训练样本集 数字语音识别模型 置信度评估 自适应反馈学习 DTW 匹配模式
在线阅读 下载PDF
双模型语音识别中的听视觉合成和模型同步异步性实验研究 被引量:3
3
作者 谢磊 蒋冬梅 +4 位作者 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis 《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第2期171-175,共5页
研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步... 研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步性的模型可以有效地提高识别率。 展开更多
关键词 语音识别 模型语音识别 听觉视觉合成 模型同步异步性
在线阅读 下载PDF
Improved hidden Markov model for speech recognition and POS tagging 被引量:4
4
作者 袁里驰 《Journal of Central South University》 SCIE EI CAS 2012年第2期511-516,共6页
In order to overcome defects of the classical hidden Markov model (HMM), Markov family model (MFM), a new statistical model was proposed. Markov family model was applied to speech recognition and natural language proc... In order to overcome defects of the classical hidden Markov model (HMM), Markov family model (MFM), a new statistical model was proposed. Markov family model was applied to speech recognition and natural language processing. The speaker independently continuous speech recognition experiments and the part-of-speech tagging experiments show that Markov family model has higher performance than hidden Markov model. The precision is enhanced from 94.642% to 96.214% in the part-of-speech tagging experiments, and the work rate is reduced by 11.9% in the speech recognition experiments with respect to HMM baseline system. 展开更多
关键词 hidden Markov model Markov family model speech recognition part-of-speech tagging
在线阅读 下载PDF
A new formant feature and its application in Mandarin vowel pronunciation quality assessment
5
作者 卢小春 潘复平 +1 位作者 尹俊勋 胡维平 《Journal of Central South University》 SCIE EI CAS 2013年第12期3573-3581,共9页
In order to improve the Mandarin vowel pronunciation quality assessment, a nox/el formant feature was proposed and applied to formant classification for Chinese Mandarin vowel pronunciation quality evaluation. Formant... In order to improve the Mandarin vowel pronunciation quality assessment, a nox/el formant feature was proposed and applied to formant classification for Chinese Mandarin vowel pronunciation quality evaluation. Formant candidates of each frame were plotted on the time-frequency plane to form a bitmap, and its Gabor feature was extracted to represent the formant trajectory. The feature was then classified by using GMM model and the classification posterior probability was mapped to pronunciation quality grade. The experiments of comparing the Gabor transformation based formant trajectory feature with several other kinds of traditionally used features show that with this method, a human-machine scoring correlation coefficient (CC) of 0.842 can be achieved, which is better than the result of 0.832 by traditional speech recognition techniques. At the same time, considering that the long-term information of formant classification and the short-term information of speech recognition technique are complementary to each other, it is investigated to combine their results with linear or nonlinear methods to further improve the evaluation performance. As a result, experiments on PSK show that the best CC of 0.913, which is very close to the correlation of inter-human rating of 0.94, is gotten by using neural network. 展开更多
关键词 computer assisted language learning speech recognition Gaussian mixture model FORMANT Gabor feature NEURALNETWORK
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部