-
题名汉语语音识别中融合发音信息的随机段模型研究
被引量:1
- 1
-
-
作者
晁浩
刘志中
薛霄
-
机构
河南理工大学计算机科学与技术学院
-
出处
《计算机应用研究》
CSCD
北大核心
2015年第4期1087-1090,共4页
-
基金
国家自然科学基金资助项目(91120303
90820303
+1 种基金
90820011)
河南省基础与前沿技术研究计划资助项目(132300410332)
-
文摘
提出了一种基于随机段模型的发音信息集成方法。根据随机段模型的模型特性,建立了阶层式人工神经网络来获取语音段信号属于各类音素的后验概率,并通过一遍解码的方式集成到随机段模型系统中。在"863-test"测试集上进行的汉语连续语音识别实验显示汉语字的相对错误率下降了5.93%。实验结果表明了将发音信息应用到随机段模型的可行性。
-
关键词
语音识别
随机段模型
发音信息
阶层式人工神经网路
发音特征
-
Keywords
speech recognition
stochastic segment model
articulatory information
hierarchical artificial neural network
articulatory feature
-
分类号
TP391.42
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语语音识别中融合发音信息的随机段模型研究
被引量:1
- 2
-
-
作者
晁浩
杨占磊
刘文举
-
机构
河南理工大学计算机科学与技术学院
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2014年第11期3365-3368,共4页
-
基金
国家自然科学基金资助项目(91120303
90820303
+1 种基金
90820011)
河南省基础与前沿技术研究计划资助项目(132300410332)
-
文摘
提出了一种基于随机段模型的发音信息集成方法。根据随机段模型的模型特性,建立了阶层式人工神经网络来获取语音段信号属于各类音素的后验概率,并通过一遍解码的方式集成到随机段模型系统中。在"863-test"测试集上进行的汉语连续语音识别实验显示汉语字的相对错误率下降了5.93%。实验结果表明了将发音信息应用到随机段模型的可行性。
-
关键词
语音识别
随机段模型
发音信息
阶层式人工神经网路
发音特征
-
Keywords
speech recognition
stochastic segment model
articulatory information
hierarchical artificial neural network
articulatory feature
-
分类号
TP391.42
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语语音识别中声学界标点引导的随机段模型解码算法
被引量:1
- 3
-
-
作者
晁浩
杨占磊
刘文举
-
机构
河南理工大学计算机科学与技术学院
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2013年第10期208-212,共5页
-
基金
国家自然科学基金(91120303
90820303
+3 种基金
90820011)
国家重点基础研究发展计划(973计划)(2004CB318105)
国家高技术研究发展计划(863计划)(20060101Z4073
2006AA01Z194)资助
-
文摘
提出了一种随机段模型的解码优化算法。检测出具有语音学意义的界标点,根据这些界标点分析临近语音段的边界信息和声韵母类别信息,最后将这些边界信息和类别信息用于指导随机段模型的搜索过程。实验中,两种类型的界标点能较为准确地被检测出来,并用于指导随机段模型的解码,在"863-test"测试集上进行的汉语连续语音识别实验显示,在正确率只有轻微下降的同时,解码时间下降了12.92%,这表明了将语音学知识引入语音识别系统的有效性。
-
关键词
语音识别
随机段模型
解码
界标点
-
Keywords
Speech recognition, Stochastic segment modeling, Decoding, Landmark
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于最大似然线性回归的随机段模型说话人自适应研究
- 4
-
-
作者
晁浩
杨占磊
刘文举
-
机构
河南理工大学计算机科学与技术学院
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《计算机工程与科学》
CSCD
北大核心
2014年第8期1604-1608,共5页
-
基金
国家自然科学基金资助项目(91120303
90820303
+3 种基金
90820011)
国家973计划资助项目(2004CB318105)
国家863计划资助项目(20060101Z4073
2006AA01Z194)
-
文摘
提出了一种随机段模型系统的说话人自适应方法。根据随机段模型的模型特性,将最大似然线性回归方法引入到随机段模型系统中。在"863-test"测试集上进行的汉语连续语音识别实验显示,在不同的解码速度下,说话人自适应后汉字错误率均有明显的下降。实验结果表明,最大似然线性回归方法在随机段模型系统中同样能取得较好的效果。
-
关键词
语音识别
说话人自适应
最大似然线性回归
随机段模型
-
Keywords
speech recognition
speaker adaptation
maximum likelihood linear regression
stochastic segment model
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名融合音素串编辑距离的随机段模型解码算法
- 5
-
-
作者
晁浩
-
机构
河南理工大学计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第6期208-211,共4页
-
基金
河南省基础与前沿技术研究计划资助项目(No.132300410332)
-
文摘
解码时声学特性最优的路径蕴含了揭示当前路径是否正确的重要参考信息,为此提出了一种随机段模型系统的解码优化方法。训练能够准确地衡量当前路径与声学最优路径相似性程度的上下文相关音素串编辑距离模型,在N-Best重打分的过程中将音素串编辑距离加入到路径总得分中。在"863-test"测试集上进行的连续语音识别实验显示汉语字的相对错误率下降了8.1%。实验结果表明了将音素串编辑距离应用到随机段模型的可行性。
-
关键词
语音识别
音素串编辑距离
随机段模型
解码
-
Keywords
speech recognition
phonetic string edit distance
stochastic segment model
decoding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名语音识别中基于发音特征的声调集成算法
被引量:2
- 6
-
-
作者
晁浩
宋成
刘志中
-
机构
河南理工大学计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
2014年第23期21-25,共5页
-
基金
国家自然科学基金(No.61300124)
河南省基础与前沿技术研究计划资助项目(No.132300410332)
-
文摘
提出基于发音特征的声调建模改进方法,并将其用于随机段模型的一遍解码中。根据普通话的发音特点,确定了用于区别汉语元音、辅音信息的7种发音特征,并以此为目标值利用阶层式多层感知器计算语音信号属于发音特征的35个类别后验概率,将该概率作为发音特征与传统的韵律特征一起用于声调建模。根据随机段模型的解码特点,在两层剪枝后对保留下来的路径计算其声调模型概率得分,加权后加入路径总的概率得分中。在"863-test"测试集上进行的实验结果显示,使用了新的发音特征集合中声调模型的识别精度提高了3.11%;融入声调信息后随机段模型的字错误率从13.67%下降到12.74%。表明了将声调信息应用到随机段模型的可行性。
-
关键词
语音识别
随机段模型
声调建模
发音特征
阶层式多层感知器
-
Keywords
speech recognition
stochastic segment modeling
tone modeling
articulatory feature
hierarchical multilayer perceptron classifiers
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-