基于BN-SGMM-HMM模型的低资源语音识别系统被引量：11

Low-resource speech recognition system based on BN-SGMM-HMM model

在线阅读下载PDF

导出

摘要针对语音识别系统在低资源条件下,采用传统的高斯混合-隐马尔可夫声学模型(GMM-HMM)会带来识别精度低、参数规模过大等问题,文章提出基于BN-SGMM-HMM的声学模型来解决GMM-HMM模型的不足。该模型在声学特征方面,通过基于瓶颈(bottleneck,BN)层的神经网络来进行提取,从而提高声学特征的可区分性与鲁棒性,同时在训练过程中引入Dropout策略来防止过拟合问题;在声学模型方面,采用子空间高斯混合模型(subspace Gaussian mixture model,SGMM),使得模型参数规模显著降低56.5%。同时,这两方面的改进也提升了低资源语音识别系统的识别率,TIMIT语音数据库实验表明,采用该模型,与GMM-HMM模型相比提高8.0%,与BN-GMM-HMM模型相比提高3.6%。这些优点对该模型在低功耗需求的硬件平台上实现部署有极大的帮助。 Upon a low-resource database condition,traditional acoustic GMM-HMM model cannot achieve a satisfying recognition rate and has large parameter scale.In order to solve these problems,a speech recognition BN-SGMM-HMM model is proposed in this paper.In the acoustic feature aspect,a DNN-based bottleneck(BN)feature is extracted which improves the discriminability and robustness capability of the system;meanwhile,the Dropout strategy is employed to prevent over-fitting problem during the training process.In the acoustic model aspect,the subspace Gaussian mixture model(SGMM)is adopted to decrease the parameter scale.It has a significant 56.5%reduction compared with the GMM-HMM model.At the same time,these two aspects also help to improve the detection rate of low-resource speech recognition system.Experiments on the TIMIT database indicate that the accuracy of the proposed BN-SGMM-HMM model is 8.0%higher than that of GMM-HMM model,and 3.6%higher than that of BN-GMM-HMM model.This proposed model is valuable for the future implementation on low-power hardware platform.

作者雷杰赵宏亮艾宁智邹万冰詹毅 LEI Jie;ZHAO Hongliang;AI Ningzhi;ZOU Wanbing;ZHAN Yi(School of Physics, Liaoning University, Shenyang 110036, China;College of Electronic Science and Engineering, Jilin University, Changchun 130012, China;Institutes of Microelectronics, Chinese Academy of Sciences, Beijing 100029, China)

机构地区辽宁大学物理学院吉林大学电子科学与工程学院中国科学院微电子研究所

出处《合肥工业大学学报（自然科学版）》 CAS 北大核心 2021年第12期1627-1632,共6页 Journal of Hefei University of Technology：Natural Science

基金国家重点研发计划资助项目(2019YFB2204601)。

关键词语音识别瓶颈特征子空间高斯混合模型(SGMM) Dropout策略低资源 speech recognition bottleneck(BN)feature subspace Gaussian mixture model(SGMM) Dropout strategy low resource

分类号 TP183 [自动化与计算机技术—控制理论与控制工程] TN912 [电子电信—通信与信息系统]

作者简介雷杰(1995—),男,山东淄博人,辽宁大学硕士生;通信作者:詹毅(1973—),男,浙江开化人,博士,中国科学院正高级工程师,E-mail:yizhan@ime.ac.cn.

引文网络
相关文献

参考文献2

1郑文秀,赵峻毅,文心怡,姚引娣.基于瓶颈复合特征的声学模型建立方法[J].计算机工程,2020,46(11):301-305. 被引量：3
2陈强普,桑军,项志立,罗红玲,郭沛,蔡斌.BN对VGG神经网络的影响研究[J].合肥工业大学学报（自然科学版）,2018,41(1):35-39. 被引量：13

二级参考文献11

1吕丹桔,B.Hoffmeister.汉语语音声学特征复合的研究[J].云南大学学报（自然科学版）,2010,32(S1):368-371. 被引量：3
2李晋徽,杨俊安,王一.一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用[J].计算机科学,2014,41(3):263-266. 被引量：10
3王一,杨俊安,刘辉,柳林.基于层次稀疏DBN的瓶颈特征提取方法[J].模式识别与人工智能,2015,28(2):173-180. 被引量：10
4陈雷,杨俊安,王一,王龙.LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法[J].信号处理,2015,31(3):290-298. 被引量：9
5弓彦婷,程小雪,任洪梅,陈雁翔.声谱图显著性在音频识别中的应用[J].合肥工业大学学报（自然科学版）,2016,39(1):62-66. 被引量：4
6王兆凯,李亚星,冯旭鹏,刘利军,黄青松,刘晓梅.基于深度信念网络的个性化信息推荐[J].计算机工程,2016,42(10):201-206. 被引量：5
7秦楚雄,张连海.基于DNN的低资源语音识别特征提取技术[J].自动化学报,2017,43(7):1208-1219. 被引量：25
8周楠,赵悦,李要嫱,徐晓娜,才旺拉姆,吴立成.基于瓶颈特征的藏语拉萨话连续语音识别研究[J].北京大学学报（自然科学版）,2018,54(2):249-254. 被引量：9
9李云红,梁思程,贾凯莉,张秋铭,宋鹏,何琛,王刚毅,李禹萱.一种改进的DNN-HMM的语音识别方法[J].应用声学,2019,38(3):371-377. 被引量：20
10李海霞,吴苏怡.基于主成分分析方法的海量地震数据属性降维优化[J].地震工程学报,2019,41(3):757-762. 被引量：6

共引文献14

1刘任熊,田由辉,张朝龙.基于堆叠自动编码器的网络行为识别[J].合肥工业大学学报（自然科学版）,2019,42(2):189-194. 被引量：4
2李雄,文开福,钟小明,杨辉,秦德浩.基于深度学习的人脸识别考勤管理系统开发[J].实验室研究与探索,2019,38(7):115-118. 被引量：24
3范亮,闫玲博,韦占坤,金星,吴庚杰.深度卷积网络在数据审核校验中应用研究[J].通信技术,2019,52(9):2130-2135.
4周进凡,刘宇红,张荣芬,马治楠,葛自立,林付春.基于卷积神经网络的肺炎检测系统[J].现代电子技术,2019,42(23):35-39. 被引量：5
5李泗兰,郭雅.基于深度学习哈希算法的快速图像检索研究[J].计算机与数字工程,2019,47(12):3187-3192. 被引量：8
6邢家源,张军,薛晨兴,雷雨婷,孙彦.迁移学习场景下的实时停车位置检测[J].天津职业技术师范大学学报,2019,29(4):32-37.
7郑子贤,张小涵,陈冰,徐南阳.基于神经网络的金刚石色心自动识别算法实现[J].合肥工业大学学报（自然科学版）,2020,43(12):1723-1728.
8曹靖城,张继东,史国杰.一种使用边缘增强技术提高相似图片检索召回率的方法[J].电信科学,2021,37(1):76-84. 被引量：2
9唐冬来,朱海萍,何鹏,刘玉民,陈瑞.基于批量标准化算法的园区综合能源调度方法[J].广东电力,2021,34(10):34-42. 被引量：2
10刘威,袁键.基于信道扩频和感知滤波的改进语音水印算法[J].计算机工程与设计,2022,43(11):3037-3044. 被引量：1

同被引文献130

1沙原.智慧课堂在中职英语口语教学中应用的有效性探讨[J].职业技术教育,2021(2):33-36. 被引量：11
2司超增,张铁山.语音识别技术在医院病理业务智能化管理中的应用[J].中国数字医学,2021,16(8):16-21. 被引量：8
3封雷,封丽,方芳,郭劲松,潘江,余由,陈瑜.基于改进多层卷积神经网络的水体富营养化遥感监测算法研究[J].计算机科学,2022,49(S02):388-392. 被引量：12
4李新虎,祁云望.测井曲线形态的自动识别方法研究[J].大庆石油地质与开发,2006,25(5):116-118. 被引量：16
5宋玉凤,李东亮,盛莹,陈锋.基于小语音库的语音识别技术研究[J].舰船电子工程,2013,33(5):75-77. 被引量：3
6朱常坤,梁杏.多参数层序地层的边缘最优智能划分算法及其应用[J].地球物理学进展,2015,30(1):466-470. 被引量：12
7安鹏,曹丹平,赵宝银,杨晓利,张明.基于LSTM循环神经网络的储层物性参数预测方法研究[J].地球物理学进展,2019,34(5):1849-1858. 被引量：76
8贾晓宝,毕玉洁,姚卫丰,谭凌峰,刘鹏程.基于Arduino的智能家居语音控制及能源管理系统设计[J].深圳职业技术学院学报,2020,19(1):23-28. 被引量：3
9高帆,张雪英,黄丽霞,李宝芸.基于DBM-LSTM的多特征语音情感识别[J].计算机工程与设计,2020,41(2):465-470. 被引量：11
10刘梦媛,杨鉴.基于HMM的缅甸语语音合成系统设计与实现[J].云南大学学报（自然科学版）,2020,42(1):19-27. 被引量：10

引证文献11

1陈琳.面向语音特征提取的英语机器人识别方法构建[J].自动化与仪器仪表,2022(8):234-239. 被引量：1
2陈严,李浩.基于机器学习算法的中文语音识别效果评估方法[J].信息记录材料,2022,23(8):97-99. 被引量：4
3汪晟磊,宋星,杨彦青.智能家居语音控制系统的设计[J].自动化与仪器仪表,2023(4):117-122. 被引量：7
4范雪扬.基于语音识别技术的在线语言交互学习系统的设计与实现[J].自动化与仪器仪表,2023(7):187-190. 被引量：4
5曹茂俊,崔欣锋.基于一维卷积神经网络的地层智能识别方法[J].计算机技术与发展,2023,33(9):133-140. 被引量：1
6汪玉秀,苏战波.基于轻量化神经网络的多语音识别方法研究[J].自动化与仪器仪表,2023(10):167-169. 被引量：3
7夏美艺,范灵,牛青松,桂鹂娟.面向政务系统的大数据语音识别系统应用及研究[J].现代科学仪器,2024,41(1):155-160. 被引量：1
8林勇升,田美艳,王鑫.基于DNN-LSTM模型的智能家居语音识别系统设计[J].安阳师范学院学报,2024,26(5):15-18. 被引量：2
9苟晓茹.基于多模态的AI语音识别及人机交互系统研究[J].自动化与仪器仪表,2024(12):159-162. 被引量：1
10吴文波,杨耀宁,禹谢华.多层卷积神经网络在图像目标标注中的应用[J].计算机仿真,2025,42(2):243-247.

二级引证文献24

1崔北尧,王峰,刘士军,李伟光,王一飞.基于Arduino与Processing互动编程的特种仓库智能测控系统设计[J].现代电子技术,2023,46(18):177-182. 被引量：2
2李齐新.智能开关插座的发展探讨[J].中国照明电器,2023(7):42-44.
3汤湛成,刘杰,邵德伟.语音信号处理与模式识别的结合——语音识别的机器学习方法[J].计算机应用文摘,2023,39(23):93-95.
4王晓康.基于语音情感识别的智能照明控制系统的研究[J].电声技术,2024,48(2):7-9. 被引量：2
5吴亚亚.基于传感器技术的三维发音可视化合成系统研究设计[J].自动化与仪器仪表,2024(4):102-105.
6孙红英.压缩感知技术在语音信息隐藏和信息识别中的应用[J].电声技术,2024,48(4):121-123.
7黄海峤,李采奕,张昕莹.生成式人工智能在面料外观仿真上的研究[J].东华大学学报（社会科学版）,2024,24(2):46-55. 被引量：1
8陈华舒,卢振利,王伟栋.具身智文本内容生成的咖啡机器人系统设计[J].高技术通讯,2024,34(6):651-658.
9漆燕彬,任英华,侯艺萱.语音识别技术在音频新闻中的应用与优化[J].电声技术,2024,48(7):68-71. 被引量：1
10张立,李林,林祥锐,汤文祺.基于STM32的智能家居控制系统设计[J].现代计算机,2024,30(12):114-117.

1刘晓峰,宋文爱,陈小东,郇晋侠,李志媛.基于多核卷积融合网络的BLSTM-CTC语音识别[J].计算机应用与软件,2021,38(11):167-173. 被引量：14
2谭毓银,李怀成,缪为民.关系代数在数据库实验教学的实践研究[J].现代计算机,2021,27(18):127-132.
3房绍杰.土建工程施工中的进度控制与管理[J].电脑乐园,2021,6(10):3-4.
4黄丹琪,邓蒙,冯启明,徐婷婷.2003—2019年江西省卫生资源配置与利用效率分析[J].中国初级卫生保健,2021,35(12):16-19. 被引量：6
5田甜.“一带一路”沿线国家主权债务违约风险研究[J].长春金融高等专科学校学报,2022(1):19-26. 被引量：1
6杨俊美,雷杨,陈习坤.基于Flatten-CNN的语音带宽扩展研究[J].华南理工大学学报（自然科学版）,2021,49(11):87-94. 被引量：2
7郑文秀,连晓飞,张旭东,黄琼丹.基于稀疏DNN的声学复合特征构造方法[J].传感器与微系统,2021,40(12):69-72. 被引量：1

合肥工业大学学报（自然科学版）

2021年第12期

浏览历史

内容加载中请稍等...

基于BN-SGMM-HMM模型的低资源语音识别系统被引量：11

参考文献2

二级参考文献11

共引文献14

同被引文献130

引证文献11

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于BN-SGMM-HMM模型的低资源语音识别系统 被引量：11

参考文献2

二级参考文献11

共引文献14

同被引文献130

引证文献11

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于BN-SGMM-HMM模型的低资源语音识别系统被引量：11