基于循环神经网络的藏语语音识别声学模型被引量：16

The Acoustic Model for Tibetan Speech Recognition Based on Recurrent Neural Network

在线阅读下载PDF

导出

摘要探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与解码效率。实验结果显示,与传统基于隐马尔可夫模型的声学建模方法相比,循环神经网络模型在藏语拉萨话音素识别任务上具有更好的识别性能,而引入时域卷积操作的循环神经网络声学模型在保持同等识别性能的情况下,拥有更高的训练和解码效率。 The recurrent neural network and the connectionist temporal classification algorithm are applied to the acoustic modeling of Tibetan speech recognition,so as to achieve end-to-end model training.According to the relationship between the input and output of the acoustic model,the time domain convolution operation on the output sequence of the hidden layer is introduced to reduce the time domain expansion of the network＇s hidden layers.Experimental results show that the recurrent neural network model achieves better recognition performance in Tibetan Lhasa phoneme recognition compared with the traditional acoustic models based on Hidden Markov Model,while the acoustic model based on recurrent neural network with time-domain convolution possesses higher training and decoding efficiency while maintaining the same recognition performance.

作者黄晓辉李京 HUANG Xiaohui;LI Jing(College of Computer Science and Technology,University of Science and Technology of China,Hefei,Anhui 230027,China;PLA University of Foreign Language,Luoyang,Henan 471003,China)

机构地区中国科学技术大学计算机科学与技术学院解放军外国语学院

出处《中文信息学报》 CSCD 北大核心 2018年第5期49-55,共7页 Journal of Chinese Information Processing

基金国家重点研发计划项目(2016YFB0201402)

关键词循环神经网络藏语语音识别声学建模时域卷积 recurrent neural network Tibetan speech recognition acoustic modeling time domain convolution

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介黄晓辉（1986-），博士，讲师，主要研究领域为深度学习、自然语言处理。E-mail：huangxia@mail.ustc.edu.cn;李京（1966-），博士，教授，主要研究领域为分布式算法、大数据处理。E-mail：lj@ustc．edu．cn

引文网络
相关文献

参考文献8

1于洪志,高璐,李永宏,郑文思.藏语机读音标SAMPA_ST的设计[J].中文信息学报,2012,26(4):66-72. 被引量：9
2陈小莹,艾金勇,于洪志.藏语拉萨话单音节嗓音声学参数分析[J].中文信息学报,2015,29(3):184-189. 被引量：2
3德庆卓玛.藏语语音识别研究综述[J].西藏大学学报（社会科学版）,2010,25(S1):192-195. 被引量：6
4姚徐,李永宏,单广荣,于洪志.藏语孤立词语音识别系统研究[J].西北民族大学学报（自然科学版）,2009,30(1):29-36. 被引量：10
5李冠宇,孟猛.藏语拉萨话大词表连续语音识别声学模型研究[J].计算机工程,2012,38(5):189-191. 被引量：16
6戴礼荣,张仕良.深度语音信号与信息处理:研究进展与展望[J].数据采集与处理,2014,29(2):171-179. 被引量：33
7王辉,赵悦,刘晓凤,徐晓娜,周楠,许彦敏.基于深度特征学习的藏语语音识别[J].东北师大学报（自然科学版）,2015,47(4):69-73. 被引量：8
8袁胜龙,郭武,戴礼荣.基于深层神经网络的藏语识别[J].模式识别与人工智能,2015,28(3):209-213. 被引量：14

二级参考文献110

1李永宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报（自然科学版）,2008,48(S1):621-626. 被引量：20
2共确降措.论藏文[J].西藏研究,1997(3):94-108. 被引量：7
3瞿霭堂,金效静.藏语方言的研究方法[J].西南民族大学学报（人文社会科学版）,1981,2(3):76-84. 被引量：16
4胡坦.藏语(拉萨话)声调研究[J].民族语文,1980(1):22-36. 被引量：48
5谭克让,孔江平.藏语拉萨话元音、韵母的长短及其与声调的关系[J].民族语文,1991(2):12-21. 被引量：27
6吴宗济.实验语音学与语言学[J].语文研究,1981(1):11-16. 被引量：10
7图雅.关于声学语音学研究方法的几个问题[J].内蒙古大学学报（哲学社会科学版）,2004,36(6):94-98. 被引量：4
8陈肖霞.连续话语语料库的语音切分和标记[J].语言文字应用,2000(2):78-82. 被引量：6
9李爱军,陈肖霞,孙国华,华武,殷治纲.CASS:一个具有语音学标注的汉语口语语音库[J].当代语言学,2002,4(2):81-89. 被引量：9
10陈立伟,赵春晖,姜海丽,杨洪利.利用线性预测残差的语音去噪方法[J].应用科技,2005,32(4):7-9. 被引量：2

共引文献73

1冯乐乐,王昆,郝冲,赵阳.语音识别技术在智能作业指导书系统中的应用[J].电声技术,2023,47(1):105-109.
2郭龙银,扎西多吉,尚慧杰,旦增.基于LSTM的藏语语音识别[J].电脑知识与技术,2020,0(4):154-155. 被引量：4
3德庆卓玛.藏语语音识别研究综述[J].西藏大学学报（社会科学版）,2010,25(S1):192-195. 被引量：6
4肖超烈,姚志强,贺淑梅.血脂康与脂必妥对高胆固醇血症的调脂作用比较[J].广东医学,2000,21(5):430-431. 被引量：10
5张金溪,徐慧,李照耀.藏语语音处理中对MFCC参数提取的研究[J].无线互联科技,2012,9(11):141-141. 被引量：1
6尚新闻.浅谈计算机的硬件维护之外设维护[J].无线互联科技,2012,9(12):133-133. 被引量：1
7韦树关.新时期中国少数民族语言研究方法创新与实践[J].广西民族大学学报（哲学社会科学版）,2013,35(6):2-6. 被引量：1
8李冠宇,于洪志,吴志强.一种语料缺乏条件下的藏语音素自动切分方法[J].计算机工程与科学,2014,36(10):2009-2013. 被引量：2
9袁胜龙,郭武,戴礼荣.基于深层神经网络的藏语识别[J].模式识别与人工智能,2015,28(3):209-213. 被引量：14
10麦麦提艾力.吐尔逊,戴礼荣.深度神经网络在维吾尔语大词汇量连续语音识别中的应用[J].数据采集与处理,2015,30(2):365-371. 被引量：12

同被引文献174

1李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：15
2德庆卓玛.藏语语音识别研究综述[J].西藏大学学报（社会科学版）,2010,25(S1):192-195. 被引量：6
3于洪志,杨博,关白.藏文文本规范化技术的研究与实践[J].西北民族大学学报（自然科学版）,2006,27(1):43-47. 被引量：4
4武光利,戴玉刚,马宁.基于短时平均幅度和短时平均过零率的藏语语音端点检测研究[J].福建电脑,2007,23(3):116-116. 被引量：4
5李勇,于洪志,达哇彭措.基于关联规则的藏语语音韵律参数提取[J].微计算机信息,2009(6):255-257. 被引量：3
6姚徐,李永宏,单广荣,于洪志.藏语孤立词语音识别系统研究[J].西北民族大学学报（自然科学版）,2009,30(1):29-36. 被引量：10
7俸云,景新幸,叶懋.MFCC特征改进算法在语音识别中的应用[J].计算机工程与科学,2009,31(12):146-148. 被引量：15
8王崇德.期刊作者的量化研究[J].情报科学,1998,16(5):369-373. 被引量：49
9马锦卫.彝、藏语言同源词识别释例[J].民族语文,2010(2):70-71. 被引量：4
10韩清华,于洪志.基于HMM的安多藏语非特定人孤立词语音识别研究[J].软件导刊,2010,9(7):173-175. 被引量：9

引证文献16

1张小博,王婷,秦浩,李晖,徐铁军,佟芳.基于循环神经网络的95598小尺度网络流量预测[J].电力信息与通信技术,2019,17(2):9-14. 被引量：7
2黄成龙.2018年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2019,40(4):61-69. 被引量：2
3王子龙,李俊峰,张劭韡,王宏岩,王思杰.基于递归神经网络的端到端语音识别[J].计算机与数字工程,2019,47(12):3099-3106. 被引量：5
4南措吉,才让卓玛,都格草.基于BLSTM和CTC的藏语语音识别[J].青海师范大学学报（自然科学版）,2019,35(4):26-33. 被引量：3
5王福钊,周雁.藏语语音识别研究进展和展望[J].计算机系统应用,2020,29(3):29-38. 被引量：3
6郭杨,拥措.藏语语言模型的研究现状及展望[J].电脑知识与技术,2020,16(9):181-184.
7郭川玉,吴荣茂.基于时间规整算法在神经网络语音识别中的应用[J].科学咨询,2020(36):38-38. 被引量：1
8陈小莹,艾金勇.近十年我国藏文信息研究的特征分布与热点分析——基于CNKI核心期刊的文献计量及可视化分析[J].西藏民族大学学报（哲学社会科学版）,2020,41(3):141-147. 被引量：3
9穆凯代姆罕·伊敏江,艾斯卡尔·艾木都拉,米吉提·阿不里米提.基于CNN-HMM和RNN的维吾尔语语音识别[J].现代电子技术,2021,44(11):172-176. 被引量：4
10罗文雍,张家喜.基于循环神经网络的乐曲伴奏混合编配系统设计[J].景德镇学院学报,2021,36(6):54-58.

二级引证文献46

1任媛,闫铃钰.《五体清文鉴》研究文献综述[J].满族研究,2024(1):96-99.
2齐波,王一鸣,张鹏,李成榕,王红斌.面向变压器油色谱趋势预测的深度递归信念网络[J].电网技术,2019,43(6):1892-1899. 被引量：28
3杜爽,徐展琦,马涛,杨帆.基于神经网络模型的网络流量预测综述[J].无线电通信技术,2020,46(2):216-222. 被引量：13
4丁振林,刘冠龙,谢艺,刘钦,吴建设.基于强化学习与神经网络的动态目标分配算法[J].电子设计工程,2020,28(13):54-60. 被引量：11
5龚雪娇,朱瑞金,唐波.基于贝叶斯优化XGBoost的短期峰值负荷预测[J].电力工程技术,2020,39(6):76-81. 被引量：32
6李建豹.基于CiteSpace的应用型人才培养模式研究进展[J].教育教学论坛,2020(53):336-338. 被引量：1
7黄成龙.2019年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2020,41(5):47-52.
8虞丰檑,徐展琦,张林杰,杜爽.基于神经网络的网络流量预测算法研究[J].无线电通信技术,2021,47(2):187-192. 被引量：2
9金乐.基于双向长短期记忆网络的高压输电线路短路故障识别方法[J].内蒙古电力技术,2021,39(2):66-72. 被引量：4
10陈晓红,滕华.基于深度机器学习的英语语音识别研究[J].贵阳学院学报（自然科学版）,2021,16(3):1-4. 被引量：3

1马欣欣.例谈初一英语读写结合的有效教学策略[J].初中生世界（初中教学研究）,2018,0(10):38-39.
2李占玉,贺萍,董铸荣,薛俊超.电动汽车动力电池电磁辐射的仿真和测量研究[J].深圳职业技术学院学报,2018,17(3):3-6.
3郭琦康,李国通,张军,冯磊.星间高速激光通信解调器并行结构设计[J].电子设计工程,2018,26(20):10-13. 被引量：2
4向聪,王亚军,张开生.机载SAR方位空变补偿算法[J].火控雷达技术,2017,46(2):42-46.
5王智超,张鹏远,潘接林,颜永红.连接时序分类准则声学建模方法优化[J].声学学报,2018,43(6):984-990. 被引量：2
6陈欣,于俊洋,赵媛媛.基于CNN和B-LSTM的文本处理模型研究[J].轻工学报,2018,33(5):103-108. 被引量：6
7王海坤,伍大勇,刘江,王士进,胡国平,胡郁.基于时域建模的自动语音识别[J].计算机工程与应用,2017,53(20):243-248. 被引量：6
8汪琪,段湘煜.基于注意力卷积的神经机器翻译[J].计算机科学,2018,45(11):226-230. 被引量：6
9郭慧,柳林,刘晓,程鹏.深度学习下的情感分析与推荐算法[J].测绘通报,2018(9):55-58. 被引量：2
10胡函武,施伟,陈桥,李凯.基于改进差分进化算法优化极限学习机的短期负荷预测[J].宁夏电力,2018(4):36-42. 被引量：2

中文信息学报

2018年第5期

浏览历史

内容加载中请稍等...

基于循环神经网络的藏语语音识别声学模型被引量：16

参考文献8

二级参考文献110

共引文献73

同被引文献174

引证文献16

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于循环神经网络的藏语语音识别声学模型 被引量：16

参考文献8

二级参考文献110

共引文献73

同被引文献174

引证文献16

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于循环神经网络的藏语语音识别声学模型被引量：16