基于CNN-BGRU的音素识别研究被引量：1

Research of phoneme recognition based on the CNN-BGRU model

在线阅读下载PDF

导出

摘要音素是一个语言体系中最小的语音单位,音素识别在大词汇语音识别任务中不受词汇和语句的限制.因此,选择音素作为识别单元,建立基于CNN-BGRU的神经网络模型,实现音素语谱图的分类.首先,使用短时傅里叶变换生成音素语谱图作为模型的输入;其次建立CNN-BGRU模型,利用改进的VGGNet模型提取音素语谱图的特征,再使用双向门控循环单元(BGRU)实现音素语谱图的序列信息表示;最后,通过Softmax分类器实现音素语谱图的分类.实验使用TIMIT英语语音数据集进行音素语谱图识别,准确率达到98.6%,优于CNN(VGG16)、CNN-RNN、CNN-BRNN、CNN-BLSTM这4个模型. Phoneme is the smallest phonetic unit in a language system.Phoneme recognition is not restricted by words and sentences in the task of large vocabulary speech recognition.Therefore,in this paper,phoneme is selected as the recognition unit,and a neural network model based on CNN-BGRU is established to realize the classification of the phonemic spectrum.Firstly,the short-time Fourier transform is used to generate the phonemic spectrum as the input of the model.Secondly,the CNN-BGRU model is established to extract the features of the phonemic spectrum by using the improved VGGNet model,and then the sequence information representation of the phonemic spectrum is realized by using the two-way gated loop unit(BGRU).Finally,Softmax classifier is used to realize the classification of the phonemic spectrum.In the experiment,TIMIT English speech data set is used for phoneme recognition with an accuracy of 98.6%,which is better than CNN(VGG16),CNN-RNN,CNN-BRNN or CNN-BLSTM.

作者和丽华江涛潘文林杨皓然 HE Li-hua;YANG Hao-ran;JIANG Tao;PAN Wen-lin(School of Mathematics and Computer Science,Yunnan Minzu University,Kunming 650500,China)

机构地区云南民族大学数学与计算机科学学院

出处《云南民族大学学报（自然科学版）》 CAS 2020年第5期493-500,共8页 Journal of Yunnan Minzu University:Natural Sciences Edition

基金国家自然科学基金(61363022)。

关键词音素识别卷积神经网络双向门循环机制 phoneme recognition convolutional neural network BGRU

分类号 TN912.34 [电子电信—通信与信息系统]

作者简介和丽华(1995-),女,硕士研究生.主要研究方向:智能计算;通信作者:江涛(1973-),男,博士,教授,硕士生导师.主要研究方向:特定领域建模、建模语言形式化和验证.

引文网络
相关文献

参考文献4

1李如龙.论汉语方言语音的演变[J].语言研究,1999,19(1):102-113. 被引量：30
2陈琦,张文林,牛铜,李弼程.一种基于RBM的深层神经网络音素识别方法[J].信息工程大学学报,2013,14(5):569-574. 被引量：3
3黎长江,胡燕.基于循环神经网络的音素识别研究[J].微电子学与计算机,2017,34(8):47-51. 被引量：6
4郑雄风,丁立新,万润泽.基于用户和产品Attention机制的层次BGRU模型[J].计算机工程与应用,2018,54(11):145-152. 被引量：12

二级参考文献14

1Mohamed A, Sainath T N, Dahl G, et al. Deep Belief Networks Using Discriminative Features for Phone Recognition[ C ]// IEEE International Conference on Acoustic Speech and Signal Processing. 2011:5060-5063.
2Bourlard H, Morgan N. Conneetionist Speech Recognition: A Hybrid Approach[ M]. Norwell, MA: Kluwer, 1993.
3Ellis D P W, Singh R, Sivadas S. Tandem Acoustic Modeling in Large-Vocabulary Recognition[ C ]//IEEE International Con- ference on Acoustic Speech and Signal Processing. 2001:517-520.
4Sainath T N, Kingsbury B, Ramabhadran B, et al. Making Deep Belief Network Effective For Large Vocabulary Continuous Speech Recognition[ C]//IEEE Automatic Speech Recognition and Understanding Workshop. 2011:30-35.
5Dahl G, Yu D, Deng L, et al. Context-Dependent Pre-Trained Deep Neural Networks for Large Vocabulary Speech Recogni- tion[J].IEEE Trans. Audio, Speech, Lang. Process, 2012, 20(1):30-42.
6Hinton G E. A Practical Guide to Training Restricted Boltzmann Machines[ EB/OL]. [ 2013-04-28 ]. http ://www. cs. toronto. edu/- hinton/absps/guideTR, pdf.
7Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks[ C ]// Advances in Neural Information Processing Systems. 2007,19 : 153-160.
8Hinton G E. Training products of experts by minimizing contrastive divergence [ J ]. Neural Computation, 2002,14 ( 8 ) : 1711-1800.
9Lee K F, Hon H W. Speaker-independent phone recognition using hidden Markov modets [ J ]. IEEE Trans. Acoustic, Speech, Signal Process, 1989,37 ( 11 ) : 1641-1648.
10Sha F, Saul L. Large margin Gaussian mixture modeling for phonetic classification and recognition[ C ]//IEEE International Conference on Acoustic Speech and Signal Processing. 2006:265-268.

共引文献47

1包智明.论汉语重音[J].韵律语法研究,2021(2):4-22.
2李如龙.论汉语方言比较研究(下)──世纪之交谈汉语方言学[J].语文研究,2000(3):11-18. 被引量：8
3苏倩.大理方言的语音演变[J].安徽文学（下半月）,2010(8):243-243.
4王临惠,张维佳.论中原官话汾河片的归属[J].方言,2005,27(4):372-378. 被引量：28
5黄晓东.二百年来北京话清入字归调的变化[J].语言教学与研究,2006(3):46-54. 被引量：3
6张维佳,张洪燕.远指代词“兀”与突厥语[J].民族语文,2007(3):38-43. 被引量：20
7原慧艳.晋城方音阴声韵百年来的演变[J].晋中学院学报,2008,25(2):1-4.
8彭小川,梁欣璐.广州荔湾区青少年粤语声母音变情况研究[J].语言研究,2008(1):107-116.
9张弼蕊.开封方言中子变韵的演变[J].现代语文（下旬．语言研究）,2008(11):90-92. 被引量：4
10黄娟.江苏张家港大圩双方言岛的现状[J].安徽文学（下半月）,2007(8):122-123. 被引量：1

同被引文献2

1田佳鹭,邓立国.基于改进VGG-16神经网络的图像分类方法[J].计算技术与自动化,2021,40(2):131-135. 被引量：12
2黄忠祥,李明.BiGRU结合注意力机制的文本分类研究[J].北京联合大学学报,2021,35(3):47-52. 被引量：3

引证文献1

1邓志平,王冬霞,马晓冬,曹玉东.基于注意力机制的NewVGG16-BiGRU鼾声分类[J].计算机应用,2023,43(S01):276-280. 被引量：3

二级引证文献3

1张飞.基于注意力机制和卷积神经网络的网络安全感知预测[J].佳木斯大学学报（自然科学版）,2024,42(9):129-132.
2郭杰.融合注意力机制的基于MIDI控制器自动记谱算法设计实现[J].自动化与仪器仪表,2024(12):205-208.
3姚丽莎.深度度量注意力混合模型表情识别方法[J].计算机工程与应用,2025,61(7):245-254.

1周乐,王雪,孙雯.基于泛雅SPOC平台的《IT英语》视频公开课建设路径探究[J].海外英语,2020(3):18-19.
2胡宪文.农村中学“校园足球”开展现状的调查研究[J].课程教育研究,2020(25):104-104.
3刘涛.构建“T”型人才培养正向循环机制[J].金融博览,2020(20):60-63. 被引量：2
4李建文,朱悦.皮肤听声原理在语音合成中的应用研究[J].现代电子技术,2020,43(19):35-39.
5廖阔,丁效,秦兵,刘挺,黄虎杰.事件表示学习综述[J].智能计算机与应用,2020,10(6):12-18. 被引量：2
6曹燕,董一鸿,邬少清,陈华辉,钱江波,潘善亮.动态网络表示学习研究进展[J].电子学报,2020,48(10):2047-2059. 被引量：7
7赵迪,邵利平,任平安.结合二次聚类编码的生成式可逆信息隐藏方法[J].计算机科学与探索,2020,14(11):1849-1864.
8石胜辉,吴德操,王鑫,聂青林,刘志江,罗彬彬,刘恩华,柳鹏,赵明富.氧化石墨烯包覆金纳米壳修饰长周期光栅的免疫传感器[J].光学学报,2020,40(18):15-24. 被引量：6

云南民族大学学报（自然科学版）

2020年第5期

浏览历史

内容加载中请稍等...

基于CNN-BGRU的音素识别研究被引量：1

参考文献4

二级参考文献14

共引文献47

同被引文献2

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于CNN-BGRU的音素识别研究 被引量：1

参考文献4

二级参考文献14

共引文献47

同被引文献2

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于CNN-BGRU的音素识别研究被引量：1