语音识别中听觉特征的噪声鲁棒性分析被引量：8

Analysis of noise robustness of auditory features in speech recognition

导出

摘要自动语音识别系统在噪声环境下的性能通常会显著下降，这成为制约语音识别技术广泛应用的一个重大障碍。该文在他人的基于Gammatone的听觉特征（GFCC特征）研究基础上，进一步对GFCC与基于Mel频率的倒谱系数（MFCC）在不同噪声环境下的性能表现进行分析研究。选择5种人工和自然噪声进行比较试验：白噪声、粉红噪声、褐色噪声、背景说话人噪声、汽车噪声。通过混合不同类型和不同强度的噪声，系统地研究了基于听觉特性的GFCC特征的特性和抗噪能力；特别地，用不同频段的正弦波噪声与纯净语音混合，分析了GFCC和MFCC在各个频带上的噪声鲁棒性。研究发现，与传统的MFCC相比，GFCC对低频噪声具有更高的鲁棒性，而对中高频噪声相对敏感。由于人类发音通常在较低频率（300～700Hz），这一特性使得GFCC在语音识别任务中具有良好的抗噪能力。实验结果表明，GFCC在多种常见噪声环境下都取得了比MFCC更好的识别效果，特别是在低信噪比的情况下表现出更大的优势。 A particular difficulty of automatic speech .recognition in real applications involves significant performance degradation in noisy environment. Based on the research on gammatone-based auditory features （GFCCs） proposed by other researchers, an additional comparative study on the GFCC and the MFCC was presented for various noise conditions. Particularly, the behavior of GFCC/MFCC features with noise in different frequency bands was analyzed by mixing the test speech with sine noises to show that the GFCC is more robust against low-frequency noises than the MFCCwhile more sensitive to noises at middle and high frequencies. This property is desirable for speech recognition since most of the information of human speech resides in the low frequency band of 300--700 Hz. Experimental results demonstrate that the GFCC exhibits significant advantages over the MFCC for various noise conditions, especially when the SNR is low.

作者李银国欧阳希子郑方

机构地区重庆邮电大学清华大学语音和语言技术中心

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2013年第8期1082-1086,共5页 Journal of Tsinghua University(Science and Technology)

关键词语音识别 Gammatone滤波器基于Gammatone 的听觉特征(GFCC) 鲁棒性 speech recognition gammatone filters gammatone- based auditory feature （GFCC） robust

分类号 TN912.3 [电子电信—通信与信息系统]

作者简介李银国（1955-），男（汉），湖北，教授。E-mail：liyg@cqupt．edu．cn

引文网络
相关文献

同被引文献57

1栗学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报,2005,30(1):69-75. 被引量：34
2刘鹏,王作英.多模式语音端点检测[J].清华大学学报（自然科学版）,2005,45(7):896-899. 被引量：6
3李晔,张仁智,崔慧娟,唐昆.低信噪比下基于谱熵的语音端点检测算法[J].清华大学学报（自然科学版）,2005,45(10):1397-1400. 被引量：37
4张明新,倪宏,张东滨,陈国平.基于PMC方法的鲁棒声学模型研究[J].中国科学院研究生院学报,2006,23(5):660-664. 被引量：1
5李朝晖,迟惠生.听觉外周计算模型研究进展[J].声学学报,2006,31(5):449-465. 被引量：22
6ION V, HAEB-UMBACH R. A novel uncertainty decoding rule with applications to transmission error robust speech recognition[ J]. IEEE Transac- tions on Audio Speech and Language Processing, 2008, 16(5) : 1047 -1060.
7QI Y Y , HUNT B R. Voiced-unvoiced-silence classification of speech using hybrid features and a network classifier[ J]. IEEE Transactions on Speech and Audio Processing, I993, 1 (2) : 250 -255.
8RABINER L R, SAMBUR M R. An algorithm for determining the endpoints of isolated utterances [ J ]. Bell System Technical Journal, 1975,54 (2) : 297 -315.
9KYRIAKIDES A, P1TRIS C, FINK A, et al. Isolated word endpoint detection using time-frequency variance kernels[ J]. IEEE Transactions on Signals, Systems and Computers, 2011:1041 -1045.
10Qi Jun, et al. Auditory features based on Gammatone filters for ro- bust speech recognition[C]. 2013 IEEE International Symposium on Circuits and Systems (ISCAS). 2013:305 -308.

引证文献8

1王洋,冯瑶,丁喜波,陈德运.基于时频结合的带噪语音端点检测算法[J].黑龙江大学自然科学学报,2016,33(3):410-415. 被引量：2
2张晓丹,黄丽霞,张雪英.关于在噪声环境下语音识别优化研究[J].计算机仿真,2016,33(8):172-176. 被引量：17
3宋文林,刘斌.智能语音识别系统噪声鲁棒性研究[J].信息技术与标准化,2019,0(6):40-42. 被引量：3
4周扬,李云飞,袁宏永,张飞,陈涛.基于听觉显著图的长输管道漏失检测算法[J].吉林大学学报（工学版）,2020,50(4):1487-1494. 被引量：4
5肖金壮,李瑞鹏,纪盟盟.应用AAM损失函数的无文本说话人识别[J].激光杂志,2021,42(11):87-91. 被引量：3
6陈亮,邵玉斌,龙华,杜庆治,彭艺,唐维康.基于时域Gammatone滤波特征的广播语种识别[J].信号处理,2022,38(3):599-608. 被引量：4
7马宇飞,陈骁,王荔,陈龙,张晓灿.一种基于Gammatone滤波器组的语音识别噪声鲁棒特征[J].电声技术,2022,46(9):97-100. 被引量：1
8魏远征.融合人工智能的音频信号降噪技术研究[J].电声技术,2024,48(3):144-146.

二级引证文献34

1冯一帆,姜文涛.基于语音识别的智能书架设计与实现[J].软件导刊,2017,16(5):57-59. 被引量：3
2孙佳婷.低码率音频质量客观评价算法研究[J].黑龙江大学工程学报,2017,8(2):80-87. 被引量：3
3黄丽霞,王亚楠,张雪英,王洪翠.基于深度自编码网络语音识别噪声鲁棒性研究[J].计算机工程与应用,2017,53(13):49-54. 被引量：9
4张海波,周民伟,刘晓辉,胡占生.语音识别技术在医院临床的探索与应用[J].中国数字医学,2017,12(10):18-20. 被引量：3
5张海波,周民伟,刘晓辉,赵晓庆.智能语音识别技术在医院临床的探索与应用[J].中国卫生信息管理杂志,2017,14(5):660-663. 被引量：25
6王华朋.基于听觉模型的法庭语音证据特征量化[J].中国刑警学院学报,2018(1):119-122. 被引量：6
7姜囡,谢俊仪.低信噪比下语音端点检测算法改进设计[J].中国刑警学院学报,2018(1):123-128. 被引量：2
8傅大梅,盛彬.语音识别无线开关控制装置的设计[J].现代电子技术,2017,40(14):33-35. 被引量：14
9付学桐.语音识别预处理过程及其存在问题[J].科技传播,2019,11(8):135-136. 被引量：1
10黎雨星,梁正友,孙宇.结合差分演化和逻辑回归的构音障碍自动识别方法[J].计算机与现代化,2019,0(8):1-5. 被引量：1

1林海波,王可佳.一种新的听觉特征提取算法研究[J].南京邮电大学学报（自然科学版）,2017,37(2):27-32. 被引量：11
2赵红,李双田.Gammatone滤波器修正的多级线性预测去混响[J].信号处理,2014,30(9):1019-1024. 被引量：2
3熊冰峰,曾以成,谢小娟.一种改进的听觉特征参数应用于说话人识别[J].计算机应用,2016,36(A01):82-85. 被引量：6
4潘欣裕,赵鹤鸣.Gammatone与Wiener滤波联合语音增强研究[J].计算机工程与应用,2010,46(26):14-16. 被引量：2
5王曙光,曾向阳,王征,王强.水下目标的Gammatone子带降噪和希尔伯特-黄变换特征提取[J].兵工学报,2015,36(9):1704-1709. 被引量：7
6张卫强,郭璁,张乔,康健,何亮,刘加,Johnson Michael T.一种基于计算听觉场景分析的语音增强算法[J].天津大学学报（自然科学与工程技术版）,2015,48(8):663-669. 被引量：2
7罗元,陈君,张毅.基于伽马啁啾滤波器组的听觉特征提取算法[J].信息与控制,2013,42(5):589-594. 被引量：2
8Qiao Jie Zhao Li Zou Cairong.OPTIMIZED SUB-BAND ADAPTIVE AEC USING EAR AUDITORY FEATURE[J].Journal of Electronics(China),2007,24(2):267-270.
9高永生.双向HFC网络回传噪声的分析和处理[J].辽宁广播电视技术,2008(1):60-61.
10尹辉,谢湘,匡镜明.基于听觉模型与自适应分数阶Fourier变换的声学特征在语音识别中的应用[J].声学学报,2012,37(1):97-103. 被引量：14

清华大学学报（自然科学版）

2013年第8期

浏览历史

内容加载中请稍等...

语音识别中听觉特征的噪声鲁棒性分析被引量：8

同被引文献57

引证文献8

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

语音识别中听觉特征的噪声鲁棒性分析 被引量：8

同被引文献57

引证文献8

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

语音识别中听觉特征的噪声鲁棒性分析被引量：8