基于BP神经网络的耳语音转换为正常语音的研究被引量：3

Reconstruction of Normal Speech from Whispered Speech based on BP Neural Network

导出

摘要提出了一种基于BP神经网络的汉语耳语音转换为正常语音的方法。首先提取正常语音、耳语音的共振峰参数,使用BP神经网络训练出耳语音到正常语音共振峰参数的转换模型;然后根据模型求出与耳语音对应的正常语音共振峰参数,采用共振峰合成的方法将耳语音转换为正常语音。实验结果表明:使用该方法转换的正常语音DRT得分为80%,MOS得分为3.5,在可懂度和音质方面均达到了满意的效果。 This paper tells of a new approach for reconstructing normal speech from Chinese whispered speech based on BP neural network. First, the formants of normal speech and whispered speech are acquired, and the BP neural network is used to get a model of the conversion from the whispered speech to the formants of normal speech, then the formant of whispered speech is converted by adopting this model. Finally, the whispered speech is converted into the normal speech by using the formant synthesizer. Simulation results show that the score of the DRT of the converted speech is 80% and the MOS is 3.5, both intelligibility and quality of the converted speech are satisfied.

作者韩韬陶智顾济华赵鹤鸣李玲

机构地区苏州大学物理科学与技术学院苏州大学电子信息学院

出处《通信技术》 2009年第2期152-155,共4页 Communications Technology

基金国家自然科学基金(the National Natural Science Foundation of China under Grant No.60572076) 江苏省高校自然科学研究计划基金资助项目(No.05JKB510113) 国家级大学生创新性实验计划项目(No.57315755)。

关键词耳语音语音转换 BP神经网络共振峰 whispered speech speech conversion BP neural network formant

分类号 TN912.33 [电子电信—通信与信息系统]

作者简介韩韬（1984-），男，硕士研究生，主要研究方向为语音信号处理; 陶智（1970-），男，副教授，硕导，主要研究方向为多媒体信息处理和语音信号处理；顾济华（1957-），男，教授，博导，主要研究方向为信息处理和光电子技术；赵鹤鸣（1957-），男，教授，博导，主要研究方向为语音信号处理、多媒体信息处理和智能计算；李玲，（1986-），女，本科生。

引文网络
相关文献

参考文献9

1Tartter V C. What' s in a whisper. J[J]. Acoust. Soc. Am., 1989, 86 (5) : 1678-1683.
2刘莹,李国锋.用线性预测法实现气声语音的重建[J].电声技术,1995,19(9):2-4. 被引量：2
3Morris R W, Clements M A. Reconstruction of speech from whispers[J]. Medical Engineering & Physics, 2002, 24(8): 515-520.
4樊星,卢晶,徐柏龄.汉语耳语音转换为正常音的研究[J].电声技术,2005,29(12):44-47. 被引量：11
5Higashikawa M. Perceived pitch of whispered vowelsrelationship with formant frequencies:a preliminary study[J]. J. voice, 1996,10(2):1678-1683.
6Markel J D. Digital Inverse Filtering A New Tool for Formant Trajectory Estimation[J].IEEE Trans. on Audio and Electroacoustics, 1972,20(2):129-137.
7Rao P, Barman A D. Speech formant frequency estimation: evaluating a nonstationary analysis method[J].Signal Processing, 2000,80(8): 1655-1667.
8郁伯康,郁梅.LPC方法提取语音信号共振峰的分析[J].电声技术,2000,24(3):3-8. 被引量：13
9李艳雄,汪鲁才.基于线性预测的数字语音参数估计[J].声学与电子工程,2005(3):28-30. 被引量：2

二级参考文献23

1栗学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报,2005,30(1):69-75. 被引量：34
2刘莹,李国锋.用线性预测法实现气声语音的重建[J].电声技术,1995,19(9):2-4. 被引量：2
3Morris R W,Clements M A.Reconstruction of Speech From Whispers.Medical Engineering & Physics,2002,24(8) :515-520.
4杨顺安.浊音源动态特性对合成音质的影响[J].中国语文,1986,3:173-181.
5.[EB/OL].http://www.enounce.com,.
6J D Markel, A H Gray Jr. Linear Prediction of Speech[M].New York: Springer-verlag, 1976.
7B S Atal, S L hananer. Speech Analysis and Synthesis by Linear Prediction of the Speech Ware[J]. JASA, 1971, 50:637-655.
8J D Markel. Digital Inverse Filtering A New Tool for Formant Trajectory Estimation[J]. IEEE Trans on Audio and Electroacoustics, 1972, 20:129-13.
9J Makhoul. Linear prediction: A tutorial review[J]. Proc IEEE, 1976, 64: 99-118.
10DGChilders.Speech processing and Synthesis Toolboxes[M].北京:清华大学出版社,2004..

共引文献24

1王坤赤,蒋华.一种基于语音频谱的基频和共振峰提取算法[J].信息技术,2007,31(10):20-22. 被引量：2
2赵毅,尹雪飞,陈克安.一种新的基于倒谱的共振峰频率检测算法[J].应用声学,2010,29(6):416-424. 被引量：9
3樊星,卢晶,徐柏龄.汉语耳语音转换为正常音的研究[J].电声技术,2005,29(12):44-47. 被引量：11
4姜占才,袁海良.基于声卡和MATLAB的数据采集与分析系统[J].青海大学学报（自然科学版）,2006,24(6):67-69. 被引量：6
5许慧燕,钱盛友.湖南方言声频特性的计算机分析[J].电声技术,2007,31(4):56-58. 被引量：2
6余伶俐,蔡自兴,陈明义.语音信号的情感特征分析与识别研究综述[J].电路与系统学报,2007,12(4):76-84. 被引量：27
7何峰,陈晓清,李国锁,林嘉宇.一种新的语音信号共振峰提取的算法[J].信号处理,2007,23(4):618-621. 被引量：6
8赵艳,赵力,邹采荣.耳语音的语音处理研究综述[J].声学技术,2008,27(4):562-569. 被引量：4
9金赟,赵艳,黄程韦,赵力.耳语音情感数据库的设计与建立[J].声学技术,2010,29(1):63-68. 被引量：8
10陈浩,钱宇虹,周晓琴,郭梦和.普通话单音节词四声的时间频率分析三维语谱图研究[J].南方医科大学学报,2010,30(8):1805-1809.

同被引文献15

1栗学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报,2005,30(1):69-75. 被引量：34
2康永国,双志伟,陶建华,张维.基于混合映射模型的语音转换算法研究[J].声学学报,2006,31(6):555-562. 被引量：13
3张勇,赵晓群.基于线性预测模型的氦语音增强算法研究[J].声学技术,2007,26(1):111-116. 被引量：3
4Morris W R.Enhancement and Recognition of Whispered Speech[D].USA:Georgia Institute of Technology,2002.
5Morris R W,Clements M A.Reconstruction of Speech from Whispers[J].Medical Engineering&Physics,2002,24(7-8):515-420.
6孙静,陶智,顾济华,赵鹤鸣.基于LMS自适应滤波的耳语音增强的研究[J].通信技术,2007,40(12):394-396. 被引量：7
7赵艳,赵力,邹采荣.耳语音的语音处理研究综述[J].声学技术,2008,27(4):562-569. 被引量：4
8张焱,姜惠春,黄志同.隐马尔可夫模型和动态时间现正统一框架下的汉语全音节语音识别研究[J].声学学报,1998,23(6):555-563. 被引量：8
9俞一彪,曾道建,姜莹.采用独立说话人模型的语音转换[J].声学学报,2012,37(3):346-352. 被引量：8
10陶智,赵鹤鸣,谈雪丹,顾济华,张晓俊,吴迪.采用扩展型双线性变换法将耳语音转换为正常语音的研究[J].声学学报,2012,37(6):651-658. 被引量：4

引证文献3

1谈雪丹,顾济华,赵鹤鸣,陶智,沈圆圆.基于HHT瞬时能频值的含噪耳语音声韵分割[J].通信技术,2010,43(6):207-209. 被引量：1
2周健,窦云峰,刘荣敏,王华彬,陶亮.采用低维特征映射的耳语音向正常音转换[J].声学学报,2018,43(5):855-863. 被引量：2
3王霞,刘婕,王光艳,王蒙军.基于广义回归神经网络的面罩语音矫正研究[J].现代电子技术,2017,40(17):60-63. 被引量：4

二级引证文献7

1韩德亮,于凤芹.一种对汉语孤立字词进行声韵分割的时频方法[J].计算机工程与应用,2012,48(16):153-156.
2张成龙,郑凯,刘杰.基于小波包能量谱和改进FOA-GRNN的轴承寿命预测[J].组合机床与自动化加工技术,2020(7):73-76. 被引量：7
3章瑾,冯平.影视动画配音节奏特征自动提取系统设计[J].现代电子技术,2020,43(18):59-63. 被引量：1
4庞聪,连海伦,周健,王华彬,陶亮.一种基于特征融合的耳语音向正常音的转换方法[J].南京航空航天大学学报,2020,52(5):777-782.
5许彩霞,潘磊,付晓伟.无创呼吸机面罩设计中患者面部防压疮研究[J].自动化与仪器仪表,2021(4):215-218. 被引量：1
6张秋臣,张建国,屈海涛,李明.基于改进FOA和GRNN组合模型的滚动轴承寿命预测[J].机械设计与研究,2022,38(4):129-131. 被引量：5
7张海霞,李灿.调心轴承退化特性WPES提取及FOA-GRNN算法预测分析[J].机械设计与制造,2025(6):159-162.

1陶智,赵鹤鸣,谈雪丹,顾济华,张晓俊,吴迪.采用扩展型双线性变换法将耳语音转换为正常语音的研究[J].声学学报,2012,37(6):651-658. 被引量：4
2潘欣裕,赵鹤鸣,陈雪勤,徐敏.基于EMD拟合特征的耳语音端点检测[J].电子与信息学报,2008,30(2):362-366. 被引量：6
3大同.出色的画面调教能带出耳目一新的感觉 SHARP XV-Z15000A使用心得[J].家庭影院技术,2010(1):72-74.
4谈雪丹,顾济华,赵鹤鸣,陶智,韩韬,吴俊.基于HHT瞬时能频值的耳语音端点检测[J].计算机工程与应用,2010,46(29):147-150. 被引量：2
5张广芮.DSL技术在电信宽带接入的业务发展及挑战[J].发现,2007,0(S2):280-282.
6樊星,卢晶,徐柏龄.汉语耳语音转换为正常音的研究[J].电声技术,2005,29(12):44-47. 被引量：11
7陈盼弟,黄华,何凌,尹恒.基于HMM和LPCC的腭裂语音辅音省略自动识别算法[J].信息与电脑（理论版）,2014,0(4):67-69. 被引量：2
8汪成亮,张玉维.基于共振峰合成和韵律调整的语音验证码方法研究[J].计算机应用研究,2011,28(7):2458-2461. 被引量：4
9章文义,朱杰,陈斐利.一种新的共振峰参数提取算法及在语音识别中的应用[J].计算机工程,2003,29(13):67-68. 被引量：3
10黄泽镇,杨行峻.用HLPC算法估计共振峰参数的精度研究[J].电子学报,1990,18(5):27-33.

通信技术

2009年第2期

浏览历史

内容加载中请稍等...

基于BP神经网络的耳语音转换为正常语音的研究被引量：3

参考文献9

二级参考文献23

共引文献24

同被引文献15

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于BP神经网络的耳语音转换为正常语音的研究 被引量：3

参考文献9

二级参考文献23

共引文献24

同被引文献15

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于BP神经网络的耳语音转换为正常语音的研究被引量：3