基于融合特征以及卷积神经网络的环境声音分类系统研究被引量：21

Environment Sound Classification System Based on Hybrid Feature and Convolutional Neural Network

在线阅读下载PDF

导出

摘要环境声音识别系统主要基于深度神经网络以及种类繁多的听觉特征对环境声音进行分类识别。分析基于深度神经网络的环境分类任务中,哪种听觉特征更适合环境声音识别系统十分必要。选择了基于2个广泛使用的滤波器:梅尔和Gammatone滤波器组提取的3种声音特征。随后,提出了一个MFCC和GFCC融合的特征MGCC。最后采用文中提出的深度卷积神经网络来验证哪种特征更适合于环境声音的分类识别。实验结果表明,在基于神经网络的环境声音分类系统中,信号处理特征比频谱图特征的效果好,其中,MGCC特征具有比其他特征更好的性能。最后,用文中提出的MCC-CNN模型与其他环境声音分类模型在UrbanSound 8K数据集上进行了对比。实验结果表明,所提模型分类精度最好。 At present,the environment sound recognition system mainly identifies environment sounds with deep neural networks and a wide variety of auditory features.Therefore,it is necessary to analyze which auditory features are more suitable for deep neural networks based ESCR systems.In this paper,we chose three sound features which based on two widely used filters:the Mel and Gammatone filter banks.Subsequently,the hybrid feature MGCC is presented.Finally,a deep convolutional neural network is proposed to verify which features are more suitable for environment sound classification and recognition tasks.The experimental results show that the signal processing features are better than the spectrogram features in the deep neural network based environmental sound recognition system.Among all the acoustic features,the MGCC feature achieves the best performance than other features.Finally,the MGCC-CNN model proposed in this paper is compared with the state-of-the-art environmental sound classification models on the UrbanSound 8K dataset.The results show that the proposed model has the best classification accuracy.

作者张科苏雨王靖宇王霰宇张彦华 ZHANG Ke;SU Yu;WANG Jingyu;WANG Sanyu;ZHANG Yanhua(National Key Laboratory of Aerospace Flight Dynamics, Xi′an 710072, China;School of Astronautics, Northwestern Polytecnical University, Xi′an 710072, China;Signals, Images, and Intelligent Systems Laboratory(LISSI/EA 3956), University Paris-Est Creteil, Senart-FB Institute of Technology, 36-37 rue Charpak, 77127 Lieusaint, France)

机构地区航天飞行动力学技术重点实验室西北工业大学航天学院 Signals

出处《西北工业大学学报》 EI CAS CSCD 北大核心 2020年第1期162-169,共8页 Journal of Northwestern Polytechnical University

基金国家自然科学基金重大项目(51890884) 国家自然科学基金(61976179,61502391)资助

关键词环境声音特征融合声音分类卷积神经网络 environment sound hybrid feature sound classification convolutional neural network filter

分类号 V448.21 [航空宇航科学与技术—飞行器设计]

作者简介张科(1965—),西北工业大学教授,主要从事导航、制导与控制研究。

引文网络
相关文献

同被引文献164

1周军,张祥全,王胜辉,吕军,王剑,彭波,王晰,丁玉剑,王晓峰,杨明彬,高应云,王炳强.±400kV青藏直流线路鸟粪闪络故障分析及治理[J].电网技术,2020,44(3):1168-1174. 被引量：16
2温晓强,孙运强,申远哲,张智尊.微小型无人潜航器水声通信系统研究[J].国外电子测量技术,2022,41(5):76-82. 被引量：1
3钱博,李燕萍,唐振民,徐利敏.基于频域能量分布分析的自适应元音帧提取算法[J].电子学报,2007,35(2):279-282. 被引量：7
4张一彬,周杰,边肇祺,郭军.基于内容的音频与音乐分析综述[J].计算机学报,2007,30(5):712-728. 被引量：18
5孙牵宇,童峰,曹绍杰.基于SPCE61A的墙体空鼓声无损检测系统[J].声学技术,2007,26(6):1150-1154. 被引量：5
6金学成,汪增福.基于线性预测残差倒谱的基音周期检测[J].模式识别与人工智能,2008,21(1):104-110. 被引量：6
7连可,黄建国,王厚军,龙兵.一种基于遗传算法的SVM决策树多分类策略研究[J].电子学报,2008,36(8):1502-1507. 被引量：35
8张小梅,杨鼎才.基于支持向量机模型的环境音分类研究[J].电子测量技术,2008,31(9):121-123. 被引量：4
9张卫强,刘加.基于听感知特征的语种识别[J].清华大学学报（自然科学版）,2009(1):78-81. 被引量：21
10刘怡,蔚磊,刘子利,王鹏.中国民歌地域风格分类中的特征选择[J].电子学报,2008,36(B12):152-156. 被引量：3

引证文献21

1杨智伦,朱铮涛,陈树雄,李博,招祖炜.改进CNN的供水管道泄漏声音识别[J].国外电子测量技术,2023,42(1):153-158. 被引量：6
2薛珊,李广青,吕琼莹,毛逸维.基于卷积神经网络的反无人机系统声音识别方法[J].工程科学学报,2020,42(11):1516-1524. 被引量：12
3彭宁,陈爱斌,周国雄,陈文洁,刘晶.基于正弦注意力表征网络的环境声音识别[J].应用科学学报,2021,39(4):641-649. 被引量：5
4费鸿博,吴伟官,李平,曹毅.基于梅尔频谱分离和LSCNet的声学场景分类方法[J].哈尔滨工业大学学报,2022,54(5):124-130. 被引量：3
5吴佳赛,高振斌.基于双二流卷积和多特征融合的D-S声音分类[J].计算机应用研究,2022,39(3):693-698. 被引量：2
6曹毅,费鸿博,李平,张小勇.基于多流卷积和数据增强的声场景分类方法[J].华中科技大学学报（自然科学版）,2022,50(4):40-46. 被引量：5
7陈成,潘家华,孙静,杨宏波.基于MFCC与GFCC混合特征的先心病心音分类研究[J].计算机仿真,2022,39(7):263-269. 被引量：6
8邱志斌,王海祥,廖才波,卢祖文,况燕军,张宇.基于鸣声组合特征与CNN的电网危害鸟种识别[J].湖南大学学报（自然科学版）,2022,49(8):149-158. 被引量：3
9陈蕴博,李海军.卷积神经网络在城市声音分类中的应用研究[J].德州学院学报,2022,38(4):25-28.
10黄张衡,龙华,邵玉斌,杜庆治,苏树盟,王延凯.噪声环境下听觉特征融合的语种识别[J].现代电子技术,2023,46(5):47-54. 被引量：1

二级引证文献57

1郎巨林,郑晟.基于CNN-RNN集成的隧道事故异常声音识别[J].电子测量技术,2023,46(20):164-169. 被引量：7
2杨智伦,朱铮涛,陈树雄,李博,招祖炜.改进CNN的供水管道泄漏声音识别[J].国外电子测量技术,2023,42(1):153-158. 被引量：6
3李敬兆,邢梦垚.基于WPCE-CNN的音频感知提升机健康状况研究[J].佳木斯大学学报（自然科学版）,2022,40(1):111-115. 被引量：1
4乔栋,陈章进,邓良,屠程力.基于改进语音处理的卷积神经网络中文语音情感识别方法[J].计算机工程,2022,48(2):281-290. 被引量：15
5施峰,周坤晓.基于Siren函数改进的循环神经网络机器阅读理解[J].东莞理工学院学报,2022,29(5):47-52. 被引量：2
6李江,李丕丁.先天性心脏病筛查系统设计[J].中国医学物理学杂志,2023,40(1):100-106. 被引量：1
7王告.基于改进LeNet-5网络的污泥沉降比检测研究[J].软件导刊,2023,22(1):224-228. 被引量：1
8施峰,周坤晓.基于注意力机制的双打分式机器阅读理解模型[J].信息技术与信息化,2023(1):167-171.
9王文帅,樊宽刚,别同.基于FastICA的无人机声学检测方法[J].传感器与微系统,2023,42(2):114-117. 被引量：3
10刘闪亮,吴仁彪,屈景怡,乔晗,何雨龙.Bi-PPYOLO tiny:一种轻量型的机场无人机检测方法[J].安全与环境学报,2023,23(2):480-488. 被引量：6

1廖威平,陈平华,赵璁,赵亮,陈建兵,董梦琴.基于CNN和LightGBM的环境声音分类[J].计算机科学与应用,2019,9(10):1892-1905.
2刘景天,姜囡.基于混合特征的说话人语音分割聚类研究[J].光电技术应用,2019,34(5):37-41. 被引量：3
3赵丹华,张向锋,王致杰,于荷,姜慧楠.改进信息熵和ELM-PSO算法及其仿真验证[J].新一代信息技术,2019,2(14):83-88.
4郭卉,姜囡,任杰.基于MFCC和GFCC混合特征的语音情感识别研究[J].光电技术应用,2019,34(6):34-39. 被引量：10
5郭金伦.大型筒体结构井架吊挂平台施工技术分析[J].工程技术研究,2019,4(22):44-45.
6张尚田,陈光,邱天.基于融合特征的LSTM评分预测[J].计算机与现代化,2020,0(3):49-53. 被引量：4
7林峰.文旅产业地产是未来最具价值的综合开发模式[J].中国房地产,2020,0(2):52-54. 被引量：5
8段偲默,苗世洪,李力行,韩佶,涂青宇,李姚旺.计及预测误差动态相关性的多风电场联合出力不确定性模型[J].电力系统自动化,2019,43(22):31-37. 被引量：28
9王凌云,吴小婷,李黄强,童华敏,杨剑.柔性电动汽车和分布式电源的协同优化调度研究[J].可再生能源,2020,38(2):252-258. 被引量：7
10胡帅,向月,刘俊勇,王瑞.基于参数化隶属度匹配函数的含分布式发电配电网模糊潮流计算[J].中国电机工程学报,2019,39(18):5370-5379. 被引量：17

西北工业大学学报

2020年第1期

浏览历史

内容加载中请稍等...

基于融合特征以及卷积神经网络的环境声音分类系统研究被引量：21

同被引文献164

引证文献21

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

基于融合特征以及卷积神经网络的环境声音分类系统研究 被引量：21

同被引文献164

引证文献21

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

基于融合特征以及卷积神经网络的环境声音分类系统研究被引量：21