基于数据增广的声学场景分类被引量：1

Acoustic Scene Classification Based on Data Augment Technology

在线阅读下载PDF

导出

摘要声学场景分类是计算机听觉领域的热点方向之一,相比计算机视觉,特定场景下音频数据的收集和标注成本相对较高,如何利用有限的声学场景音频获得较高的分类准确率成为当前研究的重点内容。利用深度学习技术,结合轻量化网络模型mobilenetv2以及Mel声谱特征,基于城市场景分类数据集(urbansound8k)对三种数据增广技术SpecAugment、Mixup以及Cutmix进行全面的消融实验,结果表明:Cutmix增广技术将基线结果提升了0.71%,单独的Mixup以及SpecAugment增广技术对分类结果起抑制效果,SpecAugment结合Cutmix增广技术获得了最优的测试结果,分类准确率达到97.097%;其次对比最优方案下各类标签的F1分数和T-SNE降维分布图发现,二者具有很好的对应关系,表明T-SNE技术适用于Mel声谱特征的降维及分布观测。 Acoustic scene classification is one of the hot topics in the field of computer hearing.Compared with computer vision,the cost of audio data collection and annotation in specific scenes is relatively high.How to use limited acoustic scene audio to obtain higher classification accuracy has become the focus of current research.In this paper,using deep learning technology,combined with the lightweight network mobilenetv2 and Mel spectral features,based on the urban scene classification dataset(urbansound8k),three kinds of data augmentation technologies,SpecAument,Mixup and Cutmix are carried out.The results show that the Cutmix augmentation technology can improve results by 0.71%.The separated Mixup and SpecAument augmentation technology inhibite the classification results.The best test result is obtained by combining SpecAument with Cutmix augmentation technology,and the classification accuracy reaches 97.097%.Secondly,through the comparison of F1 score of all kinds of labels under the optimal scheme and the distribution map using T-SNE,it is found that the two have a good corresponding relationship,which indicates that T-SNE technology is suitable for dimension reduction and distribution observation of Mel Spectrogram.

作者李源马成男李关防王强张文武 LI Yuan;MA Cheng-nan;LI Guan-fang;WANG Qiang;ZHANG Wen-wu(Navy Marine Equipment Project Management Center, Beijing 100071;Jiangsu Automation Research Institute, Lianyungang 222061, China)

机构地区海装重大专项装备项目管理中心江苏自动化研究所

出处《指挥控制与仿真》 2021年第1期60-64,共5页 Command Control & Simulation

关键词声学场景分类数据增广 SpecAugment Mixup Cutmix acoustic scene classification data augmentation SpecAugment Mixup Cutmix

分类号 TN912.34 [电子电信—通信与信息系统]

作者简介李源(1983—),男,辽宁本溪人,工程师,研究方向为智能指挥与控制;马成男(1993—),男,硕士,助理工程师。

引文网络
相关文献

同被引文献8

1蓝亦伦,孟敏,武继刚.基于视觉语义联合嵌入和注意力机制的情感预测[J].计算机科学,2020,47(11):250-254. 被引量：8
2陈巧红,于泽源,孙麒,贾宇波.基于注意力机制与LSTM的语音情绪识别[J].浙江理工大学学报（自然科学版）,2020,43(6):815-822. 被引量：10
3唐庄,王志舒,周爱,冯美姗,屈雯,鲁明羽.面向文本分类的transformer-capsule集成模型[J].计算机工程与应用,2020,56(24):151-156. 被引量：15
4陈伟,孙强,齐月月,徐晨.深度卷积神经网络在心音分类方法中的应用[J].计算机工程与应用,2021,57(16):182-189. 被引量：4
5樊思含.基于改进BP神经网络的音乐流派分类[J].软件工程,2021,24(9):17-20. 被引量：2
6赵一鸣.基于深度学习的音乐配乐识别研究[J].微型电脑应用,2021,37(10):60-63. 被引量：4
7武霖,孙静宇.多分支RA胶囊网络及在图像分类中的应用[J].计算机科学,2022,49(6):224-230. 被引量：1
8李堃,李猛,李艳玲,林民.基于LSTM-RPA音乐流行趋势预测研究[J].计算机工程与应用,2022,58(24):134-142. 被引量：3

引证文献1

1易伶.基于ResNet网络的音乐类型分类及标签标记模型研究[J].信息技术,2025,49(2):80-85.

1牛富强,薛睿超,周在明,袁万军,王朋生,杨燕明.印太瓶鼻海豚(Tursiops aduncus)通讯声信号分类及特征参数的环境差异性分析[J].声学学报,2020,45(2):189-195. 被引量：6
2丁建伟.中南部非洲大型供水项目取水围堰施工技术应用与分析[J].工程技术研究,2020,5(21):103-104. 被引量：3
3蒋淑旭,李浩鹏.人脸识别:现实考量、理论省思、规范路径[J].淮北职业技术学院学报,2021,20(2):106-110.
4方鹏,欧阳常悦.基于深度残差网络的刀具磨损量预测方法研究[J].价值工程,2021,40(3):196-197.
5左艳,黄钢,聂生东.深度学习在医学影像智能处理中的应用与挑战[J].中国图象图形学报,2021,26(2):305-315. 被引量：23
6戴晨逸,徐飞.间歇前抑制惊跳反射在听觉科学领域的研究进展[J].中国听力语言康复科学杂志,2021,19(2):118-122.
7吴友.矿山法隧道掌子面多岩性处理施工技术[J].建筑机械化,2021,42(1):37-40.
8无,李爽,吴鹏飞.一种多基站OFDM系统下行链路资源分配方法[J].中国科技成果,2021(3):71-71.

指挥控制与仿真

2021年第1期

浏览历史

内容加载中请稍等...

基于数据增广的声学场景分类被引量：1

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于数据增广的声学场景分类 被引量：1

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于数据增广的声学场景分类被引量：1