-
题名多任务实时声音事件检测卷积模型与复合数据扩增
被引量:4
- 1
-
-
作者
刘臣
倪仁倢
周立欣
-
机构
上海理工大学管理学院
-
出处
《计算机应用研究》
CSCD
北大核心
2023年第4期1080-1087,共8页
-
基金
国家自然科学基金资助项目(71774111)
中国博士后科学基金资助项目(2021M69235)
上海市哲学社会科学规划课题资助项目(2021BTQ003)。
-
文摘
现有的声音事件检测研究多为对离线音频进行分析,且模型参数量较多、计算效率低,不适用于实时检测。提出一种面向多任务实时声音事件检测的轻量化卷积神经网络模型,它将唤醒与检测任务整合成多任务学习框架,此外模型的卷积结构联合了稠密连接、Ghost模组与SE注意力机制;另外还提出了一种复合数据扩增方法,将音频变换、随机裁剪与频谱掩蔽相结合。实验结果显示,该模型在ESC-10和Urbansound8K数据集上的平均预测准确率高于当前新型的基线模型2%以上,同时模型的参数和内存更少。研究表明,多任务学习的方式节省了计算量,又因为卷积结构复用了中间层特征,模型可以快速地反馈检测结果。另外,复合数据方法相比传统方法使模型获得了更好的性能和鲁棒性。
-
关键词
实时声音事件检测
轻量化卷积神经网络
多任务学习
数据扩增
-
Keywords
real-time sound event detection
efficient CNN
multi-task learning
data augmentation
-
分类号
TP391.42
[自动化与计算机技术—计算机应用技术]
-