-
题名多优化机制下深度神经网络的音频场景识别
被引量:3
- 1
-
-
作者
杨立东
胡江涛
-
机构
内蒙古科技大学信息工程学院
-
出处
《信号处理》
CSCD
北大核心
2021年第10期1969-1976,共8页
-
基金
国家自然科学基金项目(61640012)资助
内蒙古自然科学基金项目(2017MS(LH)0602)资助。
-
文摘
随着并行计算能力的不断攀升和音频数据量的日益扩增,音频场景识别成为场景理解领域重要的研究内容之一。针对音频场景识别建模难度大和识别准确率不高的问题,本文提出了融合多优化机制的并行卷积循环神经网络算法模型。首先,将音频信号经预处理后转化为一定尺寸的梅尔声谱图,之后输入到网络模型中进行充分的空间特征和时间特征学习,最后进行识别。为了验证模型的有效性,在DCASE2019音频场景数据集上进行识别性能测试,结果显示,该算法模型对音频场景的识别准确率能够达到88.84%,优于传统网络模型,说明该算法模型对音频场景识别问题的有效性。
-
关键词
音频场景识别
卷积神经网络
批标准化机制
双向门控循环单元
-
Keywords
audio scene recognition
convolutional neural network
batch normalization
bidirectional gated recurrent unit
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-