-
题名声景识音:数字化时代声学场景分类的探索与前沿
- 1
-
-
作者
庞鑫
葛凤培
李艳玲
-
机构
内蒙古师范大学计算机科学技术学院
北京邮电大学图书馆
内蒙古师范大学无穷维哈密顿系统及其算法应用教育部重点实验室
-
出处
《计算机工程》
北大核心
2025年第6期1-19,共19页
-
基金
国家自然科学基金(12204062,62266033,61806103,61562068)
无穷维哈密顿系统及其算法应用教育部重点实验室开放课题(2023KFZD03)
+2 种基金
内蒙古自治区自然科学基金(2022LHMS06001)
内蒙古师范大学基本科研业务费专项资金(2022JBQN106,2022JBQN111,2022JBTD016)
内蒙古师范大学研究生创新基金(CXJJS23066)。
-
文摘
声学场景分类(ASC)旨在让计算机模拟人类听觉识别不同的声学环境,是计算机听觉领域中具有挑战性的任务之一。随着智能音频处理技术以及神经网络学习算法的快速进步,近年来ASC任务也涌现出一系列新算法和新技术。为了全面展示该领域的技术发展脉络和演进过程,梳理了该领域的早期工作和近期发展,全面介绍了ASC任务。首先描述了ASC的应用场景和面临的挑战;其次详细介绍了ASC的主流框架,重点阐述了应用于此领域的深度学习算法;然后系统性地总结了ASC的前沿探索与延伸任务以及公开数据集;最后对ASC的发展趋势进行探讨与展望。
-
关键词
声学场景分类
深度学习
音频分类
语音识别
数据增强
-
Keywords
acoustic scene Classification(asc)
deep learning
audio classification
speech recognition
Data Augmentation(DA)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于神经网络的声场景数据声谱图提取方法
被引量:2
- 2
-
-
作者
韦娟
丁智恺
宁方立
-
机构
西安电子科技大学通信工程学院
西北工业大学机电学院
-
出处
《系统工程与电子技术》
EI
CSCD
北大核心
2021年第12期3462-3469,共8页
-
基金
国家自然科学基金(52075441)
陕西省重点研发计划项目(2018GY-181,2020ZDLGY06-09)资助课题。
-
文摘
在复杂环境声场景识别任务中,梅尔频谱作为输入的深度卷积神经网络有良好的识别能力,然而梅尔滤波器组依据人耳生理特征设计,对于声场景识别并非最优滤波器组。针对此问题提出声谱图提取神经网络取代传统梅尔频谱提取过程,通过训练该网络使声谱图自动适应声场景数据集。声谱图提取神经网络连接ResNet50作为声场景识别架构,在DCASE2019声场景数据集上进行训练与测试,实验结果表明该架构比传统模型有更高的识别率,能够有效调整频率曲线、滤波器幅值以及滤波器形状。
-
关键词
声场景分类
深度卷积神经网络
声谱图提取神经网络
梅尔频谱
-
Keywords
acoustic scene classificationcan(asc)
deep convolutional neural network(DCNN)
spectrogram extraction neural network(SENN)
Mel-spectrum
-
分类号
TN929.
[电子电信—通信与信息系统]
-