-
题名声学事件检测技术的发展历程与研究进展
被引量:7
- 1
-
-
作者
韩纪庆
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《数据采集与处理》
CSCD
北大核心
2016年第2期231-241,共11页
-
基金
国家自然科学基金(91220301)资助项目
-
文摘
声学事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础,并将在未来类人机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。本文分别从与声学事件检测相关领域的发展历程以及应用需求出发,对声学事件检测的历史进行了回顾,介绍了典型的研究工作,并分析了未来的发展方向。在相关领域的分析中,重点介绍语音识别、基于计算的音乐处理及基于听觉特性的声音处理等方面的工作;在应用需求方面,介绍机器的环境声音感知与多媒体信息检索方面的工作;最后分析本领域的研究现状,并展望其未来的发展趋势。
-
关键词
声学事件检测
语义理解
环境感知
-
Keywords
acoustic event detection
semantic understanding
context aware
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于三维卷积的声学事件联合估计方法
- 2
-
-
作者
梅鹏程
杨吉斌
张强
黄翔
-
机构
陆军工程大学指挥控制工程学院
-
出处
《计算机科学》
CSCD
北大核心
2023年第3期191-198,共8页
-
基金
国家自然科学基金(62071484)。
-
文摘
声学事件定位与检测在监控、异常检测等任务中应用广泛,以基于卷积递归神经网络架构为代表的深度学习方法可以联合实现声学事件检测和声源定位。为提高定位与检测的综合性能,提出了一种基于三维卷积的声学事件联合估计方法SELD3Dnet。通过对输入的多通道音频计算幅度相位特征,并经过多重三维卷积结构提取高层特征表示,最后利用循环网络和全连接层实现声音事件类别和空间位置的估计。在处理多通道的声学信号特征时,三维卷积可以同时对时间、频率、信号通道3个维度进行卷积计算,最大程度地利用信号通道间的相关性,克服噪声和混响的影响。在TUT2018和TAU2019等公开数据集上进行了充分的对比实验。结果表明,所提方法在TUT2018 REAL和TUT2019 MREAL数据集上的综合性能都有显著提升。其中,在TUT2018 REAL数据集上声学事件检测的F1指标显著提升了13.9%,帧准确率显著提升了21.1%;在TUT2019 MREAL数据集上F1指标显著提升了10.8%,帧准确率显著提升了14.4%。表明所提方法能有效克服实际信号中混响的影响。
-
关键词
声学事件定位与检测
深度学习
卷积神经网络
三维卷积
多通道信号
-
Keywords
Sound event localization and detection
Deep Learning
Convolutional neural networks
Three-dimension convolution
Multi-channel signal
-
分类号
TP391.42
[自动化与计算机技术—计算机应用技术]
TN912.16
[电子电信—通信与信息系统]
-
-
题名基于双特征时频注意力的声音事件检测算法
- 3
-
-
作者
郭梦溪
马建芬
降爱莲
王炜欣
-
机构
太原理工大学计算机科学与技术学院
太原理工大学电子信息与光学工程学院
太原理工大学新型传感器与智能控制教育部(山西省)重点实验室
-
出处
《计算机工程与设计》
北大核心
2024年第12期3681-3687,共7页
-
基金
山西省基础研究计划基金项目(202203021211177)。
-
文摘
针对现有声音事件检测方法中对不同时间和频带信息关注不够,且传统的单一特征无法表征时频重叠声音事件的空间相位信息问题,提出一种基于双特征输入的时频注意力算法,将对数梅尔谱图、相位变换的广义互相关作为输入,分别从时间和频率两个维度使用注意力机制捕捉更有效的时频特征。为提高算法的多分辨率处理能力,设计一种基于注意力的特征金字塔模型,学习多尺度特征,帮助模型识别不同声音事件。实验结果表明,所提算法能够有效提取关键特,进行多分辨率处理,提高了声音事件检测性能。
-
关键词
声音事件检测
声学事件
时频注意力
特征金字塔
特征融合
深度学习
多分辨率
-
Keywords
sound event detection
acoustic event
time-frequency attention
feature pyramid
feature fusion
deep learning
multi-resolution
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多特征后期融合的声学场景分类
被引量:4
- 4
-
-
作者
康丽霞
马建芬
张朝霞
-
机构
太原理工大学信息与计算机学院
太原理工大学物理与光电工程学院
-
出处
《计算机工程与设计》
北大核心
2023年第1期141-147,共7页
-
基金
山西省重点研发计划(高新技术领域)基金项目(201803D121057)
山西省回国留学人员科研基金项目(2017-031)。
-
文摘
为提高声学场景分类准确率,综合考虑声学事件本身特征对于场景表征的影响以及单模型训练存在的分类误差问题,提出一种基于多特征后期融合的声学场景分类方法。在线性预测倒谱系数的基础上提出声学事件状态似然,结合深度散射谱以及谱质心幅度倒谱系数共同作为特征输入,在残差网络分类器进行并行训练;在分类结果处理阶段,采用平均叠加的整体策略在随机森林上进行集成训练,预测声学场景类别。研究结果表明,所提方法能够有效利用功能互补声学特征对声学场景进行分类,提高分类精度以及泛化性能。
-
关键词
声学场景分类
声学事件
深度学习
残差网络
集成学习
随机森林
特征后期融合
-
Keywords
acoustic scene classification
acoustic event
deep learning
residual network
ensemble learning
random forest
feature post fusion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-