期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
声学事件检测技术的发展历程与研究进展 被引量:7
1
作者 韩纪庆 《数据采集与处理》 CSCD 北大核心 2016年第2期231-241,共11页
声学事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础,并将在未来类人机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。... 声学事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础,并将在未来类人机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。本文分别从与声学事件检测相关领域的发展历程以及应用需求出发,对声学事件检测的历史进行了回顾,介绍了典型的研究工作,并分析了未来的发展方向。在相关领域的分析中,重点介绍语音识别、基于计算的音乐处理及基于听觉特性的声音处理等方面的工作;在应用需求方面,介绍机器的环境声音感知与多媒体信息检索方面的工作;最后分析本领域的研究现状,并展望其未来的发展趋势。 展开更多
关键词 声学事件检测 语义理解 环境感知
在线阅读 下载PDF
一种基于三维卷积的声学事件联合估计方法
2
作者 梅鹏程 杨吉斌 +1 位作者 张强 黄翔 《计算机科学》 CSCD 北大核心 2023年第3期191-198,共8页
声学事件定位与检测在监控、异常检测等任务中应用广泛,以基于卷积递归神经网络架构为代表的深度学习方法可以联合实现声学事件检测和声源定位。为提高定位与检测的综合性能,提出了一种基于三维卷积的声学事件联合估计方法SELD3Dnet。... 声学事件定位与检测在监控、异常检测等任务中应用广泛,以基于卷积递归神经网络架构为代表的深度学习方法可以联合实现声学事件检测和声源定位。为提高定位与检测的综合性能,提出了一种基于三维卷积的声学事件联合估计方法SELD3Dnet。通过对输入的多通道音频计算幅度相位特征,并经过多重三维卷积结构提取高层特征表示,最后利用循环网络和全连接层实现声音事件类别和空间位置的估计。在处理多通道的声学信号特征时,三维卷积可以同时对时间、频率、信号通道3个维度进行卷积计算,最大程度地利用信号通道间的相关性,克服噪声和混响的影响。在TUT2018和TAU2019等公开数据集上进行了充分的对比实验。结果表明,所提方法在TUT2018 REAL和TUT2019 MREAL数据集上的综合性能都有显著提升。其中,在TUT2018 REAL数据集上声学事件检测的F1指标显著提升了13.9%,帧准确率显著提升了21.1%;在TUT2019 MREAL数据集上F1指标显著提升了10.8%,帧准确率显著提升了14.4%。表明所提方法能有效克服实际信号中混响的影响。 展开更多
关键词 声学事件定位与检测 深度学习 卷积神经网络 三维卷积 多通道信号
在线阅读 下载PDF
基于双特征时频注意力的声音事件检测算法
3
作者 郭梦溪 马建芬 +1 位作者 降爱莲 王炜欣 《计算机工程与设计》 北大核心 2024年第12期3681-3687,共7页
针对现有声音事件检测方法中对不同时间和频带信息关注不够,且传统的单一特征无法表征时频重叠声音事件的空间相位信息问题,提出一种基于双特征输入的时频注意力算法,将对数梅尔谱图、相位变换的广义互相关作为输入,分别从时间和频率两... 针对现有声音事件检测方法中对不同时间和频带信息关注不够,且传统的单一特征无法表征时频重叠声音事件的空间相位信息问题,提出一种基于双特征输入的时频注意力算法,将对数梅尔谱图、相位变换的广义互相关作为输入,分别从时间和频率两个维度使用注意力机制捕捉更有效的时频特征。为提高算法的多分辨率处理能力,设计一种基于注意力的特征金字塔模型,学习多尺度特征,帮助模型识别不同声音事件。实验结果表明,所提算法能够有效提取关键特,进行多分辨率处理,提高了声音事件检测性能。 展开更多
关键词 声音事件检测 声学事件 时频注意力 特征金字塔 特征融合 深度学习 多分辨率
在线阅读 下载PDF
基于多特征后期融合的声学场景分类 被引量:4
4
作者 康丽霞 马建芬 张朝霞 《计算机工程与设计》 北大核心 2023年第1期141-147,共7页
为提高声学场景分类准确率,综合考虑声学事件本身特征对于场景表征的影响以及单模型训练存在的分类误差问题,提出一种基于多特征后期融合的声学场景分类方法。在线性预测倒谱系数的基础上提出声学事件状态似然,结合深度散射谱以及谱质... 为提高声学场景分类准确率,综合考虑声学事件本身特征对于场景表征的影响以及单模型训练存在的分类误差问题,提出一种基于多特征后期融合的声学场景分类方法。在线性预测倒谱系数的基础上提出声学事件状态似然,结合深度散射谱以及谱质心幅度倒谱系数共同作为特征输入,在残差网络分类器进行并行训练;在分类结果处理阶段,采用平均叠加的整体策略在随机森林上进行集成训练,预测声学场景类别。研究结果表明,所提方法能够有效利用功能互补声学特征对声学场景进行分类,提高分类精度以及泛化性能。 展开更多
关键词 声学场景分类 声学事件 深度学习 残差网络 集成学习 随机森林 特征后期融合
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部