期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于迁移学习卷积记忆网络的多声音事件检测
1
作者 陈鹏飞 夏秀渝 《数据采集与处理》 北大核心 2025年第3期730-740,共11页
针对多声音事件检测任务中强标注数据集有限、真实场景下检测性能急剧恶化的问题,提出了基于迁移学习卷积记忆网络的多声音事件检测方法。首先,该方法使用带有预训练权重的卷积块提取音频数据的局部特征,再将局部特征和方位特征一并送... 针对多声音事件检测任务中强标注数据集有限、真实场景下检测性能急剧恶化的问题,提出了基于迁移学习卷积记忆网络的多声音事件检测方法。首先,该方法使用带有预训练权重的卷积块提取音频数据的局部特征,再将局部特征和方位特征一并送入残差特征增强模块进行特征融合和通道降维处理。接着将提取到的融合特征送入采用正则化方法的记忆网络,以进一步学习音频数据中的时序信息。实验结果显示,与DCASE挑战赛冠军系统模型相比,该方法在DCASE 2016 Task3数据集的开发集和评估集上,错误率分别降低了0.277和0.106,F1分数分别提高了22.6%和6.6%;在DCASE 2017 Task3数据集的开发集和评估集上,错误率分别降低了0.22和0.123,F1分数分别提高了17.2%和14.4%。 展开更多
关键词 声音事件检测 迁移学习 特征增强 记忆网络 正则化
在线阅读 下载PDF
基于元学习的半监督声音事件检测方法
2
作者 沈雅馨 高利剑 毛启容 《计算机科学》 北大核心 2025年第3期222-230,共9页
现有的半监督声音事件检测方法直接使用强标签合成样本、弱标签真实样本和无标签真实样本进行训练,以缓解标签样本量不足的问题。然而,合成和真实数据域之间存在不可避免的分布差异,这种差异会干扰模型梯度优化方向,从而限制模型的泛化... 现有的半监督声音事件检测方法直接使用强标签合成样本、弱标签真实样本和无标签真实样本进行训练,以缓解标签样本量不足的问题。然而,合成和真实数据域之间存在不可避免的分布差异,这种差异会干扰模型梯度优化方向,从而限制模型的泛化能力。针对这一问题,基于元学习(Meta Learning)提出了一种新颖的半监督声音事件检测学习范式MMT(Meta Mean Teacher)。具体来说,对于每个训练批次的数据,将其分为由合成样本组成的元训练集和由真实样本组成的元测试集;将模型在元训练集上计算的元梯度作为元测试梯度更新的指导,使模型感知并学习到更具泛化性的知识。在DCASE2021任务4数据集的测试集上进行对比实验,结果表明,相较于官方基线,所提出的学习范式MMT在F1,PSDS1和PSDS2指标上分别提升了8.9%,6.6%和1.1%;相较于当前的先进方法,所提出的学习范式MMT同样表现出了显著的性能优势。 展开更多
关键词 声音事件检测 元学习 一致性正则化 半监督学习 深度学习
在线阅读 下载PDF
基于MAML改进的少样本声音事件检测算法
3
作者 陈豪杰 杨锐 潘善亮 《数据采集与处理》 北大核心 2025年第3期741-753,共13页
基于深度学习的声音事件检测模型通常需要大量带标注的数据从头进行训练,但是受到数据访问权限、使用许可以及罕见个例样本稀缺等因素制约,获取特定任务的数据成本高昂。为应对声音事件检测中的少样本挑战,本文在与模型无关的元学习(Mod... 基于深度学习的声音事件检测模型通常需要大量带标注的数据从头进行训练,但是受到数据访问权限、使用许可以及罕见个例样本稀缺等因素制约,获取特定任务的数据成本高昂。为应对声音事件检测中的少样本挑战,本文在与模型无关的元学习(Model-agnostic meta learning,MAML)基础上提出一种模型无关且梯度平衡的元学习算法。该算法利用大量N-way K-shot任务训练模型,使其具备快速学习的能力,仅需少次梯度更新即可在N-way K-shot目标任务中识别未见声音事件。在外循环阶段,多梯度下降算法被用于估计动态损失平衡因子,促使模型关注训练难度更高的少样本任务,从而增强模型的共享表示。本文还融入数据增强和标签平滑,进一步降低少样本引起的过拟合。实验结果表明,该算法在ESC50、NSynth以及DCASE2020三个数据集的5-way 1-shot设定中分别达到73.56%、82.86%以及57.48%准确率,相较于改进前的MAML算法相对准确率提升10%左右。 展开更多
关键词 少样本学习 声音事件检测 元学习 跨任务模型训练
在线阅读 下载PDF
结合通道与空间注意力机制的声音事件检测方法
4
作者 冯宇轩 刘玲文 +1 位作者 付海涛 朱丽 《吉林大学学报(理学版)》 北大核心 2025年第4期1143-1149,共7页
针对样本稀缺条件下声学特征提取不充分的问题,提出一种基于通道和空间压缩的小样本声音事件检测方法.该方法通过构建双压缩注意力机制,在通道维度进行特征筛选,在空间维度实现特征聚焦,有效提升了原型网络在小样本场景下的特征判别能力... 针对样本稀缺条件下声学特征提取不充分的问题,提出一种基于通道和空间压缩的小样本声音事件检测方法.该方法通过构建双压缩注意力机制,在通道维度进行特征筛选,在空间维度实现特征聚焦,有效提升了原型网络在小样本场景下的特征判别能力.实验结果表明,该方法在数据集DCASE(detection and classification of acoustic scenes and events)上的F1达66.84%,相比原型网络方法提升4.11个百分点,为野生动物监测和生态环境评估等实际应用提供了更可靠的技术支持. 展开更多
关键词 声音事件检测 原型网络 通道注意力 空间注意力
在线阅读 下载PDF
基于双特征时频注意力的声音事件检测算法
5
作者 郭梦溪 马建芬 +1 位作者 降爱莲 王炜欣 《计算机工程与设计》 北大核心 2024年第12期3681-3687,共7页
针对现有声音事件检测方法中对不同时间和频带信息关注不够,且传统的单一特征无法表征时频重叠声音事件的空间相位信息问题,提出一种基于双特征输入的时频注意力算法,将对数梅尔谱图、相位变换的广义互相关作为输入,分别从时间和频率两... 针对现有声音事件检测方法中对不同时间和频带信息关注不够,且传统的单一特征无法表征时频重叠声音事件的空间相位信息问题,提出一种基于双特征输入的时频注意力算法,将对数梅尔谱图、相位变换的广义互相关作为输入,分别从时间和频率两个维度使用注意力机制捕捉更有效的时频特征。为提高算法的多分辨率处理能力,设计一种基于注意力的特征金字塔模型,学习多尺度特征,帮助模型识别不同声音事件。实验结果表明,所提算法能够有效提取关键特,进行多分辨率处理,提高了声音事件检测性能。 展开更多
关键词 声音事件检测 声学事件 时频注意力 特征金字塔 特征融合 深度学习 多分辨率
在线阅读 下载PDF
基于深度学习的多声音事件检测研究综述
6
作者 张珑 张恒远 +1 位作者 魏育华 杨烁祯 《天津师范大学学报(自然科学版)》 CAS 北大核心 2024年第6期1-12,共12页
多声音事件检测是当前语音处理的研究热点之一,本文对近年来基于深度学习的多声音事件检测模型进行综述.首先介绍了4种监督学习模型和13种弱监督学习模型,弱监督学习模型包括基于平均教师的模型、基于注意力的模型、基于源分离的模型、... 多声音事件检测是当前语音处理的研究热点之一,本文对近年来基于深度学习的多声音事件检测模型进行综述.首先介绍了4种监督学习模型和13种弱监督学习模型,弱监督学习模型包括基于平均教师的模型、基于注意力的模型、基于源分离的模型、基于自训练的模型以及其他模型,分析了各模型的特征、结构和性能;然后对各种模型使用的数据集及评价指标进行简要介绍;最后讨论了该领域未来的研究方向. 展开更多
关键词 深度学习 声音事件检测 弱监督学习 半监督学习
在线阅读 下载PDF
多任务实时声音事件检测卷积模型与复合数据扩增 被引量:4
7
作者 刘臣 倪仁倢 周立欣 《计算机应用研究》 CSCD 北大核心 2023年第4期1080-1087,共8页
现有的声音事件检测研究多为对离线音频进行分析,且模型参数量较多、计算效率低,不适用于实时检测。提出一种面向多任务实时声音事件检测的轻量化卷积神经网络模型,它将唤醒与检测任务整合成多任务学习框架,此外模型的卷积结构联合了稠... 现有的声音事件检测研究多为对离线音频进行分析,且模型参数量较多、计算效率低,不适用于实时检测。提出一种面向多任务实时声音事件检测的轻量化卷积神经网络模型,它将唤醒与检测任务整合成多任务学习框架,此外模型的卷积结构联合了稠密连接、Ghost模组与SE注意力机制;另外还提出了一种复合数据扩增方法,将音频变换、随机裁剪与频谱掩蔽相结合。实验结果显示,该模型在ESC-10和Urbansound8K数据集上的平均预测准确率高于当前新型的基线模型2%以上,同时模型的参数和内存更少。研究表明,多任务学习的方式节省了计算量,又因为卷积结构复用了中间层特征,模型可以快速地反馈检测结果。另外,复合数据方法相比传统方法使模型获得了更好的性能和鲁棒性。 展开更多
关键词 实时声音事件检测 轻量化卷积神经网络 多任务学习 数据扩增
在线阅读 下载PDF
音频标记一致性约束CRNN声音事件检测 被引量:8
8
作者 杨利平 郝峻永 +1 位作者 辜小花 侯振威 《电子与信息学报》 EI CSCD 北大核心 2022年第3期1102-1110,共9页
级联卷积神经网络(CNN)结构和循环神经网络(RNN)结构的卷积循环神经网络(CRNN)及其改进是当前主流的声音事件检测模型。然而,以端到端方式训练的CRNN声音事件检测模型无法从功能上约束CNN和RNN结构的作用。针对这一问题,该文提出了音频... 级联卷积神经网络(CNN)结构和循环神经网络(RNN)结构的卷积循环神经网络(CRNN)及其改进是当前主流的声音事件检测模型。然而,以端到端方式训练的CRNN声音事件检测模型无法从功能上约束CNN和RNN结构的作用。针对这一问题,该文提出了音频标记一致性约束CRNN声音事件检测方法(ATCC-CRNN)。该方法在CRNN模型的声音事件分类网络中添加了CRNN音频标记分支,同时增加了CNN音频标记网络对CRNN网络CNN结构输出的特征图进行音频标记。然后,通过在模型训练阶段限定CNN和CRNN的音频标记预测结果一致使CRNN模型的CNN结构更关注音频标记任务,RNN结构更关注建立音频样本的帧间关系。从而使CRNN模型的CNN和RNN结构具备了不同的特征描述功能。该文在IEEE DCASE 2019国际竞赛家庭环境声音事件检测任务(任务4)的数据集上进行了实验。实验结果显示:提出的ATCC-CRNN方法显著提高了CRNN模型的声音事件检测性能,在验证集和评估集上的F1得分提高了3.7%以上。这表明提出的ATCC-CRNN方法促进了CRNN模型的功能划分,有效改善了CRNN声音事件检测模型的泛化能力。 展开更多
关键词 声音事件检测 音频标记 深度学习 卷积循环神经网络
在线阅读 下载PDF
基于多随机森林的低信噪比声音事件检测 被引量:6
9
作者 李应 印佳丽 《电子学报》 EI CAS CSCD 北大核心 2018年第11期2705-2713,共9页
论文针对各种背景声音中低信噪比声音事件的检测问题,提出把背景声音与声音事件混合,形成带噪声样本来训练分类器.在预处理阶段,使用基于经验模态分解与2-6级固有模态函数的投票方法,对背景声音与声音事件端点进行预测并估算信噪比.接... 论文针对各种背景声音中低信噪比声音事件的检测问题,提出把背景声音与声音事件混合,形成带噪声样本来训练分类器.在预处理阶段,使用基于经验模态分解与2-6级固有模态函数的投票方法,对背景声音与声音事件端点进行预测并估算信噪比.接着使用子带能量分布方法,提取声音数据的特征.最后,论文将背景声音与声音事件样本库中所有声音样本按照估算的信噪比相混合,生成混合声音特征训练多随机森林,用于低信噪比声音事件的检测.实验证实,所提出的方法可以用于各种声场景下低信噪比声音事件的检测,并能在信噪比为-5dB的情况下保持67. 1%的平均检测率. 展开更多
关键词 声音事件检测 信噪比 经验模态分解 子带能量分布 随机森林
在线阅读 下载PDF
弱标签声音事件检测的空间-通道特征表征与自注意池化 被引量:2
10
作者 杨利平 侯振威 +1 位作者 辜小花 郝峻永 《电子学报》 EI CAS CSCD 北大核心 2023年第2期297-306,共10页
深度神经网络声音事件检测方法需要大量标记声音事件类别和起止时间的强标签音频样本,然而强标签标注非常困难和耗时.弱标签声音事件检测是解决这一困难的有效途径.本文将弱标签声音事件检测作为多实例学习问题,并基于卷积循环神经网络... 深度神经网络声音事件检测方法需要大量标记声音事件类别和起止时间的强标签音频样本,然而强标签标注非常困难和耗时.弱标签声音事件检测是解决这一困难的有效途径.本文将弱标签声音事件检测作为多实例学习问题,并基于卷积循环神经网络提出弱标签声音事件检测的空间-通道特征表征与自注意池化方法.该方法研究多实例弱标签声音事件检测的特征表征和帧级预测结果池化两个方面的内容.在特征表征方面,为了增强卷积神经网络的特征表征能力,结合上下文门控和通道注意机制构建门控注意力结构并嵌入到卷积循环神经网络中,实现了音频样本特征的空间和通道特征选择;在预测结果池化方面,引入自注意思想设计音频帧预测结果的自注意池化方法,增强了音频样本中事件帧之间的相关度,使事件帧获得更大的权重.本文方法通过对卷积循环神经网络特征表征和预测结果池化的革新,有效提升了模型的检测性能.本文提出的方法在DCASE 2017任务4和DCASE 2018任务4数据集的评估集中分别取得了52.47%和31.00%的F1得分,性能优于当前绝大部分的弱标签声音事件检测方法.实验结果表明:本文提出的空间-通道特征表征与自注意池化方法能显著改善弱标签声音事件检测的综合性能. 展开更多
关键词 特征表征 自注意池化 卷积循环神经网络 弱标签学习 声音事件检测
在线阅读 下载PDF
基于改进池化层的弱标记声音事件检测 被引量:5
11
作者 刘淼 王晶 +1 位作者 董桂官 易伟明 《信号处理》 CSCD 北大核心 2021年第10期1907-1913,共7页
针对DCASE2017挑战赛任务4提供的大规模弱标记声音事件检测数据集,我们搭建了基于梅尔滤波器特征(Fbank)、卷积神经网络(CNN)以及循环神经网络(RNN)的多类别声音事件检测系统,分析了attention和linear softmax两种已有的常用池化层在神... 针对DCASE2017挑战赛任务4提供的大规模弱标记声音事件检测数据集,我们搭建了基于梅尔滤波器特征(Fbank)、卷积神经网络(CNN)以及循环神经网络(RNN)的多类别声音事件检测系统,分析了attention和linear softmax两种已有的常用池化层在神经网络反向传播中的部分推演过程,并在linear softmax池化层的基础上进行改进,提出了一种"指数可学习的幂函数softmax"池化层。实验结果表明,相比于DCASE竞赛中获得第一名的模型,应用"指数可学习的幂函数softmax"池化层的检测系统,将段级别的声音事件预测的F1值从0.556提高到0.652,帧级别预测的F1值从0.518提高到0.583,帧级别预测的error rate(ER)从0.730降低到0.667。 展开更多
关键词 弱标记 声音事件检测 池化层 指数可学习的幂函数softmax
在线阅读 下载PDF
环境辅助的多任务混合声音事件检测方法 被引量:2
12
作者 高利剑 毛启容 《计算机科学》 CSCD 北大核心 2020年第1期159-164,共6页
在混合声音事件检测任务中,不同事件的声音信号相互混杂,从混合语音信号中提取的全局特征无法很好地表达每种单独的事件,导致当声音事件数量增加或者环境变化时,声音事件检测性能急剧下降。目前已存在的方法尚未考虑环境变化对检测性能... 在混合声音事件检测任务中,不同事件的声音信号相互混杂,从混合语音信号中提取的全局特征无法很好地表达每种单独的事件,导致当声音事件数量增加或者环境变化时,声音事件检测性能急剧下降。目前已存在的方法尚未考虑环境变化对检测性能的影响。鉴于此,文中提出了一种基于多任务学习的环境辅助的声音事件检测模型(Environment-Assisted Multi-Task,EAMT),该模型主要包含场景分类器和事件检测器两大核心部分,其中场景分类器用于学习环境上下文特征,该特征作为事件检测的额外信息与声音事件特征融合,并通过多任务学习方式来辅助声音事件检测,以此提高模型对环境变化的鲁棒性及多目标事件检测的性能。基于声音事件检测领域的主流公开数据集Freesound以及通用性能评估指标F1分数,将所提模型与基准模型(Deep Neural Network,DNN)及主流模型(Convolutional Recurrent Neural Network,CRNN)进行对比,共设置了3组对比实验。实验结果表明:1)相比单一任务的模型,基于多任务学习的EAMT模型的场景分类效果和事件检测性能均有所提升,且环境上下文特征的引入进一步提升了声音事件检测的性能;2)EAMT模型对环境变化具有更强的鲁棒性,在环境发生变化时,EAMT模型事件检测的F1分数高出其他模型2%~5%;3)在目标声音事件数量增加时,相比其他模型,EAMT模型的表现依旧突出,在F1指标上取得了2%~10%的提升。 展开更多
关键词 声音事件检测 环境辅助 多任务学习 特征融合 环境鲁棒性
在线阅读 下载PDF
声音事件检测综述 被引量:2
13
作者 杨烁祯 张珑 +1 位作者 王建华 张恒远 《广西师范大学学报(自然科学版)》 CAS 北大核心 2023年第2期1-18,共18页
声音事件检测技术能够识别出一个音频段中存在的事件类别并标注出各事件的起止时间,在智能城市、医疗监控、野生动物保护等应用场景有巨大潜力,是机器听觉领域的一个重要研究课题。本文从监督学习和半监督学习2个方面对声音事件检测方... 声音事件检测技术能够识别出一个音频段中存在的事件类别并标注出各事件的起止时间,在智能城市、医疗监控、野生动物保护等应用场景有巨大潜力,是机器听觉领域的一个重要研究课题。本文从监督学习和半监督学习2个方面对声音事件检测方法进行综述,汇总和分析现有研究中使用的特征、检测模型及其性能。对于监督学习,重点介绍机器学习方法和深度学习方法。对于半监督学习,总结基于均值教师、协同训练、多尺度卷积和注意力机制等4种有效方法。最后,介绍常用数据集和评价指标,并讨论未来可能的研究方向,包括声音分离预处理、合成数据和真实数据域适应、自注意力模型优化、特征选择和融合、流式系统建模等问题。 展开更多
关键词 声音事件检测 机器学习 深度学习 神经网络 监督学习 半监督学习
在线阅读 下载PDF
用于声音事件定位与检测的空间信息增强方法 被引量:2
14
作者 肖剑 郭海燕 +1 位作者 王婷婷 杨震 《信号处理》 CSCD 北大核心 2024年第12期2206-2218,共13页
声音事件定位与检测包含到达方向估计和声音事件检测两个子任务。作为当前声音事件定位与检测领域中应用最为广泛的模型之一,卷积循环神经网络模型采用卷积神经网络分别从单个音频通道中提取特征,这导致模型丢失了不同通道间的相关信息... 声音事件定位与检测包含到达方向估计和声音事件检测两个子任务。作为当前声音事件定位与检测领域中应用最为广泛的模型之一,卷积循环神经网络模型采用卷积神经网络分别从单个音频通道中提取特征,这导致模型丢失了不同通道间的相关信息。然而,通道间的相关信息蕴含了与声源位置相关的空间线索,空间信息的缺失必然会影响模型的到达方向估计性能。此外,卷积循环神经网络模型中使用的交叉熵损失函数还会引起特征分散问题。为解决这些问题,本文提出采用混合损失函数的图卷积循环神经网络模型。具体地,采用图卷积神经网络对不同特征通道间的信息进行聚合,以获取包含更丰富空间信息的特征,来改进卷积循环神经网络模型的到达方向估计性能。在此基础上,结合交叉熵损失函数和角度间隔softmax函数,提出一种新的混合损失函数来解决特征分散问题提高模型的分类性能。实验结果表明,本文提出的采用混合损失函数的图卷积循环神经网络模型在定位相关声音事件检测错误率、F1分数、定位召回率和声音事件定位与检测得分方面均优于其他声音事件定位与检测模型。 展开更多
关键词 声音事件定位与检测 深度学习 图卷积网络 多通道
在线阅读 下载PDF
采用多视角注意力的声音事件定位与检测 被引量:1
15
作者 杨吉斌 黄翔 +2 位作者 张雄伟 张强 梅鹏程 《信号处理》 CSCD 北大核心 2024年第2期385-395,共11页
近年来,基于深度学习的方法有效改进了声音事件定位与检测的性能,但当场景中存在多声源重叠时,准确的声源时空信息估计依然较为困难,声音事件定位与检测的性能存在较大提升空间。为充分挖掘多通道深层表示所包含的关键信息,本文提出了... 近年来,基于深度学习的方法有效改进了声音事件定位与检测的性能,但当场景中存在多声源重叠时,准确的声源时空信息估计依然较为困难,声音事件定位与检测的性能存在较大提升空间。为充分挖掘多通道深层表示所包含的关键信息,本文提出了一种多视角注意力网络模型MVANet(Multi-View Attention Network)。首先,引入软参数共享网络架构实现不同任务之间的交互学习,计算多通道深层表示,在对比不同通道注意力结构的基础上,选择了一种轻量级的高效通道注意力模块ECA(Efficient Channel Attention)与多头自注意力模块MHSA(Multi-Head Self-Attention)结合,从通道、时间、频率三个视角关注深层表示中的关键特征,丰富高维特征信息。其次,对比了ECA模块和软参数共享架构在MVANet不同位置上的性能,确定了ECA模块和软参数共享在模型上的最佳实现位置,最大程度上提高模型对特征的挖掘能力。仿真结果表明,对于包含同类别重叠声事件的TAU-NIGENS Spatial Sound Events 2020数据集,本文提出的MVANet模型相比较于基线方法,检测和定位性能均得到了改善。在多声源场景下,检测错误率下降了0.03,定位误差下降了1.5°。 展开更多
关键词 声音事件定位与检测 深度学习 多视角注意力 通道注意力 多头自注意力
在线阅读 下载PDF
用多频带能量分布检测低信噪比声音事件 被引量:3
16
作者 李应 吴灵菲 《电子与信息学报》 EI CSCD 北大核心 2018年第12期2905-2912,共8页
该文针对低信噪比噪声环境下的声音事件检测问题,提出基于多频带能量分布图离散余弦变换的声音事件检测的方法。首先,将声音数据转化为gammatone频谱,并计算其多频带能量分布;接着,对多频带能量分布图进行8×8分块与离散余弦变换;然... 该文针对低信噪比噪声环境下的声音事件检测问题,提出基于多频带能量分布图离散余弦变换的声音事件检测的方法。首先,将声音数据转化为gammatone频谱,并计算其多频带能量分布;接着,对多频带能量分布图进行8×8分块与离散余弦变换;然后,对8×8的离散余弦变换系数进行Zigzag扫描,抽取离散余弦变换系数的主要系数作为声音事件的特征;最后,利用随机森林分类器对特征建模与检测。实验结果表明,在低信噪比及各种噪声环境下,该文提出的方法具有良好的检测效果。 展开更多
关键词 声音事件检测 多频带能量分布 随机森林 离散余弦变换
在线阅读 下载PDF
基于双重注意力的声音事件定位与检测 被引量:1
17
作者 许春冬 刘昊 +1 位作者 闵源 甄雅迪 《计算机工程与应用》 CSCD 北大核心 2023年第19期99-105,共7页
近年来,声音事件定位与检测被广泛应用于各个领域。基于深度学习的声音事件定位与检测的网络模型难以准确捕捉输入特征图的空间和通道信息,从而导致声音事件定位和检测难度较大。提出了一种基于注意力的CECANet(coordinate and efficien... 近年来,声音事件定位与检测被广泛应用于各个领域。基于深度学习的声音事件定位与检测的网络模型难以准确捕捉输入特征图的空间和通道信息,从而导致声音事件定位和检测难度较大。提出了一种基于注意力的CECANet(coordinate and efficient channel attention network)网络模型。在残差模块中引入坐标注意力模块,使网络模型更集中关注特征图的空间坐标信息,然后在平均池化层后加入高效通道注意力模块,使网络模型更加关注特征之间的通道信息。实验结果表明,提出的网络模型在TAU-NIGENS Spatial Sound Events 2021数据集中,相较于基线模型性能有整体的提升,F1和LR提升到了0.720和0.728,ER和LE降低到0.393和11.71°。 展开更多
关键词 声音事件定位与检测 注意力机制 卷积神经网络 深度学习
在线阅读 下载PDF
利用能量压缩后的MBPD检测低信噪比声音事件
18
作者 林艺明 李应 《计算机应用与软件》 北大核心 2021年第6期126-133,共8页
针对低信噪比下的声音事件检测问题,提出基于能量压缩和灰度增强的多频带能量分布图的声音事件检测方法。将声音数据的gammatone频谱转成能量谱,对不同频带的能量进行不同比例的能量压缩,计算其多频带能量分布图,并对其进行灰度增强;对... 针对低信噪比下的声音事件检测问题,提出基于能量压缩和灰度增强的多频带能量分布图的声音事件检测方法。将声音数据的gammatone频谱转成能量谱,对不同频带的能量进行不同比例的能量压缩,计算其多频带能量分布图,并对其进行灰度增强;对调整后的多频带能量分布图进行8×8的分块,对每一子块进行奇异值分解,提取主要数值作为声音事件的特征;利用随机森林分类器对特征建模与检测。实验结果表明,在低信噪比环境下,该方法具有良好的检测效果。 展开更多
关键词 声音事件检测 多频带能量分布 能量压缩 灰度增强 奇异值 随机森林
在线阅读 下载PDF
基于特征融合与Transformer模型的声音事件定位与检测算法研究 被引量:2
19
作者 濮子俊 张寿明 《计算机工程与科学》 CSCD 北大核心 2023年第6期1097-1105,共9页
针对多通道环境声音检测问题,提出了一种引入Transformer结构的特征融合网络模型TBCF-MTNN。该网络模型以对数梅尔谱和广义互相关谱作为输入,首先通过CNN和GRU获取谱的局部特征以及时间上下文关系特征,之后将2种特征图通过Cross-stitch... 针对多通道环境声音检测问题,提出了一种引入Transformer结构的特征融合网络模型TBCF-MTNN。该网络模型以对数梅尔谱和广义互相关谱作为输入,首先通过CNN和GRU获取谱的局部特征以及时间上下文关系特征,之后将2种特征图通过Cross-stitch模块进行融合,有效解决了传统网络中多特征信息无法共享的问题;然后,将融合后的特征图送入Transformer进行特征的再次采集;最终,通过全链接层输出分类和定位结果。在TAU-NIGENS 2020数据集上的实验结果表明,所提出的TBCF-MTNN网络在声音检测任务中的分类错误率能够减小至0.26;在声源定位任务中与Baseline相比较其定位误差减小至4.7°;通过和Baseline、FPN、EIN等模型相比较,结果表明所提网络具有更优的识别检测效果。 展开更多
关键词 声音事件定位与检测 深度学习 Transformer模型 CROSS-STITCH 特征融合
在线阅读 下载PDF
基于声学频谱-时域信息融合的噪声环境中应急车辆检测
20
作者 李昊 周浩 《汽车安全与节能学报》 2025年第4期529-538,共10页
为实现汽车在高速行驶过程中的车外应急车辆警笛声检测,提出一种基于频谱—时域特征融合的车载检测方法。对输入声音信号执行快速Fourier变换并计算对数Mel谱图以获得频域特征;采用卷积神经网络在时域中建模声音波形,得到其时域表示。... 为实现汽车在高速行驶过程中的车外应急车辆警笛声检测,提出一种基于频谱—时域特征融合的车载检测方法。对输入声音信号执行快速Fourier变换并计算对数Mel谱图以获得频域特征;采用卷积神经网络在时域中建模声音波形,得到其时域表示。利用坐标注意力网络对频域与时域特征进行融合与增强,并将融合结果输入分类器以实现检测。在公开和实采数据集上进行了实验。结果表明:在LSAD-EVSRN数据集上,受试者工作特征曲线下面积(AUC)得分为98.92%,较单独采用时域特征方法提升14.88%,较单独采用频域特征方法提升2.52%。因而,验证了该融合策略在提升检测性能方面的有效性,尤其在噪声环境下具有高稳定性。 展开更多
关键词 汽车安全 警笛声检测 应急车辆 声音事件检测 特征融合
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部