期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于双重随机增强与分层Transformer的城市环境声检测方法
1
作者
付予哲
王玫
+1 位作者
阚瑞祥
仇洪冰
《现代电子技术》
北大核心
2025年第19期115-121,共7页
城市声学场景的复杂性和多样性使传统的声音识别方法在处理城市环境声时存在局限性,亟需解决检测能力与计算复杂度之间的平衡问题。为此文中提出一种新型的城市环境声检测方法,旨在提高模型在处理城市环境声分类任务的能力,同时降低对...
城市声学场景的复杂性和多样性使传统的声音识别方法在处理城市环境声时存在局限性,亟需解决检测能力与计算复杂度之间的平衡问题。为此文中提出一种新型的城市环境声检测方法,旨在提高模型在处理城市环境声分类任务的能力,同时降低对计算资源的依赖。首先,引入一种双重随机组合数据增强策略,通过随机组合不同的增强技术生成多样化的音频样本,以丰富训练数据并增强模型的泛化能力;随后,提出一种新型的具有分层结构的音频Transformer,该模型引入了窗口注意力机制和耦合简单注意力的标记语义模块,有效提升了声音分类能力。实验结果表明,所提方法仅需之前Transformer的32%的参数量和15%的训练时间;在UrbanSound8K中准确率为91.2%,在AudioSet中mAP为0.476,在ESC-50中准确率为97.2%。显著提升了城市环境声检测的性能。
展开更多
关键词
城市环境声检测
声
音分类
深度学习
TRANSFORMER
数据增强
注意力机制
在线阅读
下载PDF
职称材料
题名
基于双重随机增强与分层Transformer的城市环境声检测方法
1
作者
付予哲
王玫
阚瑞祥
仇洪冰
机构
桂林理工大学计算机科学与工程学院
桂林理工大学物理与电子信息工程学院
桂林电子科技大学信息与通信学院
出处
《现代电子技术》
北大核心
2025年第19期115-121,共7页
基金
国家自然科学基金项目(62071135)
国家自然科学基金项目(61961010)
+1 种基金
桂林电子科技大学研究生创新项目(2023YCXB05)
广西科技重大专项(桂科AA23062035)。
文摘
城市声学场景的复杂性和多样性使传统的声音识别方法在处理城市环境声时存在局限性,亟需解决检测能力与计算复杂度之间的平衡问题。为此文中提出一种新型的城市环境声检测方法,旨在提高模型在处理城市环境声分类任务的能力,同时降低对计算资源的依赖。首先,引入一种双重随机组合数据增强策略,通过随机组合不同的增强技术生成多样化的音频样本,以丰富训练数据并增强模型的泛化能力;随后,提出一种新型的具有分层结构的音频Transformer,该模型引入了窗口注意力机制和耦合简单注意力的标记语义模块,有效提升了声音分类能力。实验结果表明,所提方法仅需之前Transformer的32%的参数量和15%的训练时间;在UrbanSound8K中准确率为91.2%,在AudioSet中mAP为0.476,在ESC-50中准确率为97.2%。显著提升了城市环境声检测的性能。
关键词
城市环境声检测
声
音分类
深度学习
TRANSFORMER
数据增强
注意力机制
Keywords
urban environmental sound detection
sound classification
deep learning
Transformer
data augmentation
attention mechanism
分类号
TN912-34 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于双重随机增强与分层Transformer的城市环境声检测方法
付予哲
王玫
阚瑞祥
仇洪冰
《现代电子技术》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部