期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于改进EfficientNet的煤矸音频分类方法 被引量:1
1
作者 宋庆军 焦守悦 +2 位作者 姜海燕 宋庆辉 郝文超 《工矿自动化》 北大核心 2025年第1期138-144,共7页
针对煤矸音频特征提取过程中设备运行噪声干扰严重及单一提取方法易导致信息丢失的问题,提出了一种基于改进EfficientNet的煤矸音频分类方法。采用基于Mel频谱和Gammatone倒谱系数的特征提取方法,有效捕捉矸石声音中的低频信息和细节特... 针对煤矸音频特征提取过程中设备运行噪声干扰严重及单一提取方法易导致信息丢失的问题,提出了一种基于改进EfficientNet的煤矸音频分类方法。采用基于Mel频谱和Gammatone倒谱系数的特征提取方法,有效捕捉矸石声音中的低频信息和细节特征。选择EfficientNet-B0作为骨干网络,并对其进行以下改进:将原有的多尺度通道注意力模块换成卷积块注意力模块,得到卷积注意力特征融合(CAFF)模块,通过网络自学习为不同空间位置的特征分配不同的权重信息,生成新的有效特征;在原有的MBConv模块中并行嵌入频域通道注意力(FCA)模块,加强特征图的表达能力,从而提高整个网络的性能。实验结果表明:引入CAFF模块后,模型准确率提升了0.61%,F1得分提升了0.52%,且模型收敛更快,说明CAFF模块有效提升了模型对频谱特征的捕捉能力;引入FCA模块后,准确率提升了0.45%,F1得分提升了0.62%,说明模块的叠加可以进一步提高模型的泛化能力和处理复杂特征的能力;改进EfficientNe模型的准确率为91.90%,标准差为0.108,显著优于同类对比音频分类模型。 展开更多
关键词 综放开采 煤矸识别 音频特征提取 EfficientNet Mel频谱特征 Gammatone倒谱系数 注意力机制
在线阅读 下载PDF
基于改进MobileNetV3的笼养蛋鸡声音分类识别方法 被引量:2
2
作者 衡一帆 盛哲雅 +3 位作者 严煜 谷月 周昊博 王树才 《农业机械学报》 北大核心 2025年第4期427-435,共9页
为实现笼养蛋鸡声音的准确分类,实现蛋鸡健康、情绪、生产状态等信息的智能化、非接触式检测,提出了一种基于改进MobileNetV3的笼养蛋鸡声音分类识别方法。以欣华二号蛋鸡为研究对象,采集蛋鸡在笼养条件下发出的热应激声、惊吓声、产蛋... 为实现笼养蛋鸡声音的准确分类,实现蛋鸡健康、情绪、生产状态等信息的智能化、非接触式检测,提出了一种基于改进MobileNetV3的笼养蛋鸡声音分类识别方法。以欣华二号蛋鸡为研究对象,采集蛋鸡在笼养条件下发出的热应激声、惊吓声、产蛋声以及鸣唱声,经过声音预处理将一维声音信号转化为三维梅尔频谱图,建立了包括8541幅梅尔频谱图的蛋鸡声音数据集。通过在MobileNetV3中引入高效通道注意力(Efficient channel attention,ECA)模块,提高了笼养蛋鸡声音分类准确率。试验结果表明,MobileNetV3-ECA模型准确率、召回率、精确率以及F1分数分别达到95.25%、95.16%、95.02%、95.08%,相比原始模型分别提高1.99、2.08、2.00、2.04个百分点。通过与分别引入坐标注意力(Coordinate attention,CA)、卷积块注意力模块(Convolutional block attention module,CBAM)的模型对比,引入ECA模块后模型准确率分别提高2.11、2.03个百分点,其他指标同样有更明显的提高。与ShuffleNetV2、DesNet121和EfficientNetV2模型相比,MobileNetV3-ECA准确率分别提高1.99、2.03、2.50个百分点。本文提出的基于MobileNetV3-ECA的蛋鸡声音分类识别方法,能够有效且准确地实现对包括热应激声在内的不同种类蛋鸡声音分类识别,为蛋鸡规模化养殖中的自动化、智能化声音检测提供了算法支持,为禽舍巡检机器人功能优化提供了参考,同时为规模化笼养蛋鸡热应激预警开辟了思路。 展开更多
关键词 笼养蛋鸡 声音分类 MobileNetV3 高效通道注意力 梅尔频谱图 卷积神经网络
在线阅读 下载PDF
基于ASP-SERes2Net的说话人识别算法
3
作者 令晓明 陈鸿雁 +1 位作者 张小玉 张真 《北京工业大学学报》 CAS 北大核心 2025年第1期42-50,共9页
为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(sq... 为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(squeeze-and-excitation,SE)注意力模块;然后,用注意力统计池化(attention statistics pooling,ASP)代替原来的平均池化;最后,采用附加角裕度的Softmax(additive angular margin Softmax,AAM-Softmax)对说话人身份进行分类。通过实验,将ASP-SERes2Net算法与时延神经网络(time delay neural network,TDNN)、ResNet34和Res2Net进行对比,ASP-SERes2Net算法的最小检测代价函数(minimum detection cost function,MinDCF)值为0.0401,等误率(equal error rate,EER)为0.52%,明显优于其他3个模型。结果表明,ASP-SERes2Net算法性能更优,适合应用于噪声环境下的说话人识别。 展开更多
关键词 说话人识别 梅尔语谱图 Res2Net 压缩激活(squeeze-and-excitation SE)注意力模块 注意力统计池化(attention statistics pooling ASP) 附加角裕度的Softmax(additive angular margin Softmax AAM-Softmax)
在线阅读 下载PDF
基于集成学习的水下目标被动识别方法
4
作者 汤航 樊书宏 《舰船科学技术》 北大核心 2025年第12期111-116,共6页
对于被动声呐接收到的水声信号,将信号的时域波形转化为时频谱图和梅尔谱图后,可采用神经网络和集成学习的方法,将信号识别转换为图像识别问题。利用多种卷积神经网络对信号谱图进行训练学习,并通过堆叠法(Stacking)将单网络结构作为初... 对于被动声呐接收到的水声信号,将信号的时域波形转化为时频谱图和梅尔谱图后,可采用神经网络和集成学习的方法,将信号识别转换为图像识别问题。利用多种卷积神经网络对信号谱图进行训练学习,并通过堆叠法(Stacking)将单网络结构作为初级学习器构建多网络集成模型,可进一步提高目标识别准确率。利用DeepShips数据集进行目标识别仿真验证,结果表明,多网络集成模型在四分类数据集上的识别准确率可达100%,能够有效提高被动声呐的目标识别能力,对水下目标智能探测和识别具有参考价值。 展开更多
关键词 水下目标识别 梅尔语谱图 集成学习
在线阅读 下载PDF
基于Mel声谱图与改进SEResNet的鱼类行为识别 被引量:7
5
作者 杨雨欣 于红 +3 位作者 杨宗轶 涂万 张鑫 林远山 《渔业现代化》 CSCD 北大核心 2024年第1期56-63,共8页
养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造... 养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造成特征提取难的问题,采用高分辨率、特征表示较好的Mel声谱图以捕捉鱼类声音的频谱特征。其次针对鱼类声音特征关键信息易丢失的难题,提出在SEResNet模型中融合时序聚合池化层(Temporal Aggregated Pooling,TAP),提取池化区域的最大值和平均值,保留鱼类行为更多细粒度声音特征,提高识别准确率。为验证所提模型的有效性,分别设计了消融试验和模型性能对比试验,试验结果显示:TAP-SEResNet相比SEResNet在不降低检测速度的条件下准确率提升了3.23%;相比PANNS-CNN14、ECAPA-TDNN及MFCC+ResNet等先进声音识别模型,TAP-SEResNet在准确率上分别提升了5.32%、2.80%和1.64%。所提模型有助于养殖过程中对鱼类行为实现精准监测,对精准养殖具有重要的推动作用。 展开更多
关键词 鱼类行为识别 被动水声信号 Mel声谱图 SEResNet
在线阅读 下载PDF
基于Mel-GADF与ConvNeXt-T的变压器铁心松动故障诊断方法 被引量:7
6
作者 万可力 马宏忠 +1 位作者 崔佳嘉 王健 《电力自动化设备》 EI CSCD 北大核心 2024年第3期217-224,共8页
为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经... 为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经过格拉姆角场(GAF)变换得到格拉姆角和场(GASF)与GADF这2种时频谱图;生成Mel-GASF与Mel-GADF这2种特征融合的时频谱图来弥补Mel时频谱图的低频缺失问题;将3种时频谱图放入ConvNeXt-T网络进行训练对比,选出效果最佳的诊断模型。以型号为S13-M-200/10的变压器为对象进行空载试验,对不同铁心松动程度下的声纹信号进行分析,分析结果表明,将Mel-GADF作为特征时频谱图结合ConvNeXt-T网络,可将测试集准确率从传统Mel时频谱图的98.273%提升至99.500%,提升了1.227个百分点。 展开更多
关键词 变压器 铁心松动 Mel时频谱图 格拉姆角场 卷积神经网络 迁移学习
在线阅读 下载PDF
基于LPDMR-NET的鸟鸣声识别 被引量:1
7
作者 王娅茹 唐璐 +2 位作者 陈爱斌 彭伟雄 沈平 《计算机工程》 CAS CSCD 北大核心 2024年第10期174-184,共11页
为了高效且快速地识别自然环境中的鸟鸣声,提出一种基于轻量级逐点深度的多感受野注意力残差网络(LPDMR-NET)模型。首先,通过Mel滤波器生成Mel频谱图。接着,采用basicblock和downblock连接生成两层残差网络DBNet,堆叠DBNet作为鸟鸣声识... 为了高效且快速地识别自然环境中的鸟鸣声,提出一种基于轻量级逐点深度的多感受野注意力残差网络(LPDMR-NET)模型。首先,通过Mel滤波器生成Mel频谱图。接着,采用basicblock和downblock连接生成两层残差网络DBNet,堆叠DBNet作为鸟鸣声识别的主干网络,以提高训练速度。然后,利用逐点深度卷积网络(PDNet)提取频谱图特征信息,替代主干网络下采样模块,将两个残差模块的basicblock中的3×3卷积替换为分离分支块(DBB),引入不同的感受野,在复杂多分支结构下显著提高网络的识别性能。最后,在两个残差模块间嵌入轻量级高效置换注意力(SA)模块用于传递两层残差模块间的有效信息,增强频谱图波纹特征,进一步提高网络识别性能。在自建的30类鸟鸣声数据集Birdselfdata上的实验结果表明,该模型的识别准确率为96.82%、F1值为96.73%,在识别效率和准确性方面超越了对比模型。 展开更多
关键词 卷积神经网络 鸟鸣声分类 深度学习 Mel频谱图 残差网络 深度可分离卷积
在线阅读 下载PDF
基于轻量级卷积神经网络的车辆声学识别 被引量:3
8
作者 封慧杰 赵红东 +1 位作者 于快快 刘赫 《传感器与微系统》 CSCD 北大核心 2024年第7期136-140,共5页
车型识别技术对交通监测具有重要意义。针对行驶中车辆的视觉信息易受环境干扰等问题,提出了一种基于ShuffleNet V2的车辆声学特征识别模型S-ShuffleNet,包含对ShuffleNet V2网络深度的缩减以及深度可分离卷积(DSC)中卷积(Conv)核大小... 车型识别技术对交通监测具有重要意义。针对行驶中车辆的视觉信息易受环境干扰等问题,提出了一种基于ShuffleNet V2的车辆声学特征识别模型S-ShuffleNet,包含对ShuffleNet V2网络深度的缩减以及深度可分离卷积(DSC)中卷积(Conv)核大小的改进,通过提取车辆声信号的对数—梅尔谱图(LMS)特征作为该模型的输入,进行车型识别。同时,将风、雨、雷暴噪声叠加在车辆音频上,以验证不同环境噪声的影响。实验结果表明:该模型参数量少、训练速度快,在VS10数据集上识别精度比基础网络ShuffleNet V2提高2.4%,识别准确率可达97.5%,与不同分类网络相比,S-ShuffleNet也具有良好性能。 展开更多
关键词 车型识别 声学特征 对数梅尔谱图 轻量级 卷积神经网络 环境噪声
在线阅读 下载PDF
基于子音节表征的苗语语音合成方法 被引量:1
9
作者 蔡姗 王林 +3 位作者 谭棉 郭胜 吴磊 王飞 《科学技术与工程》 北大核心 2024年第19期8176-8185,共10页
少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发... 少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发音信息,以区分学习不同音节间的相似发音。根据文本序列和梅尔谱图之间对齐的单调性,引入单调对齐损失来指导注意力模块进行更准确的对齐学习,以减少因注意力机制的自回归性带来的跳词、重复等合成现象。为验证所提方法的有效性,以自建苗语语音合成语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的语音合成方法进行对比实验。实验结果表明,所提方法能够降低不同声调的相同词发音相似时导致的合成错误率,词错误率仅为0.96%,较基线方法改善了6.25%。 展开更多
关键词 苗语语音合成 子音节 单调对齐 语料库 梅尔谱图
在线阅读 下载PDF
采用混合域注意力机制的无人机识别方法 被引量:8
10
作者 薛珊 卫立炜 +1 位作者 顾宸瑜 吕琼莹 《西安交通大学学报》 EI CAS CSCD 北大核心 2022年第10期141-150,共10页
针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(... 针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(ECSANet)的无人机识别方法。首先,建立民用的9大类无人机声音数据集,提取数据集的对数梅尔谱图及其动态特征;其次,为了网络参数量少,避免过拟合,设计了基于分组卷积、通道混洗和残差结构的通道混洗多尺度分组卷积网络(MSSGNet);然后,为了能更多、更有效地提取无人机声音特征,设计了通道空间混合域注意力机制模块(ECSA);最后,将ECSA模块插入MSSGNet网络构成改进的通道空间混合域注意力机制的多尺度分组卷积网络(ECSANet),形成新型声音识别无人机的方法。运用设计的ECSANet网络对自建的民用无人机声音数据集和Urbansound8K环境声音数据集进行了声音识别,识别结果表明:与ResNet18、ResNet34、ResNeXt18和MobileNetV2等基准网络相比,MSSGNet网络参数更少,识别准确率更高,达到了95.1%;ECSA模块可以插入多种网络,在不增加很多参数的情况下令网络模型的识别准确率获得提升,在无人机等声音分类任务上具有很好的效果;与MSSGNet网络相比,改进的ECSANet网络识别准确率能达到95.9%,提高了0.8%,表明了该网络在识别小样本无人机方面的优越性和可行性。 展开更多
关键词 无人机 声音识别 对数梅尔谱图 神经网络 混合域注意力机制
在线阅读 下载PDF
基于稀疏轻量卷积神经网络的管道泄漏检测 被引量:7
11
作者 刘杰 朱正伟 《电子测量技术》 北大核心 2022年第19期131-135,共5页
针对传统供水管网泄漏检测问题,本文提出了一种基于稀疏轻量卷积神经网络的管道泄漏检测算法。首先通过声音传感器采集管道泄漏的声音信号,经过立体声转换、重采样、长度对齐等预处理操作后,将其转换成梅尔频谱图。然后,构建一种稀疏轻... 针对传统供水管网泄漏检测问题,本文提出了一种基于稀疏轻量卷积神经网络的管道泄漏检测算法。首先通过声音传感器采集管道泄漏的声音信号,经过立体声转换、重采样、长度对齐等预处理操作后,将其转换成梅尔频谱图。然后,构建一种稀疏轻量化的卷积神经网络模型来对梅尔频谱图进行特征抽取和泄漏检测。针对声音特征图的稀疏和时延性质,本文采用Inception网络结构来进行提高模型的特征抽取能力。此外,因为该模型需要被部署到边缘侧,因此设计了一种基于SqueezeNet的轻量化卷积神经网络模型来减少模型的参数,降低模型复杂度。实验结果表明,提出的管道泄漏检测算法在保证复杂度较低的同时具有较高的识别准确率。 展开更多
关键词 管道泄漏检测 卷积神经网络 梅尔频谱图 稀疏特征
在线阅读 下载PDF
基于域泛化的无监督机器设备异常声检测 被引量:4
12
作者 章林柯 许艳武 余永升 《海军工程大学学报》 CAS 北大核心 2023年第6期52-56,70,共6页
在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题... 在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题,提出了基于域泛化技术的无监督机器异常声音检测方法。首先,将声信号的对数梅尔谱图输入深度学习神经网络模型,结合域混合方法和坐标注意力机制模块,提高系统域泛化能力和异常识别性能;然后,在DCASE开源数据集上进行实验,与两种基线评估系统的AUC和pAUC得分进行对比。结果表明,所提出的方法在域泛化条件下的异常检测性能得到明显提升。 展开更多
关键词 无监督深度学习 异常声音检测 域泛化 对数梅尔谱图
在线阅读 下载PDF
基于多模态特征的音乐情感多任务识别研究 被引量:7
13
作者 王昊 刘渊晨 +1 位作者 赵萌 裘靖文 《现代情报》 CSSCI 2022年第11期61-75,共15页
[目的/意义]情感是目前在线音乐平台常用的资源组织与检索方式之一,利用特征融合对歌单、歌曲的情感分类进行探索研究,能够优化音乐资源的管理与利用效果,更好地满足网民对音乐文化生活的需求。[方法/过程]本文引入Hevner音乐情感模型... [目的/意义]情感是目前在线音乐平台常用的资源组织与检索方式之一,利用特征融合对歌单、歌曲的情感分类进行探索研究,能够优化音乐资源的管理与利用效果,更好地满足网民对音乐文化生活的需求。[方法/过程]本文引入Hevner音乐情感模型构建情感词典,利用词典信息、歌单名称、歌单介绍对大粒度歌单情感进行分类;通过预训练模型语义表示、音频信号处理等方法,融合歌词与音频多模态特征对小粒度歌曲情感进行识别。[结果/结论]情感词典的引入有效提升歌单情感分类精度,人工预处理能够帮助算法更好地学习数据特征;歌曲的文本与音频中均含有丰富的情感信息,多模态融合模型在歌曲情感识别中表现最优。 展开更多
关键词 网易云音乐 歌单情感分类 音乐情感分类 梅尔声谱图 多模态融合
在线阅读 下载PDF
CNN-XGBoost混合模型在音频场景分类中的应用 被引量:2
14
作者 杨立东 胡江涛 张壮壮 《小型微型计算机系统》 CSCD 北大核心 2021年第1期213-217,共5页
在拥有海量数据和强大计算能力的人工智能时代,音频场景分类成为了场景理解的重要研究内容之一.针对音频场景分类建模困难和精确率不高的问题,本文提出一种基于卷积神经网络和极端梯度提升算法相结合的系统模型.首先,将预处理后的音频... 在拥有海量数据和强大计算能力的人工智能时代,音频场景分类成为了场景理解的重要研究内容之一.针对音频场景分类建模困难和精确率不高的问题,本文提出一种基于卷积神经网络和极端梯度提升算法相结合的系统模型.首先,将预处理后的音频信号转换成梅尔声谱图,然后输入到卷积神经网络中完成抽象特征提取,最后利用极端梯度提升算法进行分类.为了评估模型的有效性,在城市音频场景UrbanSound8K数据集上进行分类性能测试,结果表明,该混合算法模型对音频场景的分类精确率可以达到89%,优于传统的神经网络算法模型,说明该混合模型对音频场景分类问题的有效性. 展开更多
关键词 音频场景分类 卷积神经网络 极端梯度提升 梅尔声谱图
在线阅读 下载PDF
基于改进Inception网络的语音分类模型 被引量:2
15
作者 张秋余 王煜坤 《计算机应用》 CSCD 北大核心 2023年第3期909-915,共7页
针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,... 针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,使网络模型在加深的同时避免梯度消失;其次,优化Inception模块中的卷积核大小,并利用不同尺寸卷积对原始语音的Log-Mel谱图进行深度特征提取,使模型通过自主学习的方式选择合适的卷积处理数据;同时,在深度与宽度两个维度改进模型以提高分类精度;最后,利用训练好的网络模型对语音数据进行分类预测,并通过Softmax函数得到分类结果。在清华大学汉语语音数据集THCHS-30与环境声音数据集UrbanSound8K数据集上的实验结果表明,改进的Inception网络模型在上述两个数据集上分类准确率分别为92.76%与93.34%。相较于VGG16、InceptionV2、GoogLeNet等模型,所提模型的分类准确率取得了最优,最多提高了27.30个百分点。所提模型具有更强的特征融合能力和更准确的分类结果,能够解决过拟合、梯度消失等问题。 展开更多
关键词 语音分类 卷积神经网络 残差跳连 对数梅尔谱图 深度特征
在线阅读 下载PDF
基于频谱空间域特征注意的音乐流派分类算法
16
作者 刘万军 王佳铭 +2 位作者 曲海成 董利兵 曹欣宇 《计算机应用》 CSCD 北大核心 2022年第7期2072-2077,共6页
为了提升深度卷积神经网络对音乐频谱流派特征的提取效果,提出一种基于频谱空间域特征注意的音乐流派分类算法模型DCNN-SSA。DCNN-SSA模型通过对不同音乐梅尔谱图的流派特征在空间域上进行有效标注,并且改变网络结构,从而在提升特征提... 为了提升深度卷积神经网络对音乐频谱流派特征的提取效果,提出一种基于频谱空间域特征注意的音乐流派分类算法模型DCNN-SSA。DCNN-SSA模型通过对不同音乐梅尔谱图的流派特征在空间域上进行有效标注,并且改变网络结构,从而在提升特征提取效果的同时确保模型的有效性,进而提升音乐流派分类的准确率。首先,将原始音频信号进行梅尔滤波,以模拟人耳的滤波操作对音乐的音强及节奏变化进行有效过滤,所生成的梅尔谱图进行切割后输入网络;然后,通过深化网络层数、改变卷积结构及增加空间注意力机制对模型在流派特征提取上进行增强;最后,通过在数据集上进行多批次的训练与验证来有效提取并学习音乐流派特征,从而得到可以对音乐流派进行有效分类的模型。在GTZAN数据集上的实验结果表明,基于空间注意的音乐流派分类算法与其他深度学习模型相比,在音乐流派分类准确率和模型收敛效果上有所提高,准确率提升了5.36个百分点~10.44个百分点。 展开更多
关键词 音乐流派分类 深度卷积神经网络 深度学习 空间注意力机制 梅尔频谱
在线阅读 下载PDF
基于神经网络的声场景数据声谱图提取方法 被引量:2
17
作者 韦娟 丁智恺 宁方立 《系统工程与电子技术》 EI CSCD 北大核心 2021年第12期3462-3469,共8页
在复杂环境声场景识别任务中,梅尔频谱作为输入的深度卷积神经网络有良好的识别能力,然而梅尔滤波器组依据人耳生理特征设计,对于声场景识别并非最优滤波器组。针对此问题提出声谱图提取神经网络取代传统梅尔频谱提取过程,通过训练该网... 在复杂环境声场景识别任务中,梅尔频谱作为输入的深度卷积神经网络有良好的识别能力,然而梅尔滤波器组依据人耳生理特征设计,对于声场景识别并非最优滤波器组。针对此问题提出声谱图提取神经网络取代传统梅尔频谱提取过程,通过训练该网络使声谱图自动适应声场景数据集。声谱图提取神经网络连接ResNet50作为声场景识别架构,在DCASE2019声场景数据集上进行训练与测试,实验结果表明该架构比传统模型有更高的识别率,能够有效调整频率曲线、滤波器幅值以及滤波器形状。 展开更多
关键词 声场景分类 深度卷积神经网络 声谱图提取神经网络 梅尔频谱
在线阅读 下载PDF
基于声音信号的GMAW焊接状态监测方法研究 被引量:4
18
作者 倪畅 薛瑞雷 +2 位作者 刘宏胜 周建平 李晓娟 《现代电子技术》 2022年第23期115-120,共6页
针对焊接过程中因保护气体和外部气流干扰等情况所产生的异常焊接状态,提出了一种基于电弧声音信号特征结合长短期记忆(LSTM)神经网络的监测方法,基于梅尔频谱(Mel⁃spectrogram)下的电弧声音特征对焊接过程进行分析。采用高速脉冲全位... 针对焊接过程中因保护气体和外部气流干扰等情况所产生的异常焊接状态,提出了一种基于电弧声音信号特征结合长短期记忆(LSTM)神经网络的监测方法,基于梅尔频谱(Mel⁃spectrogram)下的电弧声音特征对焊接过程进行分析。采用高速脉冲全位置熔化极气体保护焊(GMAW)下行焊焊接技术,搭建了短弧高速脉冲X80管线钢GMAW实验平台,记录了全工况条件下的电弧声数据。根据电弧声音信号特点,采用daubechies小波作为小波基函数,利用启发式阈值对电弧声信号进行分解和重构,有效提高了电弧声音信号的信噪比。通过正常和异常焊接状态下声音信号的梅尔频谱特征训练LSTM神经网络,建立了电弧声音信号的预测模型来检测异常焊接状态,该方法的灵敏度可以达到94.57%。 展开更多
关键词 声音信号 焊接过程 GMAW 焊接状态 小波基函数 梅尔频谱 LSTM神经网络
在线阅读 下载PDF
基于残差网络和随机森林的音频识别方法 被引量:10
19
作者 张晓龙 彭宜 《计算机工程与科学》 CSCD 北大核心 2019年第4期727-732,共6页
环境声音分类(ESC)是音频处理领域的重要分支之一,在未来多媒体应用中有重要的作用。音频识别是提取音频中特定的声学特性,将音频分类至样本对应的正确场景,有助于感知和理解周围环境。现阶段音频识别主要是通过信号处理技术和机器学习... 环境声音分类(ESC)是音频处理领域的重要分支之一,在未来多媒体应用中有重要的作用。音频识别是提取音频中特定的声学特性,将音频分类至样本对应的正确场景,有助于感知和理解周围环境。现阶段音频识别主要是通过信号处理技术和机器学习方法达成。随着人工智能飞速发展,传统的音频处理技术以及机器学习方法面临着巨大的挑战,ESC的识别准确性有待进一步提高。结合残差网络和随机森林两种方法,将一维时域信号的音频数据转换为二维数据形式的梅尔声谱图,预训练残差网络获得一个精度较高的网络模型作为特征提取器,利用该网络模型提取音频中的深层特征,再利用随机森林对深层特征进行分类。该方法在ESC任务上识别率提升了近10%,取得了较好的分类结果。 展开更多
关键词 残差网络 随机森林 音频识别 梅尔声谱图
在线阅读 下载PDF
基于Inception-CSA深度学习模型的鸟鸣分类 被引量:4
20
作者 李怀城 杨道武 +2 位作者 温治芳 王亚楠 陈爱斌 《华中农业大学学报》 CAS CSCD 北大核心 2023年第3期97-104,共8页
为进一步提高通过声音识别鸟类的精确度,本研究提出基于Inception-CSA深度学习模型的鸟鸣声分类方法,包含鸟鸣声音频样本预处理、特征提取、分类器分类等步骤。首先将鸟鸣声样本预处理成尺寸相同的梅尔频谱图,作为鸟鸣声特征图;其次利用... 为进一步提高通过声音识别鸟类的精确度,本研究提出基于Inception-CSA深度学习模型的鸟鸣声分类方法,包含鸟鸣声音频样本预处理、特征提取、分类器分类等步骤。首先将鸟鸣声样本预处理成尺寸相同的梅尔频谱图,作为鸟鸣声特征图;其次利用Inception-CSA模型对鸟鸣声特征图进行特征提取,其中Inception模块提取鸟鸣声特征图中的多尺度局部时频域特征,CSA模块获取鸟鸣声特征图的全局注意力权重,将二者的输出结合得到更强的特征图,再次利用最大池化层对特征图进行下采样;最后利用全连接层进行分类,得到最终的分类结果。以采集的华南地区自然环境中的10种野生鸟类的鸣叫声构建数据集,用于实验部分以验证方法的有效性。结果表明,本研究提出的方法在自建数据集上准确率达到了93.11%,相比于基于其他经典模型的分类方法,基于Inception-CSA模型的分类方法在拥有较少模型参数量的同时达到了更高的准确率。 展开更多
关键词 卷积神经网络 鸟鸣声分类 深度学习 梅尔频谱图 INCEPTION
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部