期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于快速特征逼近谱图注意力网络的滚动轴承半监督智能故障诊断研究
1
作者 宁少慧 杜越 周利东 《机床与液压》 北大核心 2025年第6期33-39,共7页
基于图注意力网络的诊断模型在故障诊断全监督任务中有较好的表现,但在半监督任务中表现欠佳。针对此问题,构建一种基于快速特征逼近谱图注意力网络的半监督滚动轴承智能故障诊断模型。通过K近邻图方法将振动信号转为可用于诊断的图数据... 基于图注意力网络的诊断模型在故障诊断全监督任务中有较好的表现,但在半监督任务中表现欠佳。针对此问题,构建一种基于快速特征逼近谱图注意力网络的半监督滚动轴承智能故障诊断模型。通过K近邻图方法将振动信号转为可用于诊断的图数据,丰富了数据特征;将图数据输入到构建的诊断模型中,学习故障信息特征,并分析不同的标签比例训练集的诊断结果。同时,分析了Sum、Mean、Max 3种池化方式和超参数对诊断模型的影响;最后,分别在两组实验轴承数据集上进行验证。结果表明:所提模型可以有效地捕获图的全局模式,降低计算复杂度,在全监督诊断任务中其诊断准确率可以保持在99%以上;在标签比例为10%的半监督任务中,其诊断准确率仍能保持在93.5%,所提诊断模型在半监督任务中有良好表现。 展开更多
关键词 轴承 故障诊断 快速特征逼近谱图注意力网络 K近邻算法
在线阅读 下载PDF
融合注意力机制的双路人体姿态估计网络
2
作者 赵一鸣 孙士保 +2 位作者 石念峰 王国强 王喜龙 《计算机工程与设计》 北大核心 2025年第8期2297-2304,共8页
针对基于Transformer的人体姿态估计算法局部特征提取能力不足,且在热图转换过程中产生量化误差导致关键点预测精度低的问题,提出一种融合注意力机制的双路人体姿态估计方法。设计了双路CNN-Transformer模块(CT模块),同时捕获人体姿态... 针对基于Transformer的人体姿态估计算法局部特征提取能力不足,且在热图转换过程中产生量化误差导致关键点预测精度低的问题,提出一种融合注意力机制的双路人体姿态估计方法。设计了双路CNN-Transformer模块(CT模块),同时捕获人体姿态的局部特征和全局表征,提高模型的特征表达能力;构建多谱特征多样性模块,通过学习不同频率的分量增强卷积,提取有效的人体姿态局部特征信息;采用无偏数据处理消除人体关键点在热图编码过程中产生的量化误差。实验结果表明,与SimpleBaseline相比,所提方法在降低模型复杂度和计算量的同时,在COCO和MPII数据集上将平均精度分别提升了2.7和0.7个百分点。 展开更多
关键词 人体姿态估计 卷积神经网络 TRANSFORMER 注意力 局部特征 全局依赖性 编码
在线阅读 下载PDF
结合卷积增强窗口注意力的双分支语音增强神经网络
3
作者 张晨辉 原之安 钱宇华 《计算机研究与发展》 北大核心 2025年第4期852-862,共11页
在复杂环境以及突发背景噪音条件下,语音增强任务具有极大的困难和挑战.主要原因是现有的语音增强方法未能有效捕获语谱图特征,尤其是局部信息.在过去的研究中,Transformer模型更专注于音频的全局信息,而忽略了局部信息的重要性.在音频... 在复杂环境以及突发背景噪音条件下,语音增强任务具有极大的困难和挑战.主要原因是现有的语音增强方法未能有效捕获语谱图特征,尤其是局部信息.在过去的研究中,Transformer模型更专注于音频的全局信息,而忽略了局部信息的重要性.在音频经过短时傅里叶变换(STFT)处理后,多数模型仅使用幅值信息,而忽略了相位信息,导致它们未能有效捕获语谱图特征,从而影响了语音增强的效果.基于此设计出一个带有卷积增强窗口注意力的双分支语音增强神经网络.该模型采用U-NET架构,通过双分支结构对音频的幅值和相位信息同时建模;在2个分支之间引入复值计算模块以实现信息交互;在编码器层和解码器层之间的跳跃连接部分采用卷积增强窗口注意力模块,该模块执行基于非重叠窗口的自注意力操作,在捕获局部上下文信息的同时显著降低了语音增强模型的计算复杂度.该模型在公开的Voicebank-Demand数据集上进行测试,与基线模型DCUNET 16和DCUNET20相比,在客观语音质量评估指标PESQ(perceptual evaluation of speech quality)分别提高了0.51和0.47.除了PESQ指标外,其他指标也都有显著的提升.相较于现有的各类语音增强模型,该模型在各项指标上均处于领先水平,尤其是在PESQ得分方面的提升更为显著. 展开更多
关键词 语音增强 双分支网络 特征 卷积增强窗口注意力 全局信息 局部信息
在线阅读 下载PDF
基于自注意力机制时频谱同源特征融合的鸟鸣声分类 被引量:3
4
作者 刘志华 陈文洁 陈爱斌 《计算机应用》 CSCD 北大核心 2022年第4期1260-1268,共9页
目前深度学习模型大都难以应对复杂背景噪声下的鸟鸣声分类问题。考虑到鸟鸣声具有时域连续性、频域高低性特点,提出了一种利用同源谱图特征进行融合的模型用于复杂背景噪声下的鸟鸣声分类。首先,使用卷积神经网络(CNN)提取鸟鸣声梅尔... 目前深度学习模型大都难以应对复杂背景噪声下的鸟鸣声分类问题。考虑到鸟鸣声具有时域连续性、频域高低性特点,提出了一种利用同源谱图特征进行融合的模型用于复杂背景噪声下的鸟鸣声分类。首先,使用卷积神经网络(CNN)提取鸟鸣声梅尔时频谱特征;然后,使用特定的卷积以及下采样操作,将同一梅尔时频谱特征的时域和频域维度分别压缩至1,得到仅包含鸟鸣声高低特性的频域特征以及连续特性的时域特征。基于上述提取频域以及时域特征的操作,在时域和频域维度上同时对梅尔时频谱特征进行提取,得到具有连续性以及高低特性的时频域特征。然后,将自注意力机制分别用于得到的时域、频域、时频域特征以加强其各自拥有的特性。最后,将这三类同源谱图特征决策融合后的结果用于鸟鸣声分类。所提模型用于Xeno-canto网站的8种鸟类音频分类,并在分类对比实验中取得了平均精确率(MAP)为0.939的较好结果。实验结果表明该模型能应对复杂背景噪声下的鸟鸣声分类效果较差的问题。 展开更多
关键词 深度学习 鸟鸣声分类 卷积神经网络 注意力机制 同源特征融合
在线阅读 下载PDF
基于注意力机制的NewVGG16-BiGRU鼾声分类 被引量:3
5
作者 邓志平 王冬霞 +1 位作者 马晓冬 曹玉东 《计算机应用》 CSCD 北大核心 2023年第S01期276-280,共5页
针对已有的鼾声分类模型因未考虑实际睡眠时的其他声音而导致的泛化能力差、准确率较低等问题,提出一种基于注意力机制的NewVGG16双向门控循环单元(NVGG16-BiGRU-Att)算法用于鼾声识别。首先,生成每个声段的谱图,采用NVGG16网络提取语... 针对已有的鼾声分类模型因未考虑实际睡眠时的其他声音而导致的泛化能力差、准确率较低等问题,提出一种基于注意力机制的NewVGG16双向门控循环单元(NVGG16-BiGRU-Att)算法用于鼾声识别。首先,生成每个声段的谱图,采用NVGG16网络提取语谱图、梅尔(Mel)时频图和恒Q变换(CQT)时频图组成的谱图特征矩阵;其次,将提取的特征向量输入BiGRU,结合注意力机制,增加分类过程中的重要特征信息的权重,改善分类效果;最后,经过全连接层输出鼾声与非鼾声。在采集的鼾声数据集上进行实验,实验结果表明,所提算法取得了较好的分类效果,其中Mel时频图效果最优,识别准确率达到96.18%;相较于卷积神经网络(CNN)+长短期记忆(LSTM)网络、卷积CNNsLSTMs-深度神经网络(DNNs)模型,在同特征输入下,所提算法的准确率提升了0.31%~2.39%,验证了所提算法具有较好的鲁棒性,能够提升分类性能。 展开更多
关键词 鼾声分类 注意力机制 循环神经网络 双向门控循环单元 特征
在线阅读 下载PDF
基于注意力机制的多任务3D CNN-BLSTM情感语音识别 被引量:18
6
作者 姜特 陈志刚 万永菁 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期534-542,共9页
语音情感识别广泛应用于车载驾驶系统、服务行业、教育以及医疗等各个领域。为了使计算机能更准确地识别出说话人的情感,提出了一种基于注意力机制的多任务三维卷积神经网络(ConvolutionNeuralNetwork,CNN)和双向长短期记忆网络(Bidirec... 语音情感识别广泛应用于车载驾驶系统、服务行业、教育以及医疗等各个领域。为了使计算机能更准确地识别出说话人的情感,提出了一种基于注意力机制的多任务三维卷积神经网络(ConvolutionNeuralNetwork,CNN)和双向长短期记忆网络(BidirectionalLong-Short Term Memory,BLSTM)相结合的情感语音识别方法(3D CNN-BLSTM)。基于多谱特征融合组图,利用三维卷积神经网络提取深层语音情感特征,结合性别分类的多任务学习机制提升语音情感识别准确率。在CASIA汉语情感语料库上的实验结果表明,该方法获得了较高的准确率。 展开更多
关键词 语音情感识别 注意力机制 特征融合组 卷积神经网络 多任务学习
在线阅读 下载PDF
基于特征级联的肺炎咳嗽声识别 被引量:1
7
作者 殷仁杰 徐文龙 《现代电子技术》 2022年第17期60-64,共5页
针对识别肺炎咳嗽声方面现有特征组合方法单一的问题,提出了实现级联浅层和深层特征的SELeNet-5网络模型。首先对咳嗽声使用6层小波包分解得到相对小波包能量作为浅层特征,同时,对咳嗽声预处理生成语谱图,使用改进的LeNet-5网络作为特... 针对识别肺炎咳嗽声方面现有特征组合方法单一的问题,提出了实现级联浅层和深层特征的SELeNet-5网络模型。首先对咳嗽声使用6层小波包分解得到相对小波包能量作为浅层特征,同时,对咳嗽声预处理生成语谱图,使用改进的LeNet-5网络作为特征提取模型,从语谱图提取出深层特征;其次通过特征级联网络层结合浅层和深层两种不同层次的特征,形成新的特征向量;最终输入到注意力机制网络模块并通过全连接网络层输出肺炎咳嗽声的识别结果。对比实验结果表明,使用特征级联方法的SELeNet-5网络模型方法得到了79.81%的准确率,相比使用单一浅层特征准确率提高了6.81%,与使用单一深层特征相比准确率提高了2.92%。实验结果表明级联特征在肺炎咳嗽声识别上比单一的浅层或深层特征具有更好的效果,有效提高了肺炎咳嗽声识别准确率。 展开更多
关键词 深度网络模型 肺炎咳嗽声识别 小波包分解 特征级联 注意力机制 卷积神经网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部