期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离
1
作者 王春丽 刘素倩 陈善立 《信号处理》 北大核心 2025年第4期718-729,共12页
针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合... 针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合现实中复杂的背景环境需求。为使模型可以在现实应用复杂条件下灵活应对混合语音信号中的多变性与非平稳性,采用多尺度可变形注意力机制与Transformer编码器构成(Transformer Encoder Multi-Scale deformable attention,TEMDA)模块,利用多尺度可变形注意力机制的偏移层在不同位置上进行动态计算,扩展模型的感受野,同时使模型更有效地聚焦于重要的时间点,减少噪声和混响的影响。为了更好地获取上下文信息,在多路径融合策略中,通过在双路径模块的基础上增加通道间的Conformer组成三路径模块,用于提取多说话人之间的特征信息,这样的处理方式可以更好地融合单一说话人和多说话人之间的信息,提升语音分离性能。实验表明,所提出的模型分别在纯净和带噪声的Libri2Mix、Libri3Mix数据集上达到了显著的分离效果,并且在LRS2-2Mix数据集中模型可以更好地减少噪声和混响对语音分离的影响,尺度不变信噪比改善(Scale-Invariant Signal-to-Noise Ratio Improvement,SI-SNRi)和信号失真比改善(Signal-to-Distortion Ratio Improvement,SDRi)分别为14.7 dB和15.1 dB;在三个说话人数目中的估计精度为98.89%,提升了0.12%。 展开更多
关键词 未知说话人语音分离 多尺度可变形注意力编码策略 多路径融合 吸引子估计
在线阅读 下载PDF
基于随机块移位和可变形注意力的视频烟雾识别
2
作者 谢晔辉 赵海涛 《应用光学》 CAS 北大核心 2024年第6期1204-1211,共8页
识别出工业环境中的烟雾排放行为对于规范和实时监督企业,以及环境保护都具有至关重要的意义。然而,识别工业排放烟雾具有很高的挑战性,一方面工业排放烟雾具有高透明度、高动态性等特点;另一方面烟雾的形状和尺寸可能会因环境、光照等... 识别出工业环境中的烟雾排放行为对于规范和实时监督企业,以及环境保护都具有至关重要的意义。然而,识别工业排放烟雾具有很高的挑战性,一方面工业排放烟雾具有高透明度、高动态性等特点;另一方面烟雾的形状和尺寸可能会因环境、光照等因素而发生变化。目前主流的烟雾识别方法都是基于图像或视频的深度学习模型,但是基于图像的模型无法对视频中烟雾的动态特性进行有效的时序建模,同时基于视频的模型没有考虑烟雾形状多变的特性。将随机块移位(random patch shift,RPS)和可变形注意力(deformable attention,DA)引入Swin Transformer。RPS将传统的2D空间注意力转变为时空注意力,从而使用2D的自注意力计算对动态烟雾进行建模;DA通过自适应形变的方式使网络能够适应不同的烟雾形态和外观变化,提高网络的鲁棒性和泛化能力。在RISE数据集上的实验结果表明,本文方法能够在3个子集上分别达到0.85、0.86和0.84的F 1分数,相比其他方法有0.01~0.06的提升。 展开更多
关键词 烟雾识别 随机块移位 可变形注意力 深度神经网络
在线阅读 下载PDF
引入GAN与可变形注意力的多维人体运动分析 被引量:1
3
作者 孙文昊 路光达 +2 位作者 秦转萍 郭庭航 赵壮壮 《电子测量技术》 北大核心 2023年第16期78-88,共11页
研究了一种用于肢体状态评估和运动姿态校正的人体运动分析系统。首先,针对人体运动时易出现的遮挡等问题,通过引入可变形注意力和生成对抗网络优化人体关键点热图位置检测,在Transformer的基础上设计了一种人体关键点识别算法。其次,... 研究了一种用于肢体状态评估和运动姿态校正的人体运动分析系统。首先,针对人体运动时易出现的遮挡等问题,通过引入可变形注意力和生成对抗网络优化人体关键点热图位置检测,在Transformer的基础上设计了一种人体关键点识别算法。其次,利用所提出的算法,结合人体姿态的肢体空间约束关系以及体态分析相关知识,设计了一套运动分析系统。最后,通过在公共数据集上和真实场景中的测试,从质化和量化两个角度对所提出的算法和系统的可行性进行了评估实验。实验结果证明,本文算法在公共数据集上的检测精度最高可达93.7%;在实际场景的测试中,本文设计的算法和运动分析系统可以有效解决人体姿态识别中常见的遮挡等问题,并通过可视化系统展示了对人体运动姿态的多维度分析结果。 展开更多
关键词 人体运动分析 人体关键点检测 TRANSFORMER 生成对抗网络 可变形注意力
在线阅读 下载PDF
基于ConvNeXt和可变形交叉注意力的多模态3D目标检测方法
4
作者 周鹏 宋志强 +2 位作者 胡凯 宋利鹏 李明阳 《电子测量技术》 北大核心 2025年第12期63-70,共8页
近年来,随着新能源汽车的快速发展,3D目标检测作为自动驾驶技术的核心基础正变得愈发重要。融合雷达点云与图像等多模态信息的策略,能够显著提升目标检测的准确性与鲁棒性。受BEVDet启发,本研究提出了一种基于BEV(鸟瞰图)视角的改进多... 近年来,随着新能源汽车的快速发展,3D目标检测作为自动驾驶技术的核心基础正变得愈发重要。融合雷达点云与图像等多模态信息的策略,能够显著提升目标检测的准确性与鲁棒性。受BEVDet启发,本研究提出了一种基于BEV(鸟瞰图)视角的改进多模态融合3D目标检测方法。该方法采用ConvNeXt网络结合FPN-DCN结构高效提取图像特征,并通过可变形交叉注意力机制实现图像与点云数据的深度融合,从而进一步提升模型的检测精度。在nuScenes自动驾驶数据集上的实验表明,本研究模型性能优异,在测试集上的NDS达到了64.9%,显著超越了大多数现有检测方法。 展开更多
关键词 自动驾驶 3D目标检测 多模态融合 可变形交叉注意力机制
在线阅读 下载PDF
基于空间可变形Transformer的三维点云配准方法 被引量:2
5
作者 谢帅康 熊风光 +3 位作者 朱新杰 宋宁栋 李文清 王廷凤 《计算机工程》 CAS CSCD 北大核心 2024年第3期224-232,共9页
针对低重叠场景下点云配准方法鲁棒性差、配准精度低的问题,提出一种基于空间可变形Transformer(SDT)的三维点云配准方法。设计多级分辨率特征的提取与融合方法,显式计算点云的局部空间关系。利用SDT模块增强点云空间特征的表达能力,聚... 针对低重叠场景下点云配准方法鲁棒性差、配准精度低的问题,提出一种基于空间可变形Transformer(SDT)的三维点云配准方法。设计多级分辨率特征的提取与融合方法,显式计算点云的局部空间关系。利用SDT模块增强点云空间特征的表达能力,聚合局部与全局的特征得到特征矩阵。计算两个特征矩阵的相似度矩阵并额外地为其添加边缘松弛块,有效降低了不可行匹配对配准鲁棒性的影响,同时对相似度矩阵进行归一化等计算得到软对应置信度矩阵,根据预测的对应点空间特征是否一致来寻找点云在低重叠场景下更精确的对应关系,使用直接定义在对应关系上的损失来训练网络,将软对应关系转换为一对一的硬匹配关系,最终通过随机抽样一致性刚性变换求解器执行配准。实验结果表明,在重叠率低于30%的3DLoMatch场景中,该方法的特征匹配召回率和配准召回率相比于高度关注重叠区域的成对点云配准等方法至少提高了3.7和3.9个百分点,并且具有较强的鲁棒性。 展开更多
关键词 低重叠率 多特征融合 可变形注意力 边缘松弛块 重叠对应预测
在线阅读 下载PDF
基于单目RGB图像的三维手部姿态估计方法
6
作者 杨冰 徐楚阳 +1 位作者 姚金良 向学勤 《浙江大学学报(工学版)》 北大核心 2025年第1期18-26,共9页
现有的三维手部姿态估计方法大多基于Transformer技术,未充分利用高分辨率下的局部空间信息,为此提出基于改进FastMETRO的三维手部姿态估计方法.引入可变形注意力机制,使得编码器的设计不再受限于图像特征序列长度;引入交错更新多尺度... 现有的三维手部姿态估计方法大多基于Transformer技术,未充分利用高分辨率下的局部空间信息,为此提出基于改进FastMETRO的三维手部姿态估计方法.引入可变形注意力机制,使得编码器的设计不再受限于图像特征序列长度;引入交错更新多尺度特征编码器来融合多尺度特征,强化生成手部姿态;引入图卷积残差模块来挖掘网格顶点间的显式语义联系.为了验证所提方法的有效性,在数据集FreiHAND、HO3D V2和HO3D V3上开展训练及评估实验.结果表明,所提方法的回归精度优于现有先进方法,在FreiHAND、HO3D V2、HO3D V3上的普鲁克对齐-平均关节点误差分别为5.8、10.0、10.5 mm. 展开更多
关键词 三维手部姿态估计 TRANSFORMER 可变形注意力机制 交错更新多尺度特征编码器 神经网络
在线阅读 下载PDF
基于改进YOLOv8n的雨天场景中飞机铆钉检测方法
7
作者 夏正洪 杨磊 +2 位作者 刘璐 何琥 钟吉飞 《中国安全生产科学技术》 北大核心 2025年第1期195-201,共7页
为解决雨天场景中飞机表面附着与铆钉大小、形状相似的水滴而导致机务工程师在绕机检查过程中易出现铆钉误检的问题,提出1种基于改进YOLOv8n的飞机铆钉小目标检测方法。首先,改进C2f层,融入动态蛇形卷积,以捕捉复杂多变的全局形态特征;... 为解决雨天场景中飞机表面附着与铆钉大小、形状相似的水滴而导致机务工程师在绕机检查过程中易出现铆钉误检的问题,提出1种基于改进YOLOv8n的飞机铆钉小目标检测方法。首先,改进C2f层,融入动态蛇形卷积,以捕捉复杂多变的全局形态特征;其次,在主干网络中嵌入可变形注意力机制,自适应调整对不同区域的关注度;然后,增加1个160×160的小目标检测层,提高小目标的检测能力;最后,使用斯库拉交并比(SIoU)边界框损失函数,提升模型训练速度和推理准确性,基于自建的飞机铆钉和雨滴数据集进行消融实验和对比实验。研究结果表明:本文所提算法在雨天场景下的铆钉检测精确度、召回率、mAP值分别较YOLOv8n提升7.4,4.0,7.8百分点,较其他主流算法也有显著提升。研究结果可为特殊天气下的飞机铆钉检测提供理论基础。 展开更多
关键词 航空安全 小目标检测 飞机铆钉 动态蛇形卷积 可变形注意力机制
在线阅读 下载PDF
基于改进YOLOv8的采摘机器人苹果检测算法研究 被引量:1
8
作者 黄天才 刘建新 +1 位作者 张筱晨 陈博 《数字农业与智能农机》 2025年第2期14-18,共5页
针对现有检测方法存在遮挡苹果检测困难以及易错检、漏检的问题,提出一种基于改进YOLOv8的苹果检测算法。使用树枝、树叶对苹果数据集进行前景加强,加强遮挡特征;采用多特征信息融合模块C2f-MFIC组合独立细节信息,以丰富特征图内容,提... 针对现有检测方法存在遮挡苹果检测困难以及易错检、漏检的问题,提出一种基于改进YOLOv8的苹果检测算法。使用树枝、树叶对苹果数据集进行前景加强,加强遮挡特征;采用多特征信息融合模块C2f-MFIC组合独立细节信息,以丰富特征图内容,提升特征响应;通过引入可变形注意力机制DAttention强化感兴趣区域并且抑制冗余环境的干扰;为了提升边界框预测的准确性,引入Shape-IoU,考虑位置框的形状与尺寸,加强回归定位;采用曼哈顿距离加权对图像进行后处理,结合置信分数与边框阈值综合评优。在苹果检测数据集上进行消融实验,结果表明,改进的YOLOv8n算法和base算法相比,mAP@0.5提高了3.4%,mAP@[0.5∶0.95]提高了6.2%,recall提高了4.1%,参数量和计算量分别减少了0.73%、3.7%,与当前流行的识别网络相比,对苹果具有更好的识别效果。 展开更多
关键词 苹果采摘 目标检测 YOLOv8 MFIC 可变形注意力
在线阅读 下载PDF
基于改进RT-DETR的牛仔面料疵点检测算法
9
作者 梁耕良 韩曙光 《浙江大学学报(工学版)》 北大核心 2025年第6期1169-1178,1190,共11页
为了实现牛仔面料微小疵点的快速准确检测,克服已有模型在复杂纹理背景下检测性能不佳的问题,提出基于改进RT-DETR的检测算法.采用部分卷积(PConv)结合Efficient Multi-Scale Attention机制增强模型对关键特征的识别能力;在添加S2特征... 为了实现牛仔面料微小疵点的快速准确检测,克服已有模型在复杂纹理背景下检测性能不佳的问题,提出基于改进RT-DETR的检测算法.采用部分卷积(PConv)结合Efficient Multi-Scale Attention机制增强模型对关键特征的识别能力;在添加S2特征检测层的基础上,提出多特征编码模块(MFE)和多尺度特征融合模块(MSFF)这2个特征融合操作,增强不同尺度的特征信息融合,并使用Deformable Attention注意力机制应对多样的疵点.在损失函数方面,提出新的联合损失函数,在加快网络收敛的同时,提高网络检测的精度.在天池云的布匹缺陷数据集上进行实验,结果表明改进RT-DETR模型的平均mAP@0.5为60%,与RT-DETR-R18模型相比,mAP@0.5提升5.3个百分点,模型总参数量下降40.1%;与YOLOv5、YOLOv8相比,mAP@0.5分别提升9.5、9.9个百分点.RTDETR改进模型在疵点检测的定位准确度与精度上均有显著提升,能满足工业大规模检测要求,对于纺织服装产业的智能化转型具有重要的借鉴作用. 展开更多
关键词 面料缺陷 缺陷检测 RT-DETR 部分卷积(PConv) 可变形注意力 归一化Wasserstein距离(NWD)
在线阅读 下载PDF
基于改进YOLO v8n的花生叶片病害检测方法
10
作者 白凯 张玉杰 +2 位作者 苏邓文 秦涛 彭志强 《农业机械学报》 北大核心 2025年第6期518-526,564,共10页
针对花生叶片病害在复杂环境下相似特征难以准确识别的问题,提出一种基于改进YOLO v8n模型的检测算法YOLO-ADM。首先,使用ADown模块代替部分CBS模块,降低下采样中的信息损失,减少了模型的参数量;其次,将可变形注意力(Deformable attenti... 针对花生叶片病害在复杂环境下相似特征难以准确识别的问题,提出一种基于改进YOLO v8n模型的检测算法YOLO-ADM。首先,使用ADown模块代替部分CBS模块,降低下采样中的信息损失,减少了模型的参数量;其次,将可变形注意力(Deformable attention,DA)机制添加到C2f模块组成C2f-DA结构,替换了SPPF上层的C2f模块,使模型聚焦到花生叶片病害的特定区域,准确捕捉其特征;最后,设计了一种全新的多尺度特征融合网络MFI Neck代替了YOLO v8n原有的颈部网络,增强了模型对不同尺度特征的融合能力。通过在花生叶片病害数据集上进行实验,结果表明,改进算法的准确率、召回率、mAP@0.5和mAP@0.5:0.95分别达到92.3%、91.0%、95.6%和85.2%,相比原始的YOLO v8n分别提高4.5、0.2、1.6、3.0个百分点,且模型内存占用量减少0.65 MB,参数量下降3.70×10^(5)。本算法在保证模型轻量化的前提下提升了检测能力,能够有效满足复杂环境下花生叶片病害的识别需求,为叶片病害的检测和监控提供了技术参考。 展开更多
关键词 花生叶片病害 YOLO v8n 目标检测 ADown 可变形注意力
在线阅读 下载PDF
改进YOLOv8s的校园智能清扫车障碍物检测与测距算法
11
作者 郭志军 叶世文 +2 位作者 庞明天 王丁健 杜林林 《电子测量技术》 北大核心 2025年第10期33-41,共9页
针对校园智能清扫车障碍物检测精确度低、检测速度慢以及模型复杂度高的问题,提出一种改进YOLOv8s的校园智能清扫车障碍物检测与测距算法YOLOv8s-FDR。在YOLOv8s算法框架的基础上,将主干网络替换为参数量和内存访问量更小的FasterNet网... 针对校园智能清扫车障碍物检测精确度低、检测速度慢以及模型复杂度高的问题,提出一种改进YOLOv8s的校园智能清扫车障碍物检测与测距算法YOLOv8s-FDR。在YOLOv8s算法框架的基础上,将主干网络替换为参数量和内存访问量更小的FasterNet网络,以降低模型复杂度并提高检测速度;然后设计了SPPF-DAM模块,以残差方式引入可变形注意力机制,提高模型对多尺度目标特征的感知能力;其次,在特征融合网络中采用Partial-RFEM进行下采样,以捕获非局部上下文特征和局部目标特征,提高检测精确度;最后,添加了测距功能,降低硬件成本。实验结果表明,改进算法与原算法相比mAP提高了3.6%,模型计算量和参数量相较于原模型分别降低了19.72%和15.27%。实际环境测试显示,YOLOv8s-FDR算法的检测速度达到38.44 fps,远高于原算法的17.12 fps,能够满足校园智能清扫车正常运行的性能要求。 展开更多
关键词 校园智能清扫车 YOLOv8s 可变形注意力机制 性能测试
在线阅读 下载PDF
DCD-YOLOv8n:一种高效的钢材表面缺陷检测算法
12
作者 梁礼明 陈康泉 +2 位作者 钟奕 龙鹏威 冯耀 《计算机工程与应用》 北大核心 2025年第7期117-127,共11页
针对现有钢材表面缺陷检测算法资源消耗较大、检测精度和效率较低等问题,提出一种基于YOLOv8n的高效钢材缺陷检测算法(DCD-YOLOv8n)。该方法一是设计轻量化的多分支特征聚合网络,有效精简模型体积并提升检测速度;二是利用跨维度聚合模块... 针对现有钢材表面缺陷检测算法资源消耗较大、检测精度和效率较低等问题,提出一种基于YOLOv8n的高效钢材缺陷检测算法(DCD-YOLOv8n)。该方法一是设计轻量化的多分支特征聚合网络,有效精简模型体积并提升检测速度;二是利用跨维度聚合模块,通过自适应机制建模多维度特征,以提升检测精度;三是采用可变形多头注意力机制,动态调整注意力的形状和范围,有效应对形态多样和结构复杂的缺陷特征,从而提升检测性能。在Severstal和NEU-DET钢材缺陷数据集上进行实验验证,相较于YOLOv8n算法,DCD-YOLOv8n算法的mAP分别提高2.4个百分点和1.9个百分点;参数量和复杂度分别降低0.5×10^(6)和1.9×10^(9);FPS分别提升22帧和7帧。实验结果表明,该算法在平衡计算开销、检测精度和效率方面表现优异,具有一定的实际部署应用价值。 展开更多
关键词 缺陷检测 YOLOv8n 多分支特征聚合网络 跨维度聚合模块 可变形多头注意力机制
在线阅读 下载PDF
基于Transformer网络多模态融合的密集视频描述方法 被引量:2
13
作者 李想 桑海峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第5期1061-1071,共11页
针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探... 针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探测器生成语义信息,加入音频特征进行补充,建立了多尺度可变形注意力模块,应用并行的预测头,加快模型收敛速度,提高模型精度。实验结果表明:模型在2个基准数据集上性能均有很好的表现,评价指标BLEU4上达到了2.17。 展开更多
关键词 密集事件描述 Transformer网络 语义信息 多模态融合 可变形注意力
在线阅读 下载PDF
基于MADSC和SIDSwinT的滚动轴承故障诊断 被引量:2
14
作者 赵小强 安贵财 《电子测量与仪器学报》 CSCD 北大核心 2024年第11期58-69,共12页
针对卷积神经网络通过局部感受野对输入信号进行特征提取,在变负荷和变噪声条件下无法有效捕获全局上下文信息导致滚动轴承故障诊断精度较低的问题,提出了一种多尺度自适应深度可分离卷积(MADSC)和空间交互双流Swin Transformer(SIDSwi... 针对卷积神经网络通过局部感受野对输入信号进行特征提取,在变负荷和变噪声条件下无法有效捕获全局上下文信息导致滚动轴承故障诊断精度较低的问题,提出了一种多尺度自适应深度可分离卷积(MADSC)和空间交互双流Swin Transformer(SIDSwinT)的滚动轴承故障诊断方法。首先,利用小波变换将一维振动信号转换成二维时频图以保留完整信息;接着,构建MADSC提取局部特征信息,捕捉不同尺度下滚动轴承振动信号的特征变化;然后,设计SIDSwinT提取全局特征信息,利用提出的空间交互模块(SIM)自适应地调整特征权重;同时,通过可变形注意力对采样信息进行加权消除工况波动造成的分布差异;最后,利用双向长短时记忆网络(BiLSTM)更好地理解上下文信息,提升诊断准确性和稳定性。使用两种不同数据集验证所提方法的故障诊断性能,实验结果表明,所提方法在信噪比为-4时准确率高于93.00%,在变负荷条件下准确率高于92.00%,验证了所提方法较对比方法具有更强的抗噪性能和泛化能力。 展开更多
关键词 滚动轴承 故障诊断 空间交互 可变形注意力 深度可分离卷积 SwinT
在线阅读 下载PDF
基于多层级视频Transformer的视觉自动定位方法
15
作者 邹琦萍 李博涛 +2 位作者 陈赛安 郭茜 张桃红 《工程科学与技术》 EI CAS CSCD 北大核心 2024年第6期34-43,共10页
工业自动化产线中,设备的异常检测直接决定加工质量,由机械臂和搭载于机械臂前端的工业相机构成的视觉系统可以有效监测此类异常。本文使用六轴机械臂搭载工业相机对工件表面进行成像,获取由模糊到清晰再到模糊的视频序列,以此选出最清... 工业自动化产线中,设备的异常检测直接决定加工质量,由机械臂和搭载于机械臂前端的工业相机构成的视觉系统可以有效监测此类异常。本文使用六轴机械臂搭载工业相机对工件表面进行成像,获取由模糊到清晰再到模糊的视频序列,以此选出最清晰的视频帧作为自动加工中有聚焦要求的距离指导,以进行聚焦异常修正,从而实现自动定位。提出一种基于多层级视频Transformer的视频分类模型多级视频Transformer(MLVT)用于高语义级别的视频表征学习,并用于选出视频序列中成像最清晰的帧。首先,提出一种具有多种感受野的token划分方法多级标记(MLT),能够将原始视频数据按2D图像补丁、3D图像补丁、帧和片段这4个层级划分成token序列,并在加入位置编码之后送入多级编码器(MLE)方法进行注意力的计算。为了缓解多层级的tokens带来的计算代价和收敛速度慢的问题,MLE引入一种逐层的可变形注意力机制逐层可变形注意力机制(LWLA),以一种可学习的方式代替全局注意力进行特征相似性的计算。最终,该方法3个版本的模型在本文的视频数据集上分别取得了87.2%、88.6%、88.9%的分类准确率,在与同参数量级的主流视频Transformer实验对比中均表现了最优的性能,有效地完成了从视频序列中选择出最清晰帧的任务,能够为下游视觉任务的性能提供强有力保障。 展开更多
关键词 视频Transformer 视频分类 视觉自动定位 可变形注意力
在线阅读 下载PDF
改进YOLOv5su模型检测桃树缩叶病 被引量:2
16
作者 姚凌云 周俊峰 李丽 《农业工程学报》 EI CAS CSCD 北大核心 2024年第14期109-117,共9页
为实现自然环境下桃树缩叶病的检测,该研究提出了一种基于YOLOv5su的桃树缩叶病识别改进模型DLLYOLOv5su。首先,针对桃树缩叶病目标特征变化较大的问题,在骨干网络最后一层C3模块中加入可变形自注意力模块(deformable attention,DA),使... 为实现自然环境下桃树缩叶病的检测,该研究提出了一种基于YOLOv5su的桃树缩叶病识别改进模型DLLYOLOv5su。首先,针对桃树缩叶病目标特征变化较大的问题,在骨干网络最后一层C3模块中加入可变形自注意力模块(deformable attention,DA),使模型更加关注目标区域,降低背景对模型的影响,提高模型在复杂背景下的拟合能力。其次在SPPF(fast spatial pyramid pooling)模块中引入LSKA(large separable kernel attention)结构,大核卷积增大了模型的感受野,使模型能够关注更多信息。最后,提出了LAWD(lightweight adaptive weighted downsampling)模块,使用轻量化的下采样结构替换卷积模块,减少计算开销。在桃树缩叶病数据集上进行试验,结果显示,DLL-YOLOv5su模型权重大小为17.6 MB,检测速度为83帧/s。识别准确率P、召回率R和平均精度均值mAP_(50)分别达到了80.7%、73.1%和80.4%,相较于原始YOLOv5su分别提高了4.2、2.4和4.3个百分点。与YOLOv3-tiny、Faster R-CNN、YOLOv7和YOLOv8相比mAP_(50)分别高出了28.5、11.8、2.1和4.1个百分点。改进模型识别精度高,误检、漏检率低,检测速度满足实时检测的要求,可以为桃树缩叶病的实时监测和预警提供参考。 展开更多
关键词 图像处理 病害 缩叶病 目标检测 YOLOv5su 可变形注意力 大核卷积 轻量化
在线阅读 下载PDF
基于RT-DETR改进的织物疵点检测算法
17
作者 朱胜利 李明 何志奇 《毛纺科技》 2025年第8期118-127,共10页
为了解决织物疵点检测中疵点类型多、大小不平衡和小目标疵点难以检测的问题,基于RT-DETR(Real-Time DEtection TRansformer)提出了一种改进的织物疵点检测算法FD-DETR(Fabric Defect-DETR)。将可变形注意力机制模块DA(Deformable Atten... 为了解决织物疵点检测中疵点类型多、大小不平衡和小目标疵点难以检测的问题,基于RT-DETR(Real-Time DEtection TRansformer)提出了一种改进的织物疵点检测算法FD-DETR(Fabric Defect-DETR)。将可变形注意力机制模块DA(Deformable Attention)引入特征交互模块AIFI(Attention-based Intrascale Feature Interaction)来增强算法对疵点感受野的适应性,以更好地实现对不同类型和不同大小疵点的检测;在Neck层将Slim-Neck与加权双向特征金字塔Bi-FPN相结合形成GVBi-FPN模块以替换CCFM模块,降低模型复杂度的同时提高对小疵点的检测能力;在分类损失部分将RT-DETR的原分类损失函数Varifocal Loss与Slide Loss结合为Slide Varifocal Loss,提高困难样本的训练权重,使算法注重更难检测的目标以提高困难样本的检测精度。结果表明:在检测20类疵点时,相较RT-DETR,FD-DETR算法的参数量有所降低,并且在mAP@0.5方面提高了3.3%,mAP@0.5∶0.95方面提高了1.7%,实现了45.3帧/s的检测速度,能够快速准确的对不同大小疵点进行检测,有效提升算法性能。 展开更多
关键词 织物疵点检测 RT-DETR 加权双向特征金字塔 可变形注意力 损失函数
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部