期刊文献+
共找到557篇文章
< 1 2 28 >
每页显示 20 50 100
融合多尺度特征与注意力的小样本目标检测
1
作者 张英俊 甘望阳 +1 位作者 谢斌红 张睿 《小型微型计算机系统》 北大核心 2025年第3期689-696,共8页
针对现有小样本目标检测模型存在的尺度变化问题,支持集与查询集之间的外观变化、遮挡导致的误检与漏检问题,本文提出一种融合多尺度特征与注意力的小样本目标检测模型.首先,采用ResNet-101网络进行特征提取,同时引入ASPP(Atrous Spatia... 针对现有小样本目标检测模型存在的尺度变化问题,支持集与查询集之间的外观变化、遮挡导致的误检与漏检问题,本文提出一种融合多尺度特征与注意力的小样本目标检测模型.首先,采用ResNet-101网络进行特征提取,同时引入ASPP(Atrous Spatial Pyramid Pooling)模块获取不同的感受野,以捕获目标细节信息的多尺度特征.其次,采用Bi-FPN网络进行多尺度特征融合,获得更具代表性的查询特征与支持特征,有效缓解尺度变化问题.然后,利用提出的注意力引导特征增强模块对查询特征与支持特征进行自身关注,使得它们具有更好的判别能力,由此促进查询特征与支持特征的融合,以更好地应对外观变化和遮挡带来的挑战,从而缓解误检、漏检问题.最后,将分类头与边界框回归头进行解耦,分别对RPN网络基于细粒度查询特征产生的候选区域进行目标分类与目标定位.在PASCAL VOC与MS COCO数据集上的实验结果表明,所提模型的检测性能优于主流的小样本目标检测模型,相较于基线模型DCNet,mAP平均分别提升了3.5%与2.1%. 展开更多
关键词 小样本学习 元学习 目标检测 多尺度特征融合 注意力机制
在线阅读 下载PDF
基于注意力尺度序列融合的车辆行人检测算法
2
作者 李军 邹军 +1 位作者 陈翠 张世义 《重庆交通大学学报(自然科学版)》 北大核心 2025年第7期75-82,共8页
针对在路侧端车辆与行人检测中存在检测精度低,漏检率较高等问题,提出了一种注意力尺度序列融合的车辆行人检测算法YOLOv8-APC。首先,在颈部网络中使用尺度序列融合模块SSFF与三特征编码器TFE,以增强对多尺度信息的提取与融合,同时引入... 针对在路侧端车辆与行人检测中存在检测精度低,漏检率较高等问题,提出了一种注意力尺度序列融合的车辆行人检测算法YOLOv8-APC。首先,在颈部网络中使用尺度序列融合模块SSFF与三特征编码器TFE,以增强对多尺度信息的提取与融合,同时引入通道与位置注意力机制CPAM提高检测精度。然后,在改进后的网络结构基础上增加P2检测层,提高对小目标的检测能力,降低漏检率。最后,在主干网络中应用C2f_GhostDynamicConv(C2f_GDC)模块,有效降低模型的复杂度。为验证算法的有效性,在重庆科学谷示范区路侧端数据集Vapddsits上进行验证,实验结果表明:YOLOv8-APC的mAP50值与召回率较原模型提升了11.1%、11.9%;参数量与模型体积分别仅有1.85 M、4.1 MB,分别较原模型下降了38.3%、34.9%,其对远距离小目标以及遮挡目标能够实现更为准确的检测,且不会占用过多的内存资源,为路侧端车辆行人检测提供了一种解决方案。 展开更多
关键词 交通运输工程 YOLOv8 车辆与行人 特征提取 注意力机制 尺度序列融合
在线阅读 下载PDF
多尺度融合增强与注意力机制结合的图像语义分割
3
作者 刘书刚 杜昊东 王洪涛 《计算机应用与软件》 北大核心 2025年第6期225-233,278,共10页
针对当前图像语义分割中分割效率不高与分割边界不连续问题,提出一种多尺度融合增强与注意力机制结合的语义分割算法。该算法对原有DeepLabv3+网络结构进行改进,在编码器部分提出一种特征提取增强网络结构,充分利用相邻层各个尺度的特... 针对当前图像语义分割中分割效率不高与分割边界不连续问题,提出一种多尺度融合增强与注意力机制结合的语义分割算法。该算法对原有DeepLabv3+网络结构进行改进,在编码器部分提出一种特征提取增强网络结构,充分利用相邻层各个尺度的特征信息进行融合,在解码器末端使用改进的轻量化卷积注意力模块,使得对于物体边界分割更加充分。通过在Pascal VOC2007和Cityscapes数据集上进行实验验证,结果表明该方法较原有网络的精确度有显著的提高。 展开更多
关键词 语义分割 特征融合增强 注意力模块 编码器 上采样
在线阅读 下载PDF
基于注意力机制和多尺度融合的人群计数网络
4
作者 栾方军 龚琪 袁帅 《计算机工程》 北大核心 2025年第3期352-361,共10页
为了应对人群图像中尺度变化和背景干扰的问题,提出一种人群计数网络模型,旨在充分利用多尺度信息并降低背景噪声的影响。首先采用ConvNeXt作为主干网络,用于提取特征。其次为了有效融合不同层次的特征,提出多层次特征融合模块(MFFM),... 为了应对人群图像中尺度变化和背景干扰的问题,提出一种人群计数网络模型,旨在充分利用多尺度信息并降低背景噪声的影响。首先采用ConvNeXt作为主干网络,用于提取特征。其次为了有效融合不同层次的特征,提出多层次特征融合模块(MFFM),将主干网络中不同层次的特征进行跨尺度融合,融合后的特征包含了不同尺度的语义信息,可以更好地适应人群计数任务中的尺度变化问题。接着为了更好地解决人群计数中存在的挑战,设计一个多尺度注意力模块(MSAM),根据不同感受野的分支提取不同尺度的特征,利用选择性Kernel通道注意力(SKCA)缓解多列结构存在的特征相似问题,并将模块生成的注意力图反馈到对应的尺度特征中,以抑制背景的干扰。网络模型在ShanghaiTechA数据集中的平均绝对误差(MAE)和均方根误差(RMSE)分别达到了56.1和93.9;在ShanghaiTechB数据集中的MAE和RMSE分别达到了6.1和10.3;在UCF_CC_50数据集中的MAE和RMSE分别达到了174.9和252.7;在Mall数据集中的MAE和RMSE分别达到了1.42和1.85。在公开数据集上的实验结果表明,提出的网络模型与现有代表性的人群计数方法相比,在提升人群计数任务的准确性和鲁棒性方面均取得了明显进展。 展开更多
关键词 人群计数 多尺度特征融合 注意力机制 神经网络 密度图
在线阅读 下载PDF
融合时空注意力机制的多尺度卷积车辆轨迹预测
5
作者 闫建红 刘芝妍 王震 《计算机工程》 北大核心 2025年第8期406-414,共9页
车辆轨迹预测是自动驾驶的重要环节,提升车辆轨迹预测的可靠性和准确性对自动驾驶安全性有很大帮助。道路上车辆行驶受交通环境影响,考虑相邻车辆运动和相对空间位置等交通环境因素,在长短期记忆(LSTM)神经网络编码器-解码器模型基础上... 车辆轨迹预测是自动驾驶的重要环节,提升车辆轨迹预测的可靠性和准确性对自动驾驶安全性有很大帮助。道路上车辆行驶受交通环境影响,考虑相邻车辆运动和相对空间位置等交通环境因素,在长短期记忆(LSTM)神经网络编码器-解码器模型基础上引入时空注意力机制,通过时间注意力层关注目标车辆和相邻车辆的历史轨迹,空间注意力层关注车辆的相对空间位置。为了增强特征提取程度和实现更全面的特征融合,使用多尺度卷积社交池增大感受野,融合多尺度特征,并提出基于LSTM编码器-解码器架构融合多尺度卷积社交池和时空注意力机制的车辆轨迹预测模型MCS-STA-LSTM。通过学习车辆运动相互依赖关系,以达到获得目标车辆未来轨迹基于机动类别的多模态预测分布的目的。在公开数据集NGSIM上进行训练、验证和测试,实验结果表明,相较于其他轨迹预测模型,该方法在3 s内的均方根误差平均降低了9.35%,5 s内均方根误差平均降低了5.53%,提高了轨迹预测准确性,在中短期预测上更具有优势。 展开更多
关键词 多尺度卷积社交池化 轨迹预测 长短期记忆神经网络 时空注意力机制 多尺度特征融合
在线阅读 下载PDF
基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离
6
作者 王春丽 刘素倩 陈善立 《信号处理》 北大核心 2025年第4期718-729,共12页
针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合... 针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合现实中复杂的背景环境需求。为使模型可以在现实应用复杂条件下灵活应对混合语音信号中的多变性与非平稳性,采用多尺度可变形注意力机制与Transformer编码器构成(Transformer Encoder Multi-Scale deformable attention,TEMDA)模块,利用多尺度可变形注意力机制的偏移层在不同位置上进行动态计算,扩展模型的感受野,同时使模型更有效地聚焦于重要的时间点,减少噪声和混响的影响。为了更好地获取上下文信息,在多路径融合策略中,通过在双路径模块的基础上增加通道间的Conformer组成三路径模块,用于提取多说话人之间的特征信息,这样的处理方式可以更好地融合单一说话人和多说话人之间的信息,提升语音分离性能。实验表明,所提出的模型分别在纯净和带噪声的Libri2Mix、Libri3Mix数据集上达到了显著的分离效果,并且在LRS2-2Mix数据集中模型可以更好地减少噪声和混响对语音分离的影响,尺度不变信噪比改善(Scale-Invariant Signal-to-Noise Ratio Improvement,SI-SNRi)和信号失真比改善(Signal-to-Distortion Ratio Improvement,SDRi)分别为14.7 dB和15.1 dB;在三个说话人数目中的估计精度为98.89%,提升了0.12%。 展开更多
关键词 未知说话人语音分离 多尺度可变形注意力编码策略 多路径融合 吸引子估计
在线阅读 下载PDF
结合注意力机制和多尺度特征融合的三维手部姿态估计
7
作者 郭诗月 党建武 +1 位作者 王阳萍 雍玖 《计算机应用》 北大核心 2025年第4期1293-1299,共7页
针对因遮挡和自相似性导致的从单张RGB图像估计三维手部姿态不精确的问题,提出结合注意力机制和多尺度特征融合的三维手部姿态估计算法。首先,提出结合扩张卷积和CBAM(Convolutional Block Attention Module)注意力机制的感受强化模块(S... 针对因遮挡和自相似性导致的从单张RGB图像估计三维手部姿态不精确的问题,提出结合注意力机制和多尺度特征融合的三维手部姿态估计算法。首先,提出结合扩张卷积和CBAM(Convolutional Block Attention Module)注意力机制的感受强化模块(SEM),以替换沙漏网络(HGNet)中的基本块(Basicblock),在扩大感受野的同时增强对空间信息的敏感性,从而提高手部特征的提取能力;其次,设计一种结合SPCNet(Spatial Preserve and Contentaware Network)和Soft-Attention改进的多尺度信息融合模块SS-MIFM(SPCNet and Soft-attention-Multi-scale Information Fusion Module),在充分考虑空间内容感知机制的情况下,有效地聚合多级特征,并显著提高二维手部关键点检测的准确性;最后,利用2.5D姿态转换模块将二维姿态转换为三维姿态,从而避免二维关键点坐标直接回归计算三维姿态信息导致的空间丢失问题。实验结果表明,在InterHand2.6M数据集上,所提算法的双手关节点平均误差(MPJPE)、单手MPJPE和根节点平均误差(MRRPE)分别达到了12.32、9.96和29.57 mm;在RHD(Rendered Hand pose Dataset)上,与InterNet和QMGR-Net算法相比,所提算法的终点误差(EPE)分别降低了2.68和0.38 mm。以上结果说明了所提算法能够更准确地估计手部姿态,且在一些双手交互和遮挡的场景下有更高的鲁棒性。 展开更多
关键词 手部姿态估计 多尺度特征融合 注意力机制 高分辨率网络 沙漏网络
在线阅读 下载PDF
多尺度融合与注意力机制的生丝条干与疵点提取算法
8
作者 胡涛涛 孙卫红 +1 位作者 梁曼 邵铁锋 《中国测试》 北大核心 2025年第5期148-154,161,共8页
动态采集生丝图像时生丝微小抖动会造成生丝图像模糊,为解决现有生丝图像分割算法对模糊生丝条干与边缘疵点分割效果不佳的问题,以U-Net作为主干特征提取网络,提出一种基于多尺度融合与注意力机制的生丝条干与疵点分割算法。首先,将生... 动态采集生丝图像时生丝微小抖动会造成生丝图像模糊,为解决现有生丝图像分割算法对模糊生丝条干与边缘疵点分割效果不佳的问题,以U-Net作为主干特征提取网络,提出一种基于多尺度融合与注意力机制的生丝条干与疵点分割算法。首先,将生丝原始特征图进行空间与通道上的双路注意力抓取,增强网络对丝干与疵点等有效特征的提取能力。其次,通过编码器浅层嵌入的边缘定位模块获取细粒度的生丝边缘细节信息,将其输入到解码器特征融合模块进行不同网络层级的多尺度特征融合。最后,引入Lovsz-Softmax损失函数进行数据均衡,生成分割概率图后得到分割图像。实验结果表明,与现有生丝分割算法相比,该算法对模糊生丝条干有明显的分割优势,且生丝边缘疵点的分割准确率、特异性、敏感度分别达到98.26%,99.54%,84.31%;相比于原始U-Net网络,各指标分别提升2.59%,1.35%,5.87%。 展开更多
关键词 生丝 模糊条干 边缘疵点 注意力机制 多尺度融合 语义分割
在线阅读 下载PDF
基于多尺度注意力与特征融合的行人重识别方法研究
9
作者 吴宇森 于宝华 +1 位作者 荣江 张数 《石河子大学学报(自然科学版)》 北大核心 2025年第1期122-132,共11页
行人重识别又称行人再识别,是一种在跨摄像头环境下识别相同行人的技术。目前,由于行人姿势变化、灯光角度、障碍遮挡等问题影响,导致现有方法提取行人特征受到干扰较大,影响识别效果。针对该问题,提出将NFormer嵌入主干网络的不同层级... 行人重识别又称行人再识别,是一种在跨摄像头环境下识别相同行人的技术。目前,由于行人姿势变化、灯光角度、障碍遮挡等问题影响,导致现有方法提取行人特征受到干扰较大,影响识别效果。针对该问题,提出将NFormer嵌入主干网络的不同层级,构建多尺度注意力模块(Multi-Scale Attention-NFormer, MSAN),提取细节丰富的底层特征与表征能力强的高层特征进行融合;提出结合可学习视觉中心与多层感知器,构建了基于可学习视觉中心与多层感知器的特征融合模块(Feature Fusion with Learnable Visual Centers and Multilayer Perceptron, FFLM),提取关联位置信息的局部特征与长距离依赖的全局特征,并将其融合获取更具辨别性的特征表达。为了使主干网络与头部网络更适用于特征融合任务,对ResNet50的激活函数和搭建架构进行改进,保留了更丰富的特征信息;在头部网络添加BN层和GeM池化,缓解了损失函数优化方向不同步的问题。实验结果表明,所提方法在Market-1501和DukeMTMC-reID数据集上的首位命中率分别达到了95.8%、90.2%,平均精度均值为93.0%、84.7%,所提取的特征更具有判别性,识别率更高。 展开更多
关键词 行人重识别 特征融合 多尺度 注意力机制 深度学习
在线阅读 下载PDF
基于多尺度注意力融合的叶绿素a水质参数反演研究
10
作者 孙帮勇 巩凯杰 +1 位作者 于涛 别倩雯 《光谱学与光谱分析》 北大核心 2025年第4期1190-1200,共11页
水资源是生态环境核心要素之一,目前大量的水域被工业化污染或富营养化破坏,因此实时监测水质参数对于维护水体健康至关重要。传统水质监测多利用实地采样测量法或基于线性回归预测法,由于遥感图像与水质参数之间显著的非线性特征,传统... 水资源是生态环境核心要素之一,目前大量的水域被工业化污染或富营养化破坏,因此实时监测水质参数对于维护水体健康至关重要。传统水质监测多利用实地采样测量法或基于线性回归预测法,由于遥感图像与水质参数之间显著的非线性特征,传统方法费时费力且预测精度不高。深度学习方法在处理复杂非线性问题中表现出良好性能,已被多位学者应用到水质参数反演中。基于深度学习的水质反演模型仍存在解析遥感光谱图像特征不精确、模型泛化能力差等问题。提出一种基于多尺度注意力融合机制的水质反演网络模型,能够采用遥感光谱图像准确预测出叶绿素a等水质参数,为水域健康程度评价提供依据。该网络融合了先进的注意力机制和特征融合策略,通过结合CNN的局部特征学习优势和Transformer的全局特征提取能力,引入了DenseASPP模块来获取遥感图像的多尺度特征,并采用通道注意力解码器模块和池化融合模块来提取细节特征。通过融合不同尺度和层次的特征信息对叶绿素a浓度进行估计,获得了较高的反演精度和泛化性能。为验证所提出反演模型的性能,实验在Python3.7和PyTorch框架下对模型进行实现,并选择2021年1月至2022年12月的海洋遥感光谱图像和叶绿素a浓度数据进行网络训练。实验对所提出的方法与其他7种水质反演方法进行对比,客观指标所提出方法均达到了最好的性能,较对比方法中最好的在R2指标上提高了0.09,在RMSE、MAE、MAD指标上分别降低了11.99、0.089、0.029,在Evar指标上提高了0.098,在NSE指标上提高了0.041;在主观评价上,所提出方法获得的叶绿素a浓度更精确,误差更小,不同水域中表现的泛化能力更强。 展开更多
关键词 水质反演 叶绿素A 遥感光谱图像 多尺度注意力融合
在线阅读 下载PDF
坐标注意力及卷积增强的全尺度融合建筑物提取网络
11
作者 何锐利 乐伟鹏 +1 位作者 俞友 黄亮 《科学技术与工程》 北大核心 2025年第18期7485-7492,共8页
建筑物作为人类生产活动的重要载体,准确快速地提取建筑物可在自然资源管理领域发挥重要作用。基于卷积神经网络(convolutional neural network, CNN)在遥感影像建筑物提取方面取得了重大进展,但构建的网络模型在特征提取和特征融合方... 建筑物作为人类生产活动的重要载体,准确快速地提取建筑物可在自然资源管理领域发挥重要作用。基于卷积神经网络(convolutional neural network, CNN)在遥感影像建筑物提取方面取得了重大进展,但构建的网络模型在特征提取和特征融合方面仍有待优化。因此,提出了一种坐标注意力及卷积增强的全尺度融合建筑物提取网络(coordinate attention and convolutional enhanced full-scale fusion building extraction network, CCFNet)。所构建的模型由坐标注意力及卷积增强的残差编码器和全尺度融合解码器组成。编码器使用坐标注意力构建通道间的依赖关系并捕获的全局信息,其使用的非对称卷积增强地物边缘特征提取,并对旋转、翻转扭曲及纵横比不均匀的地物有更强的鲁棒性。解码器使用的全尺度融合方法则有助于建筑物的重建。在中国典型城市建筑物实例数据集实验结果表明,相比于其他建筑物提取网络,本文构建的CCFNet模型在Accuracy、F_(1)、IOU和MIOU共4种分割评价指标分别取得了93.84%、84.08%、72.53%和82.59%的最优实验精度。结果表明,该模型能够有效地提取建筑物区域。 展开更多
关键词 坐标注意力 尺度融合 建筑物提取 非对称卷积
在线阅读 下载PDF
基于多尺度特征融合和注意力机制的视频异常检测方法
12
作者 吴祥 肖剑 吉根林 《应用科学学报》 北大核心 2025年第2期234-244,共11页
视频画面中的运动物体在不同时刻往往呈现出多样的尺度大小,这给视频异常检测带来了一定的挑战。尽管传统的生成对抗网络在视频异常检测任务上取得了一定成效,但因其采用单一尺度的特征提取方法,无法充分捕获不同尺度物体的特征,从而限... 视频画面中的运动物体在不同时刻往往呈现出多样的尺度大小,这给视频异常检测带来了一定的挑战。尽管传统的生成对抗网络在视频异常检测任务上取得了一定成效,但因其采用单一尺度的特征提取方法,无法充分捕获不同尺度物体的特征,从而限制了其异常检测的性能。针对该问题,本文基于生成对抗网络结构,提出了一种基于多尺度特征融合和注意力机制的视频异常检测方法。使用大小不同的卷积核捕获不同感受野的特征,并将它们进行融合以获得多尺度的特征表示。此外,在生成器的转置卷积层后引入坐标注意力机制,自适应分配特征图权重,从而增强模型对关键特征的感知能力。在公开数据集UCSD Ped2和Avenue上的实验结果表明,本文方法的性能优于其他同类方法。 展开更多
关键词 视频异常检测 深度学习 生成对抗网络 多尺度特征融合 注意力机制
在线阅读 下载PDF
融合多尺度注意力神经网络的港口起重装备故障时序数据预测方法 被引量:1
13
作者 雷鹏 谢敬玲 +4 位作者 许洪祖 焦锋 魏立明 张忠岩 吕成兴 《机电工程》 北大核心 2025年第2期277-286,共10页
近年来,深度神经网络在轴承时序预测领域得到了广泛应用。为了进一步提升港口起重装备滚动轴承时序模型预测的准确度,以青岛港门机为例对港口起重装备关键部位的滚动轴承时序预测进行了建模,提出了一种融合改进变分模态分解的多尺度注... 近年来,深度神经网络在轴承时序预测领域得到了广泛应用。为了进一步提升港口起重装备滚动轴承时序模型预测的准确度,以青岛港门机为例对港口起重装备关键部位的滚动轴承时序预测进行了建模,提出了一种融合改进变分模态分解的多尺度注意力机制港口装备故障时序数据预测方法。首先,采用了融合非线性策略与混沌映射的改进灰狼优化算法(IGWO),自适应地确定了变分模态分解(VMD)的模态数与惩罚因子;然后,将变分模态分解得到的本征模态函数进一步作为融合多尺度注意力神经网络(FMANN)模型的时序输入,进行了多尺度通道特征融合;最后,对各个本征模态函数的预测结果进行了融合,得到了最终预测结果。研究结果表明:FMANN模型在回转机构数据集上的均方根误差(RMSE)为0.001 12,平均绝对百分比误差(MAPE)为6.396 3%,决定系数为0.999 8;相比于其他预测模型,FMANN预测效果更加拟合实际数据。FMANN模型能够准确地预测设备轴承的时序振动,有望为未来实际工业生产提供一条新思路。 展开更多
关键词 滚动轴承 故障诊断 变分模态分解 注意力机制 灰狼优化算法 融合多尺度注意力神经网络 深度可分离卷积
在线阅读 下载PDF
基于多尺度空间注意力互补的红外与可见光图像融合
14
作者 张永兴 连博文 +2 位作者 顾乃庭 李方召 李杨 《光学精密工程》 北大核心 2025年第7期1152-1168,共17页
针对当前红外与可见光图像融合方法过度引入红外冗余信息导致复杂场景下无法平衡复杂场景信息,融合效果不佳的现状,提出基于多尺度空间注意力互补的红外和可见光图像融合方法,采用双分支卷积网络分别提取红外和可见光图像特征信息并进... 针对当前红外与可见光图像融合方法过度引入红外冗余信息导致复杂场景下无法平衡复杂场景信息,融合效果不佳的现状,提出基于多尺度空间注意力互补的红外和可见光图像融合方法,采用双分支卷积网络分别提取红外和可见光图像特征信息并进行差异互补,利用多尺度空间注意力互补处理后回归叠加至图像特征中,实现互补特征中途回归叠加的图像融合,有效平衡复杂场景信息。实验结果表明:相比于Densefuse,PIAFusion等主流融合方法,该方法在通用性较强的互信息(MI)方面分别提升了4.1%和4.3%,在视觉信息保真度(VIF)方面分别提升了5.0%和2.3%,有效保留了复杂场景下的目标特征信息并实现对冗余特征的有效抑制,具有良好的特征平衡能力,在复杂场景下目标检测和识别中具有潜在应用价值。 展开更多
关键词 图像融合 红外和可见光图像 双分支卷积网络 差异互补 多尺度空间注意力 回归叠加
在线阅读 下载PDF
融合金字塔和多尺度注意力的多曝光图像融合优化算法
15
作者 王卫苹 刁亚鹏 《智能系统学报》 北大核心 2025年第4期916-927,共12页
为解决复杂光照条件下真实场景中导致的图像噪声、模糊和细节丢失问题,本文提出一种多曝光图像融合技术DPEPA-MEF(deep pyramid exposure pyramid attention-multi-exposure fusion)。该方法通过有效结合不同曝光水平的图像,解决高对比... 为解决复杂光照条件下真实场景中导致的图像噪声、模糊和细节丢失问题,本文提出一种多曝光图像融合技术DPEPA-MEF(deep pyramid exposure pyramid attention-multi-exposure fusion)。该方法通过有效结合不同曝光水平的图像,解决高对比度、低光照以及色彩和亮度平衡等问题。该方法由3个模块组成,对DPE(deep pyramid exposure)进行改进。第1个模块专注于内容细节提取,第2个模块负责色彩映射和校正,第3个模块利用多尺度特征金字塔进行图像恢复。实验结果表明,在不同的光照条件和动态场景下,DPEPA-MEF能够更有效地融合多张曝光图像,生成的图像在细节保留、色彩还原和对比度等方面表现出色。通过定量评估指标和主观视觉评估,DPEPA-MEF均显示出显著的优势,证明了该方法在实际应用中的巨大潜力和优越性。 展开更多
关键词 图像融合 注意力机制 金字塔网络 多曝光 细节提取 色彩校正 多尺度 深度学习
在线阅读 下载PDF
基于融合注意力和多尺度特征的热轧带钢表面缺陷检测方法
16
作者 包广清 周芷意 孟庆成 《北京工业大学学报》 北大核心 2025年第8期944-956,共13页
针对热扎带钢表面缺陷面积较小、形态多样、边界模糊且背景复杂的问题,提出一种热轧带钢表面缺陷检测模型SFSP-YOLOv7。首先,通过改进k-means++聚类算法调整先验框维度,使用交并比(intersection over union, IoU)距离替换欧氏距离度量,... 针对热扎带钢表面缺陷面积较小、形态多样、边界模糊且背景复杂的问题,提出一种热轧带钢表面缺陷检测模型SFSP-YOLOv7。首先,通过改进k-means++聚类算法调整先验框维度,使用交并比(intersection over union, IoU)距离替换欧氏距离度量,引入遗传算法(genetic algorithm, GA)以获得更具代表性的锚框尺寸,并提升模型的回归速度和小面积缺陷检测的精确度。其次,对于边界模糊且背景复杂的缺陷,提出一种目标检测边界框损失函数FocalSIoU,以减少模型中不必要特征的学习,加快检测速度,提升预测框的回归效果。最后,设计一种多尺度特征融合模块(multi-scale feature fusion module, MFFM),通过多尺度信息融合增强模型特征提取能力,提高小目标的检测精确度,并改善模型检测误检率。在模型Head结构中引入空到深(space to depth, SPD)卷积模块对模型进行改进,避免细粒度信息的丢失,降低目标漏检率。通过NEU-DET数据集进行验证,结果表明,SFSP-YOLOv7模型检测的平均精度均值(mean average precision, mAP)为78.3%,相比原YOLOv7模型提升了5.0个百分点,表明提出的检测方法具有有效性。 展开更多
关键词 带钢表面缺陷检测 深度学习 YOLOv7 损失函数 注意力机制 多尺度特征融合
在线阅读 下载PDF
融合梯度预测和无参注意力的高效地震去噪Transformer 被引量:1
17
作者 高磊 乔昊炜 +2 位作者 梁东升 闵帆 杨梅 《计算机科学与探索》 北大核心 2025年第5期1342-1352,共11页
压制随机噪声能够有效提升地震数据的信噪比(SNR)。近年来,基于卷积神经网络(CNN)的深度学习方法在地震数据去噪领域展现出显著性能。然而,CNN中的卷积操作由于感受野的限制通常只能捕获局部信息而不能建立全局信息的长距离连接,可能会... 压制随机噪声能够有效提升地震数据的信噪比(SNR)。近年来,基于卷积神经网络(CNN)的深度学习方法在地震数据去噪领域展现出显著性能。然而,CNN中的卷积操作由于感受野的限制通常只能捕获局部信息而不能建立全局信息的长距离连接,可能会导致细节信息的丢失。针对地震数据去噪问题,提出了一种融合梯度预测和无参注意力的高效Transformer模型(ETGP)。引入多头“转置”注意力来代替传统的多头注意力,它能在通道间计算注意力来表示全局信息,缓解了传统多头注意力复杂度过高的问题。提出了无参注意力前馈神经网络,它能同时考虑空间和通道维度计算注意力权重,而不向网络增加参数。设计了梯度预测网络以提取边缘信息,并将信息自适应地添加到并行Transformer的输入中,从而获得高质量的地震数据。在合成数据和野外数据上进行了实验,并与经典和先进的去噪方法进行了比较。结果表明,ETGP去噪方法不仅能更有效地压制随机噪声,并且在弱信号保留和同相轴连续性方面具有显著优势。 展开更多
关键词 地震数据去噪 卷积神经网络 TRANSFORMER 注意力模块 梯度融合
在线阅读 下载PDF
基于动态自适应通道注意力特征融合的小目标检测
18
作者 吴迪 赵品懿 +2 位作者 甘升隆 沈学军 万琴 《电子科技大学学报》 北大核心 2025年第2期221-232,共12页
针对小目标检测中卷积操作导致检测特征缺失和不同尺度语义隔阂的问题,提出一种基于动态自适应通道注意力特征融合的小目标检测方法。1)提出一种多尺度三角动态颈(Tri-Neck)网络结构,用于融合多尺度特征语义隔阂及弥补小目标特征缺失的... 针对小目标检测中卷积操作导致检测特征缺失和不同尺度语义隔阂的问题,提出一种基于动态自适应通道注意力特征融合的小目标检测方法。1)提出一种多尺度三角动态颈(Tri-Neck)网络结构,用于融合多尺度特征语义隔阂及弥补小目标特征缺失的问题。2)提出一种分组批量动态自适应通道注意力模块,增强弱语义小目标特征同时抑制无用信息,且在动态自适应通道注意力模块中设计新的激活函数和交并比损失函数,提升通道注意力表征能力。3)采用ResNet50作为骨干网络依次连接特征金字塔网络和Tri-Neck网络。实验结果表明,该方法在Pascal Voc 2007、Pascal Voc 2012上比YOLOv8算法mAP分别提升5.3%和6.2%,在MS COCO 2017数据集上AP和AP_S分别提升1.6%和2%,在SODA-D数据集上比YOLOv8算法AP提升0.9%。 展开更多
关键词 小目标检测 多尺度融合特征 特征金字塔 动态通道注意力 交并比损失函数
在线阅读 下载PDF
融合注意力机制的多粒度行人再识别方法
19
作者 莫太平 覃汉岳 +2 位作者 孙鹏 张向文 孟春城 《电子科技大学学报》 北大核心 2025年第3期393-400,共8页
针对监控环境复杂,行人在光照变化、视角变化和遮挡等不同条件下图像外观差异较大,导致行人细节特征难以被提取的问题,提出了一种融合注意力机制的多粒度行人再识别模型。该模型通过引入多分支结构,提取包含不同尺度信息的特征图;结合... 针对监控环境复杂,行人在光照变化、视角变化和遮挡等不同条件下图像外观差异较大,导致行人细节特征难以被提取的问题,提出了一种融合注意力机制的多粒度行人再识别模型。该模型通过引入多分支结构,提取包含不同尺度信息的特征图;结合多粒度切分模块和注意力机制,进一步提取特征图的局部判别性信息,获取多样化的特征表示并实现特征的协调统一;采用联合学习的方式对模型进行监督训练,得到更全面的特征描述。在主流的行人再识别数据集Market-1501、DukeMTMC-reID和CUHK03上取得了优异的性能,mAP分别达到了88.42%、78.86%和76.70%,结果表明了该模型的有效性。 展开更多
关键词 行人再识别 多尺度多分支 多粒度特征 注意力机制 特征融合
在线阅读 下载PDF
基于多尺度特征融合和注意力机制的辣椒病害识别模型 被引量:4
20
作者 尚俊平 张冬阳 +2 位作者 席磊 刘合兵 苏楠 《河南农业大学学报》 CAS CSCD 北大核心 2024年第6期1021-1033,共13页
【目的】设计MobileNet with large convolution Unit(Mobile-LU)模型,解决由于辣椒病害种类复杂和类间差异不明显而造成的病害识别困难、准确率低等问题。【方法】重新构建MobileNetV3的特征提取层,在并行分支单元结构中采用不同尺度... 【目的】设计MobileNet with large convolution Unit(Mobile-LU)模型,解决由于辣椒病害种类复杂和类间差异不明显而造成的病害识别困难、准确率低等问题。【方法】重新构建MobileNetV3的特征提取层,在并行分支单元结构中采用不同尺度的分离卷积,增强模型对辣椒病害尺寸差异特征的表达能力;引入Squeeze-and-Excitation(SE)注意力机制,加强模型对病害相关的特征的学习,提高病害识别准确率;同时使用Leaky ReLU激活函数,在负值区域引入小的斜率,避免网络神经元死亡问题;调整输出层节点个数,更好适应辣椒病害分类任务。【结果】Mobile-LU模型的识别准确率达到98.2%,相较于MobilenetV3-small、ResNet34、VGG16、Alexnet、Swin Transformer、MobileVIT等模型分别高出8.9、7.3、4.4、20.4、6.0、8.3个百分点,且Mobile-LU模型在精确率、召回率、特异度以及F1分数等关键性能指标上也均有优势。【结论】Mobile-LU模型对辣椒病害的识别性能更优,能更好满足辣椒病害识别任务。 展开更多
关键词 辣椒病害 图像分类 SE注意力机制 深度可分离卷积 多尺度特征融合
在线阅读 下载PDF
上一页 1 2 28 下一页 到第
使用帮助 返回顶部