期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
结合卷积增强窗口注意力的双分支语音增强神经网络
1
作者 张晨辉 原之安 钱宇华 《计算机研究与发展》 北大核心 2025年第4期852-862,共11页
在复杂环境以及突发背景噪音条件下,语音增强任务具有极大的困难和挑战.主要原因是现有的语音增强方法未能有效捕获语谱图特征,尤其是局部信息.在过去的研究中,Transformer模型更专注于音频的全局信息,而忽略了局部信息的重要性.在音频... 在复杂环境以及突发背景噪音条件下,语音增强任务具有极大的困难和挑战.主要原因是现有的语音增强方法未能有效捕获语谱图特征,尤其是局部信息.在过去的研究中,Transformer模型更专注于音频的全局信息,而忽略了局部信息的重要性.在音频经过短时傅里叶变换(STFT)处理后,多数模型仅使用幅值信息,而忽略了相位信息,导致它们未能有效捕获语谱图特征,从而影响了语音增强的效果.基于此设计出一个带有卷积增强窗口注意力的双分支语音增强神经网络.该模型采用U-NET架构,通过双分支结构对音频的幅值和相位信息同时建模;在2个分支之间引入复值计算模块以实现信息交互;在编码器层和解码器层之间的跳跃连接部分采用卷积增强窗口注意力模块,该模块执行基于非重叠窗口的自注意力操作,在捕获局部上下文信息的同时显著降低了语音增强模型的计算复杂度.该模型在公开的Voicebank-Demand数据集上进行测试,与基线模型DCUNET 16和DCUNET20相比,在客观语音质量评估指标PESQ(perceptual evaluation of speech quality)分别提高了0.51和0.47.除了PESQ指标外,其他指标也都有显著的提升.相较于现有的各类语音增强模型,该模型在各项指标上均处于领先水平,尤其是在PESQ得分方面的提升更为显著. 展开更多
关键词 语音增强 双分支网络 语谱图特征 卷积增强窗口注意力 全局信息 局部信息
在线阅读 下载PDF
基于窗口注意力聚合Swin Transformer的无人机影像语义分割方法 被引量:1
2
作者 李俊杰 易诗 +1 位作者 何润华 刘茜 《计算机工程与应用》 CSCD 北大核心 2024年第15期198-210,共13页
采用无人机遥感影像进行地物分类的过程中,由于无人机影像的小尺寸地物目标不够突出和无人机影像背景复杂、地物信息难以辨别等问题,采用现行的经典语义分割方法难以获得理想的地物分类效果。该研究以Swin Transformer网络模型为基础,... 采用无人机遥感影像进行地物分类的过程中,由于无人机影像的小尺寸地物目标不够突出和无人机影像背景复杂、地物信息难以辨别等问题,采用现行的经典语义分割方法难以获得理想的地物分类效果。该研究以Swin Transformer网络模型为基础,提出了基于窗口注意力聚合Swin Transformer(window attention aggregation Swin Transformer,WAA SwinT)的语义分割网络模型方法。采用了多窗口注意力聚合的方式来进行更精准的注意力计算,以提升无人机遥感影像中的小尺寸地物目标的分类精度和质量。同时借鉴嵌入连接的思想,采用多级特征嵌入连接解码器改善网络结构,应用于无人机遥感影像的分割中,取得了更精细化的分割效果。为了验证提出的方法在无人机影像语义分割中的效果,分别在城市无人机遥感影像UAVid数据集和UDD数据集进行了实验,并与现行的经典语义分割方法进行了对比。实验结果表明,语义分割方法在UAVid数据集和UDD数据集上均可以得到最佳的语义分割效果。同时,该语义分割方法能显著地提升无人机影像中小尺寸地物精准分割的质量。 展开更多
关键词 无人机影像 语义分割 Swin Transformer 窗口注意力聚合
在线阅读 下载PDF
融合移位窗口注意力的光流计算方法
3
作者 安峰 戴军 韩振 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第8期1255-1262,共8页
针对端到端的光流计算方法容易受限于运动模糊、遮挡和大位移的问题,通过引入注意力机制实现对遮挡像素进行更准确的预测,提出一种融合移位窗口注意力的光流计算方法.首先使用移位窗口注意力对原有的特征图进行特征增强,获取更具全局自... 针对端到端的光流计算方法容易受限于运动模糊、遮挡和大位移的问题,通过引入注意力机制实现对遮挡像素进行更准确的预测,提出一种融合移位窗口注意力的光流计算方法.首先使用移位窗口注意力对原有的特征图进行特征增强,获取更具全局自相似性的特征,弥补了卷积特征的局部性特点;然后使用移位窗口注意力进行相关体解析,包括2D运动向量解析和光流增量的计算,获得更准确的光流增量;最后引入遮挡图作为位置编码,在计算注意力时考虑更多的像素位置关系.实验结果表明,在Sintel数据集上,端到端的误差达到1.33;在FlyingChairs数据集上,单帧计算时间为69 ms,比全局运动聚合方法减少4.2%,超过了常见光流计算方法的精度和效率. 展开更多
关键词 光流计算 注意力机制 移位窗口注意力 位置编码
在线阅读 下载PDF
基于多窗口注意力机制的中文命名实体识别 被引量:1
4
作者 占文韬 吴晓鸰 凌捷 《小型微型计算机系统》 CSCD 北大核心 2024年第6期1325-1330,共6页
近年来,由于Transformer模型中应用的多头注意力机制能够有效地捕获较长的上下文信息,基于Transformer的模型已经成为主流方法.尽管这些模型能够有效捕获全局上下文信息,它们在局部特征和位置信息提取方面仍然有限.因此,本文提出了一种... 近年来,由于Transformer模型中应用的多头注意力机制能够有效地捕获较长的上下文信息,基于Transformer的模型已经成为主流方法.尽管这些模型能够有效捕获全局上下文信息,它们在局部特征和位置信息提取方面仍然有限.因此,本文提出了一种基于多窗口注意力机制的中文命名实体识别模型.首先,通过基于Transformer的预训练语言模型RoBERTa把文本表征为字符级嵌入向量,捕捉深度上下文信息,得到全局上下文信息;其次,局部特征提取模块利用多窗口循环机制,在全局特征提取模块的引导下提取局部特征和位置信息;最后,所提出的多窗口注意力机制有效地融合全局特征和多个局部特征来预测实体标签.在CMeEE和MSRA数据集上进行了实验验证;结果表明,本文所提出的模型分别获得了64.31%和94.14%的F1值,性能优于其他同类模型,验证了其在中文命名实体识别的有效性. 展开更多
关键词 命名实体识别 窗口注意力机制 特征融合 RoBERTa
在线阅读 下载PDF
基于窗口自注意力网络与YOLOv5融合的输电线路通道异物检测 被引量:2
5
作者 薛昂 姜恩宇 +2 位作者 张文涛 林顺富 米阳 《上海交通大学学报》 北大核心 2025年第3期413-423,共11页
针对输电线路通道异物检测背景复杂以及小目标情况下检测效果不佳等问题,提出一种基于窗口自注意力网络与YOLOv5模型融合的输电线路通道安全检测算法.首先,选用窗口自注意力(S-T)网络优化主干网络,扩大模型感受视野,增强提取有效信息的... 针对输电线路通道异物检测背景复杂以及小目标情况下检测效果不佳等问题,提出一种基于窗口自注意力网络与YOLOv5模型融合的输电线路通道安全检测算法.首先,选用窗口自注意力(S-T)网络优化主干网络,扩大模型感受视野,增强提取有效信息的能力.其次,改进自适应空间特征融合(ASFF)模块,增强多尺度特征融合能力.最后,考虑到真实框与预测框不匹配的问题,引入结构相似性交并比(SIoU),优化边界误差,提高小目标定位准确性.实验结果表明,本文模型对线路通道多目标入侵检测精度达到90.2%,且提升了小目标检测效果;与主流目标检测算法相比,可以更好地满足输电线路通道中的异物检测需求. 展开更多
关键词 智能化巡检 输电线路通道 目标检测 窗口注意力网络 自适应空间特征融合
在线阅读 下载PDF
基于窗口自注意力特征融合的感知图像认证哈希
6
作者 周元鼎 高国鹏 +1 位作者 房耀东 秦川 《计算机研究与发展》 北大核心 2025年第7期1786-1796,共11页
随着多媒体和互联网技术的快速发展,数字图像内容的安全性问题日益突出.为此,提出了一种基于窗口自注意力特征融合的深度感知图像认证哈希方案,该方案能有效检测原始图像的感知内容是否发生变化,并可应用于内容认证、复制检测、篡改识... 随着多媒体和互联网技术的快速发展,数字图像内容的安全性问题日益突出.为此,提出了一种基于窗口自注意力特征融合的深度感知图像认证哈希方案,该方案能有效检测原始图像的感知内容是否发生变化,并可应用于内容认证、复制检测、篡改识别等场合.该方案以卷积神经网络为基础,利用窗口自注意力构建了一个融合图像全局和局部特征的哈希模型.模型首先对主干网络获得的浅层特征进行分块并提取相应的窗口特征,然后计算每个局部特征与全局特征之间的相关性来筛选出最终的局部特征,再将这部分特征和全局特征输入到哈希生成模块中进行融合与压缩,得到最终的图像哈希码.在训练过程中,利用哈希损失和分类损失构造的联合损失函数对模型进行约束,提高感知认证哈希方案的鲁棒性和唯一性.实验结果表明,与现有典型的感知认证哈希方案相比,所提方案可获得更优的图像内容认证性能. 展开更多
关键词 感知哈希 图像认证 窗口注意力 特征融合 鲁棒性
在线阅读 下载PDF
基于转置注意力和CNN的图像超分辨率重建网络
7
作者 陈冠豪 徐丹 +2 位作者 贺康建 施洪贞 张浩 《图学学报》 北大核心 2025年第1期35-46,共12页
基于Transformer的图像超分辨率重建方法近年来表现出了显著的性能。针对现有方法仍然面临诸如高频信息不完全恢复、图像重建时附加像素激活不足、跨窗口信息交互不充分以及由残差连接引起的训练不稳定等挑战,提出了基于转置注意力和CN... 基于Transformer的图像超分辨率重建方法近年来表现出了显著的性能。针对现有方法仍然面临诸如高频信息不完全恢复、图像重建时附加像素激活不足、跨窗口信息交互不充分以及由残差连接引起的训练不稳定等挑战,提出了基于转置注意力和CNN的图像超分辨率重建网络(TSA-SFNet)。TSA-SFNet通过调整窗口多头自注意力模块来缓解残差连接引起的振幅问题,并引入通道注意力以激活更多像素进行图像重建。此外,为了加强相邻窗口之间的交互以捕获更多的结构信息,并实现对高频细节更全面的重建,同时引入了重叠窗口注意力和卷积前馈神经网络。在经典的超分辨率任务和真实世界的超分辨率挑战方面对该网络模型进行了定量和定性评估。实验结果表明,TSA-SFNet在5个常用基准数据集上取得了最好的结果,并生成了更为逼真的超分辨率重建图像。 展开更多
关键词 图像超分辨率重建 重叠窗口注意力 高频信息恢复 像素激活 注意力机制
在线阅读 下载PDF
改进自注意力机制的滚动轴承寿命预测方法
8
作者 史竞成 吴占涛 +1 位作者 程军圣 杨宇 《噪声与振动控制》 北大核心 2025年第2期90-96,104,共8页
针对现有的卷积、循环模型预测滚动轴承剩余使用寿命(Residual Life,RL)精度低的问题,提出一种基于改进自注意力机制的RL预测模型。首先,针对Transformer模型中自注意力机制内存占用高、信号存在噪声信息的问题,在窗口自注意力机制(Wind... 针对现有的卷积、循环模型预测滚动轴承剩余使用寿命(Residual Life,RL)精度低的问题,提出一种基于改进自注意力机制的RL预测模型。首先,针对Transformer模型中自注意力机制内存占用高、信号存在噪声信息的问题,在窗口自注意力机制(Window Based Multi-head Self-attention,W-MSA)的基础上,提出概率窗口自注意力机制(Probwindow Based Multi-head Self-attention,PW-MSA);然后,针对多头信息不匹配和缺少局部信息的问题,采用Talking Head方法实现多头信息融合,并在前馈神经网络层加入深度可分离卷积提取局部信息,从而提升模型的预测精度。采用PHM2012轴承数据集将改进前后的自注意力机制模型进行比较,并和现有的先进预测模型对比,结果表明,改进自注意力机制模型可使预测精度提升13.04%。 展开更多
关键词 故障诊断 滚动轴承 剩余使用寿命预测 概率窗口注意力机制 Transformer模型
在线阅读 下载PDF
基于卷积辅助自注意力的胸部疾病分类网络
9
作者 张自然 李锵 关欣 《浙江大学学报(工学版)》 北大核心 2025年第5期890-901,共12页
针对胸部X光影像中的病变大小不一,纹理复杂,且存在相互影响等问题,提出基于卷积辅助窗口自注意力的胸部X光影像疾病分类网络CAWSNet.使用Swin Transformer作为骨干网络,以窗口自注意力建模长距离视觉依赖关系,通过引入卷积辅助,在弥补... 针对胸部X光影像中的病变大小不一,纹理复杂,且存在相互影响等问题,提出基于卷积辅助窗口自注意力的胸部X光影像疾病分类网络CAWSNet.使用Swin Transformer作为骨干网络,以窗口自注意力建模长距离视觉依赖关系,通过引入卷积辅助,在弥补其缺陷的同时,强化局部特征提取能力.引入图像相对位置编码,通过有向相对位置的动态计算,帮助网络更好地建模像素间的位置关系.使用类别残差注意力,根据疾病类别来调整分类器关注的区域,突出有效信息,提高多标签分类能力.提出动态难度损失函数,解决不同疾病分类的难度差异大,数据集中正负样本不平衡的问题.在公开数据集ChestX-Ray14、CheXpert和MIMIC-CXR-JPG上的实验结果表明,提出CAWSNet的AUC分数分别达到0.853、0.898和0.819,表明该网络在胸部X光影像疾病诊断中的有效性和鲁棒性. 展开更多
关键词 胸部X光图像分类 窗口注意力 卷积 图像相对位置编码 动态难度损失函数
在线阅读 下载PDF
基于位移窗口自注意力网络和迁移学习的地震面波分离
10
作者 杨晨睿 沈鸿雁 +2 位作者 车晗 孙云鹏 刘帅 《西安石油大学学报(自然科学版)》 CAS 北大核心 2024年第6期39-50,共12页
反射地震资料中的面波也携带了丰富的地质信息,充分利用这类面波解决地质问题的前提条件是将其完整地分离出来。针对现有深度学习方法没有充分利用面波与体波表现在时空域图像中的分布位置和纹理细节等问题,提出一种基于深度学习的地震... 反射地震资料中的面波也携带了丰富的地质信息,充分利用这类面波解决地质问题的前提条件是将其完整地分离出来。针对现有深度学习方法没有充分利用面波与体波表现在时空域图像中的分布位置和纹理细节等问题,提出一种基于深度学习的地震面波分离方法。通过融合位移窗口自注意力机制和U-net主干网络,构建出面波智能分离网络,并使用数据增广后的模拟数据与实际数据构建面波数据集来提升神经网络的泛化性;在充分利用面波全局数据特征的同时,为避免波场分离过程中的面波损伤问题,提出一种对边界、结构和纹理信息敏感的混合损失函数以进一步提高面波分离的质量。通过数值模拟地震记录测试了本文方法的正确性,进而将该方法应用于实际地震资料处理。研究结果表明,在模拟地震记录训练的模型基础上进行迁移学习,可进一步提升神经网络的泛化性;相较于低通滤波法和去噪卷积神经网络方法,本文方法分离的面波更为完整,能大幅度提高能量混叠区域的面波分离质量。 展开更多
关键词 地震信号处理 面波 波场分离与去噪 深度学习 窗口注意力网络 U-net网络 迁移学习
在线阅读 下载PDF
基于窗口自注意力网络的单图像去雨算法 被引量:5
11
作者 高涛 文渊博 +1 位作者 陈婷 张静 《上海交通大学学报》 EI CAS CSCD 北大核心 2023年第5期613-623,共11页
单图像去雨研究旨在利用退化的雨图恢复出无雨图像,而现有的基于深度学习的去雨算法未能有效地利用雨图的全局性信息,导致去雨后的图像损失部分细节和结构信息.针对此问题,提出一种基于窗口自注意力网络(Swin Transformer)的单图像去雨... 单图像去雨研究旨在利用退化的雨图恢复出无雨图像,而现有的基于深度学习的去雨算法未能有效地利用雨图的全局性信息,导致去雨后的图像损失部分细节和结构信息.针对此问题,提出一种基于窗口自注意力网络(Swin Transformer)的单图像去雨算法.该算法网络主要包括浅层特征提取模块和深度特征提取网络两部分.前者利用上下文信息聚合输入来适应雨痕分布的多样性,进而提取雨图的浅层特征.后者利用Swin Transformer捕获全局性信息和像素点间的长距离依赖关系,并结合残差卷积和密集连接强化特征学习,最后通过全局残差卷积输出去雨图像.此外,提出一种同时约束图像边缘和区域相似性的综合损失函数来进一步提高去雨图像的质量.实验表明,与目前单图像去雨表现优秀的算法MSPFN、 MPRNet相比,该算法使去雨图像的峰值信噪比提高0.19 dB和2.17 dB,结构相似性提高3.433%和1.412%,同时网络模型参数量下降84.59%和34.53%,前向传播平均耗时减少21.25%和26.67%. 展开更多
关键词 计算机视觉 单图像去雨 窗口注意力网络 残差网络 注意力机制 空洞卷积
在线阅读 下载PDF
基于改进YOLOv8n的再造烟叶原料缺陷检测方法研究
12
作者 刘雄斌 刘志昌 +5 位作者 胡念武 姚建武 陈一桢 唐天明 王晚霞 陈寒 《包装与食品机械》 北大核心 2025年第3期88-95,共8页
针对稠浆法再造烟叶生产中,原料表面缺陷检测存在的多尺度表征能力不足与检测效率低等问题,提出一种基于改进YOLOv8n架构的智能检测网络。通过设计CSP-SDCV模块替代原始C2f模块,以优化特征提取效率,引入ADown模块增强多尺度特征表征能力... 针对稠浆法再造烟叶生产中,原料表面缺陷检测存在的多尺度表征能力不足与检测效率低等问题,提出一种基于改进YOLOv8n架构的智能检测网络。通过设计CSP-SDCV模块替代原始C2f模块,以优化特征提取效率,引入ADown模块增强多尺度特征表征能力,采用轻量化共享卷积检测头降低参数冗余,并结合局部窗口注意力机制强化遮挡目标的边界敏感性。试验结果表明,改进模型在烟叶缺陷数据集上的m AP@50达到98.1%,较基准模型YOLOv8n提升1.8个百分点,参数量与计算量分别减少54.4%,50.6%。研究为烟草工业自动化质检提供高精度、低资源消耗的解决方案。 展开更多
关键词 烟叶缺陷检测 多尺度特征融合 轻量化检测头 局部窗口注意力 YOLOv8n
在线阅读 下载PDF
基于TA-UNet3+的高分辨率遥感图像地表水体提取
13
作者 白倩 罗小波 母仕林 《计算机工程与应用》 北大核心 2025年第13期245-255,共11页
遥感图像中准确提取地表水体信息对于水资源管理、环境监测等领域至关重要。然而,由于地表覆盖的多样性、水体与周围环境的交汇、植被的复杂遮挡等因素,使得这项任务仍然面临着一系列挑战。为了提高地表水体提取精度,基于U-Net3+网络进... 遥感图像中准确提取地表水体信息对于水资源管理、环境监测等领域至关重要。然而,由于地表覆盖的多样性、水体与周围环境的交汇、植被的复杂遮挡等因素,使得这项任务仍然面临着一系列挑战。为了提高地表水体提取精度,基于U-Net3+网络进行优化,提出了一种适用于高分辨率遥感图像的TA-UNet3+网络模型。在编码器端由深度特征到浅层逐层引入窗口注意力嵌入模块,将来自更深层特征的局部注意力逐步嵌入到较低级特征中,提高特征图的语义理解能力。引入了结合阈值注意力和深度可分离的TA-ASPP模块,有效提高了特征信息的提取效率。在解码器端修改了多尺度融合模块,采用可学习的密集上采样卷积和深度分离卷积替代原始的双线性插值与普通卷积,在保证精度的同时显著降低了计算复杂度。数据集选择了重庆市不同场景下的部分地区,实验结果表明,TA-UNet3+网络模型在精度、召回率、F1和IoU等评价指标上均优于语义分割网络,表现出更高的地表水体提取精度。 展开更多
关键词 地表水体提取 遥感图像 TA-UNet3+ 阈值注意力 密集上采样卷积 TA-ASPP模块 窗口注意力
在线阅读 下载PDF
时频空间Transformer网络在主机负载预测中的应用
14
作者 赵卫东 潘智涛 +1 位作者 张睿 吴乾奕 《小型微型计算机系统》 北大核心 2025年第6期1281-1288,共8页
随着大型电子业务系统和科研计算任务日益复杂,预测主机集群未来的指标数据变化趋势具有很强的现实意义.然而,主机时序数据的时空依赖问题很大程度上阻碍了主机集群资源的高效利用.为此,本文提出了TFSformer模型,该模型利用全局时空注... 随着大型电子业务系统和科研计算任务日益复杂,预测主机集群未来的指标数据变化趋势具有很强的现实意义.然而,主机时序数据的时空依赖问题很大程度上阻碍了主机集群资源的高效利用.为此,本文提出了TFSformer模型,该模型利用全局时空注意力和窗口卷积注意力解决了时空依赖问题.在时序数据预处理阶段,本文通过引入Wavelet-TCN-Embedding,实现了对主机负载特征序列的小波分解,将短期和全局时序依赖的特征有效地提取出来,从而提高了预测的准确性.其次,模型通过引入全局时空注意力和窗口卷积注意力,可以挖掘不同负载指标之间的空间依赖关系并且实现了对不同时间尺度下的时间依赖关系的关注,以此解决主机时间序列的时空依赖问题.同时,在主机系统上的实验证明了TFSformer在短期序列预测方面具备出色的性能,模型有效地提高了集群资源利用率并且降低了运维成本. 展开更多
关键词 时间序列预测 TFSformer Wavelet-TCN-Embedding 全局时空注意力 窗口卷积注意力
在线阅读 下载PDF
融合多特征与全局-局部Transformer的图像修复算法
15
作者 滕诗宇 何丽君 《电子测量技术》 北大核心 2025年第6期121-129,共9页
针对当前图像修复领域所面临的高计算复杂度以及在生成结构合理且细节丰富的图像方面的局限,提出了一种融合多尺度分层特征与全局-局部协同Transformer的图像修复模型。首先提出多尺度分层特征融合模块,以实现深层特征与浅层特征细节上... 针对当前图像修复领域所面临的高计算复杂度以及在生成结构合理且细节丰富的图像方面的局限,提出了一种融合多尺度分层特征与全局-局部协同Transformer的图像修复模型。首先提出多尺度分层特征融合模块,以实现深层特征与浅层特征细节上的有效融合,在扩大感受野的同时减少关键信息丢失情况。其次提出用于全局推理的全局-局部协同Transformer模块,它通过集成矩形窗口注意力机制和局部前馈神经网络,在降低计算复杂度的同时,提高模型对全局上下文信息的宏观理解和对局部细节特征的微观捕捉能力,增强图像的整体一致性。实验在CelebA-HQ和Places2数据集上进行了验证,在处理40%~50%掩码时,所提方法与常用的修复方法对比,PSNR平均提高了0.26~6.25 dB,SSIM平均提升了1.4%~19%,L1平均下降了0.2%~5.66%。实验证明,所提方法修复后的图像在视觉上具有更加真实和自然的效果,进一步验证了该方法的有效性。 展开更多
关键词 深度学习 图像修复 多尺度分层特征融合 全局-局部协同Transformer 矩形窗口注意力机制 局部前馈神经网络
在线阅读 下载PDF
基于YOLO v7-ST-ASFF的复杂果园环境下苹果成熟度检测方法 被引量:5
16
作者 苗荣慧 李港澳 +2 位作者 黄宗宝 李志伟 杜慧玲 《农业机械学报》 EI CAS CSCD 北大核心 2024年第6期219-228,共10页
针对复杂果园环境下目标检测算法参数量大、鲁棒性差等问题,本文提出一种改进的YOLO v7网络模型用于苹果成熟度(未成熟、半成熟、成熟)检测。以YOLO v7为基线网络,在特征提取结构中引入窗口多头自注意力机制(Swin transformer,ST),极大... 针对复杂果园环境下目标检测算法参数量大、鲁棒性差等问题,本文提出一种改进的YOLO v7网络模型用于苹果成熟度(未成熟、半成熟、成熟)检测。以YOLO v7为基线网络,在特征提取结构中引入窗口多头自注意力机制(Swin transformer,ST),极大地降低网络参数量与计算量;为提高模型对远景图像中小目标的检测能力,在特征融合结构中引入自适应空间特征融合(Adaptively spatial feature fusion,ASFF)模块优化Head部分,有效利用图像的浅层特征和深层特征,加强特征尺度不变性;采用WIoU(Wise intersection over union)代替原始CIoU(Complete intersection over union)损失函数,在提高检测准确率的同时加快模型收敛速度。试验结果表明,本文改进的YOLO v7-ST-ASFF模型在苹果图像测试集上的检测速度和准确率均有显著提高,不同成熟度检测精确率、召回率和平均精度均值可达92.5%、84.2%和93.6%,均优于Faster R-CNN、SSD、YOLO v3、YOLO v5、YOLO v7以及YOLO v8目标检测模型;针对多目标、单目标、顺光、逆光、远景、近景以及套袋、未套袋苹果目标的检测效果都较好;本文网络模型内存占用量为53.4MB,模型平均检测时间(Average detection time,ADT)为45.ms,均优于其他目标检测模型。改进的YOLO v7-ST-ASFF模型能够满足复杂果园环境下苹果目标的检测,可为果蔬机器人自动化采摘提供技术支撑。 展开更多
关键词 苹果 成熟度检测 复杂果园环境 YOLO v7 窗口多头自注意力机制 ASFF
在线阅读 下载PDF
基于TCN-Wpsformer混合模型的超短期风电功率预测 被引量:12
17
作者 徐钽 谢开贵 +3 位作者 王宇 胡博 邵常政 赵宇生 《电力自动化设备》 EI CSCD 北大核心 2024年第8期54-61,共8页
针对基于梯度下降的递归神经网络难以捕获时间跨度较长的风电功率长期依赖关系的问题,提出一种基于时间卷积网络(TCN)和窗口概率稀疏Transformer(Wpsformer)混合模型的超短期风电功率预测方法。将包含时间季节性特征的时间编码与包含原... 针对基于梯度下降的递归神经网络难以捕获时间跨度较长的风电功率长期依赖关系的问题,提出一种基于时间卷积网络(TCN)和窗口概率稀疏Transformer(Wpsformer)混合模型的超短期风电功率预测方法。将包含时间季节性特征的时间编码与包含原始数据位置信息的绝对位置编码进行拼接,引入TCN提取时间片段特征,将时间片段特征融入自注意力机制,以时间片段的相关性联系替代时间点的相关性联系。通过Wpsformer模型多步输出超短期风电功率预测值,与原始Transformer模型相比,Wpsformer模型使用窗口概率稀疏自注意力机制,在捕获长期依赖关系的同时筛选出重要程度相对较高的时间片段特征进行计算,提高了预测精度且降低了计算成本。曹店风电场的算例结果表明,所提模型在预测精度方面具有明显优势。消融实验证明了所提模型各模块的必要性。 展开更多
关键词 超短期风电功率预测 时间卷积网络 窗口概率稀疏Transformer 窗口概率稀疏自注意力机制
在线阅读 下载PDF
改进视觉Transformer的视频插帧方法
18
作者 石昌通 单鸿涛 +3 位作者 郑光远 张玉金 刘怀远 宗智浩 《计算机应用研究》 CSCD 北大核心 2024年第4期1252-1257,共6页
针对现有的视频插帧方法无法有效处理大运动和复杂运动场景的问题,提出了一种改进视觉Transformer的视频插帧方法。该方法融合了基于跨尺度窗口的注意力和可分离的时空局部注意力,增大了注意力的感受野并聚合了多尺度信息;对时空依赖和... 针对现有的视频插帧方法无法有效处理大运动和复杂运动场景的问题,提出了一种改进视觉Transformer的视频插帧方法。该方法融合了基于跨尺度窗口的注意力和可分离的时空局部注意力,增大了注意力的感受野并聚合了多尺度信息;对时空依赖和远程像素依赖关系进行联合建模,进而增强了模型对大运动场景的处理能力。实验结果表明,该方法在Vimeo90K测试集和DAVIS数据集上的PSNR指标分别达到了37.13 dB和28.28 dB,SSIM指标分别达到了0.978和0.891。同时,可视化结果表明,该方法针对存在大运动、复杂运动和遮挡场景的视频能产生清晰合理的插帧结果。 展开更多
关键词 视频插帧 TRANSFORMER 基于跨尺度窗口注意力 大运动 复杂运动
在线阅读 下载PDF
结合卷积Transformer的目标跟踪算法 被引量:13
19
作者 王春雷 张建林 +2 位作者 李美惠 徐智勇 魏宇星 《计算机工程》 CAS CSCD 北大核心 2023年第4期281-288,296,共9页
现有基于Transformer的目标跟踪算法未充分利用Transformer的长距离依赖属性,导致算法提取的特征判别性不足,跟踪稳定性较差。为提高孪生网络目标跟踪算法在复杂场景中的跟踪能力,结合卷积与Transformer的优势,提出目标跟踪算法CTTrack... 现有基于Transformer的目标跟踪算法未充分利用Transformer的长距离依赖属性,导致算法提取的特征判别性不足,跟踪稳定性较差。为提高孪生网络目标跟踪算法在复杂场景中的跟踪能力,结合卷积与Transformer的优势,提出目标跟踪算法CTTrack。在特征提取方面,利用卷积丰富的局部信息和Transformer的长距离依赖属性,以卷积和窗口注意力串联的方式和层次化的结构构建一个通用的目标跟踪骨干网络CTFormer。在特征融合方面,利用互注意力机制构建特征互增强与聚合网络以简化网络结构,加快跟踪速度。在搜索区域选择方面,结合目标运动速度估计,设计自适应调整搜索区域的跟踪策略。实验结果表明,CTTrack在GOT-10k数据集上的平均重叠度为70.3%,相比基于Transformer的跟踪算法TransT和TrDiMP均提高3.2个百分点,在UAV123数据集上的曲线下面积为71.1%,相比TransT和TrDiMP分别提高2.0个百分点和3.6个百分点。在TrackingNet、LaSOT、OTB2015、NFS数据集上分别取得82.1%、66.8%、70.1%、66.3%的曲线下面积,并能以43帧/s的速度进行实时跟踪。 展开更多
关键词 孪生网络 Transformer目标跟踪 窗口注意力 注意力 运动估计 搜索区域
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部