随着深度学习的发展,基于CNN和Transformer的语义分割在遥感领域得到了广泛应用。然而,这些方法仍存在局限:前者缺乏远程建模能力,后者受制于计算复杂性。最近,Mamba所提出的视觉状态空间(visual state space,VSS)模型展现了其能够对远...随着深度学习的发展,基于CNN和Transformer的语义分割在遥感领域得到了广泛应用。然而,这些方法仍存在局限:前者缺乏远程建模能力,后者受制于计算复杂性。最近,Mamba所提出的视觉状态空间(visual state space,VSS)模型展现了其能够对远程关系进行有效线性计算的能力。受此启发,提出了一种基于CNN和视觉状态空间的遥感影像语义分割网络,以克服现有方法的局限。首先,构建一个由CNN和VSS分支组成的架构,并行提取多尺度特征信息,挖掘局部相关性并捕获远程上下文依赖关系,并将VSS代替Transformer应用于解码器;其次,设计了协同调制模块学习空间权重调制特征,以自适应融合双分支语义信息,增强语义信息间的依赖关系;最后,使用额外的辅助头优化网络,通过辅助损失函数引导模型在训练中更多关注关键区域。该方法在LoveDA和Vaihingen数据集上进行实验验证,其mF1指标分别为69.61%和90.53%,mIoU指标分别为53.95%和83.13%。实验结果表明,所提出的模型在这两个公共数据集上表现优于其他分割模型。展开更多
目前无监督的泛化行人重识别算法在某些需要背景信息辅助判断的情况下,可能会忽视图像的局部区域对细粒度特征的关注,导致背景信息被过滤掉,从而降低识别精度。针对上述问题,提出了一种基于稀疏注意力的动态查询感知算法。通过挤压拼接(...目前无监督的泛化行人重识别算法在某些需要背景信息辅助判断的情况下,可能会忽视图像的局部区域对细粒度特征的关注,导致背景信息被过滤掉,从而降低识别精度。针对上述问题,提出了一种基于稀疏注意力的动态查询感知算法。通过挤压拼接(squeeze and concat,SPC)模块,获取不同通道数的特征图。利用双层路由感知注意力机制,提取不同尺度特征图之间的注意力权重,得到逐级通道注意力向量。对逐级通道注意力向量的权重进行重新校准。将重新标定的权重与相应的特征图进行加权,输出具有更丰富细化特征信息的多尺度特征图。所提模型在大规模公开数据集(Market-1501、DukeMTMC-reID、MSMT17)上进行实验,相较于基线模型Rank-1分别提高了3.2、4.4、15.4个百分点,mAP分别提高了5.5、8.3、16.2个百分点,与现有前沿算法相比,能够实现更好的局部和全局特征通道之间的信息交互,提升模型对图像特征的细节感知能力.展开更多
针对高分辨率遥感影像中建筑目标较小和背景信息冗余带来的挑战,提出了一种称为FE-DETR(feature enhancement-detection with transformer)的端到端目标检测算法。首先,利用拼接融合模块(concatenation fusion module,CFM)融合不同尺度...针对高分辨率遥感影像中建筑目标较小和背景信息冗余带来的挑战,提出了一种称为FE-DETR(feature enhancement-detection with transformer)的端到端目标检测算法。首先,利用拼接融合模块(concatenation fusion module,CFM)融合不同尺度的特征层,缓解小建筑目标特征缺失问题;其次,使用全局通道注意力(global channel attention,GCA)模块细化融合后的特征。具体来说,该模块通过构建通道间的关系矩阵,提高模型对目标的感知能力,有效缓解复杂背景信息带来的干扰。最后,在WCH(Wuhan caidian house)、EA(east Asia)和CBC(city building of China)数据集上评估该算法的检测性能。实验结果表明,所提出的改进算法在上述3个数据集上AP_(50)分别提高了0.8%、0.6%和0.6%,验证了该算法的有效性。展开更多
文摘随着深度学习的发展,基于CNN和Transformer的语义分割在遥感领域得到了广泛应用。然而,这些方法仍存在局限:前者缺乏远程建模能力,后者受制于计算复杂性。最近,Mamba所提出的视觉状态空间(visual state space,VSS)模型展现了其能够对远程关系进行有效线性计算的能力。受此启发,提出了一种基于CNN和视觉状态空间的遥感影像语义分割网络,以克服现有方法的局限。首先,构建一个由CNN和VSS分支组成的架构,并行提取多尺度特征信息,挖掘局部相关性并捕获远程上下文依赖关系,并将VSS代替Transformer应用于解码器;其次,设计了协同调制模块学习空间权重调制特征,以自适应融合双分支语义信息,增强语义信息间的依赖关系;最后,使用额外的辅助头优化网络,通过辅助损失函数引导模型在训练中更多关注关键区域。该方法在LoveDA和Vaihingen数据集上进行实验验证,其mF1指标分别为69.61%和90.53%,mIoU指标分别为53.95%和83.13%。实验结果表明,所提出的模型在这两个公共数据集上表现优于其他分割模型。
文摘目前无监督的泛化行人重识别算法在某些需要背景信息辅助判断的情况下,可能会忽视图像的局部区域对细粒度特征的关注,导致背景信息被过滤掉,从而降低识别精度。针对上述问题,提出了一种基于稀疏注意力的动态查询感知算法。通过挤压拼接(squeeze and concat,SPC)模块,获取不同通道数的特征图。利用双层路由感知注意力机制,提取不同尺度特征图之间的注意力权重,得到逐级通道注意力向量。对逐级通道注意力向量的权重进行重新校准。将重新标定的权重与相应的特征图进行加权,输出具有更丰富细化特征信息的多尺度特征图。所提模型在大规模公开数据集(Market-1501、DukeMTMC-reID、MSMT17)上进行实验,相较于基线模型Rank-1分别提高了3.2、4.4、15.4个百分点,mAP分别提高了5.5、8.3、16.2个百分点,与现有前沿算法相比,能够实现更好的局部和全局特征通道之间的信息交互,提升模型对图像特征的细节感知能力.
文摘针对高分辨率遥感影像中建筑目标较小和背景信息冗余带来的挑战,提出了一种称为FE-DETR(feature enhancement-detection with transformer)的端到端目标检测算法。首先,利用拼接融合模块(concatenation fusion module,CFM)融合不同尺度的特征层,缓解小建筑目标特征缺失问题;其次,使用全局通道注意力(global channel attention,GCA)模块细化融合后的特征。具体来说,该模块通过构建通道间的关系矩阵,提高模型对目标的感知能力,有效缓解复杂背景信息带来的干扰。最后,在WCH(Wuhan caidian house)、EA(east Asia)和CBC(city building of China)数据集上评估该算法的检测性能。实验结果表明,所提出的改进算法在上述3个数据集上AP_(50)分别提高了0.8%、0.6%和0.6%,验证了该算法的有效性。