-
题名多粒度空间注意力与空间先验监督的DETR
- 1
-
-
作者
廖峻霜
谭钦红
-
机构
重庆邮电大学通信与信息工程学院
-
出处
《计算机科学》
CSCD
北大核心
2024年第6期239-246,共8页
-
文摘
近年来,Transformer在视觉领域的表现卓越,由于其优秀的全局建模能力以及可媲美CNN的性能表现受到了广泛关注。DETR(Detection Transformer)是在其基础上研究的首个在目标检测任务上采用Transformer架构的端到端网络,但是其全局范围内的等价建模以及目标查询键的无差别性导致其训练收敛缓慢,且性能表现欠佳。针对上述问题,利用多粒度的注意力机制替换DETR的encoder中的自注意力以及decoder中的交叉注意力,在距离近的token之间使用细粒度,在距离远的token之间使用粗粒度,增强其建模能力;并在decoder中的交叉注意力中引入空间先验限制对网络训练进行监督,使其训练收敛速度得以加快。实验结果表明,在引入多粒度的注意力机制和空间先验监督后,相较于未改进的DETR,所提改进模型在PASCAL VOC2012数据集上的识别准确度提升了16%,收敛速度快了2倍。
-
关键词
多粒度空间注意力
空间先验监督
目标检测
视觉Transformer
编解码架构
-
Keywords
Multi-granularity spatial attention
Spatial prior supervision
Object detection
Vision Transformer
Encoder-Decoder architecture
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-