-
题名关键区域鉴别联合多粒度知识蒸馏的细粒度图像分类
- 1
-
-
作者
余鹰
王景辉
危伟
钱进
-
机构
华东交通大学轨道交通基础设施性能监测与保障国家重点实验室
华东交通大学软件学院
-
出处
《小型微型计算机系统》
北大核心
2025年第8期1960-1967,共8页
-
基金
国家自然科学基金项目(62163016,62462033)资助
江西省自然科学基金重点项目(20212ACB202001)资助
+2 种基金
科技部高端外国专家项目(G2023022005L)资助
国家重点实验室开放课题项目(HJGZ2023203)资助
中国国家铁路集团有限公司科技研究开发计划课题项目(2023F005)资助。
-
文摘
近年来,随着深度学习技术的飞速发展,研究人员开始尝试将Vision Transformer(ViT)应用于细粒度图像分类.然而,尽管ViT的多头自注意力机制赋予了模型强大的全局信息捕捉能力,但在关注局部微小且判别力强的区域上仍显不足,这在一定程度上限制了其在细粒度图像分类任务中的表现.为了解决这一问题,本文提出了一种高效且平滑地融合多层自注意力权重的方法,以深入挖掘图像的局部判别特征,从而弥补传统ViT模型在细节信息捕捉上的不足,增强模型对图像细微特征的敏感性.此外,本文构建了助理教师网络来指导学生网络学习多种粒度的特征信息,进一步提升其捕捉细微特征的能力.为了验证所提出模型的有效性,本文在多个基准数据集上进行了实验.结果表明,该模型显著优于传统ViT模型,展现了强大的局部特征捕捉能力和优异的分类性能.
-
关键词
细粒度图像分类
自注意力机制
知识蒸馏
vision
transformer
关键区域鉴别
-
Keywords
fine grained image classification
self-attention mechanism
knowledge distillation
vision transformer
critical region discriminator
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-