-
题名基于低秩自适应的伸缩感知蒸馏方法
- 1
-
-
作者
李佳明
鲍志强
黄震华
孙圣力
陈运文
-
机构
华南师范大学计算机学院
恒生电子股份有限公司研究院
北京大学软件与微电子学院
达观数据有限公司
-
出处
《电子学报》
北大核心
2025年第4期1337-1346,共10页
-
基金
国家自然科学基金(No.62172166)。
-
文摘
知识蒸馏是一种从复杂深层教师模型向轻量级学生模型迁移知识以提升性能的学习范式.针对教师模型分布知识多样性不足,以及构建学生模型架构的搜索空间导致大量资源消耗的问题,本文提出了一种基于低秩自适应的伸缩感知蒸馏(Low-rank Adaptation based Flexibility-Aware distillation,LAFA)方法 . LAFA方法通过构建低秩变换矩阵,将教师知识分别变换到学生模型的知识和类别标签,以提高分布知识的多样性.同时,LAFA引入决策辅助器,动态伸缩学生模型容量,从而实现蒸馏性能与容量之间的均衡.进一步,本文提出热启动和松弛策略来优化决策变量.热启动策略通过约束学生模型缓慢增加容量,缓解因容量伸缩而导致的收敛困难.松弛策略则在蒸馏后期移除约束,以少量资源消耗实现显著的性能提升.在CIFAR-100数据集上,LAFA集成于13种蒸馏方法,平均性能提升了0.28个百分点.同时,消融实验和分析实验进一步验证了LAFA方法的有效性.
-
关键词
模型压缩
知识蒸馏
动态网络
模型正则化
深度学习
-
Keywords
model compression
knowledge distillation
dynamic network
model regularization
deep learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-