期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于低秩自适应的伸缩感知蒸馏方法
1
作者 李佳明 鲍志强 +2 位作者 黄震华 孙圣力 陈运文 《电子学报》 北大核心 2025年第4期1337-1346,共10页
知识蒸馏是一种从复杂深层教师模型向轻量级学生模型迁移知识以提升性能的学习范式.针对教师模型分布知识多样性不足,以及构建学生模型架构的搜索空间导致大量资源消耗的问题,本文提出了一种基于低秩自适应的伸缩感知蒸馏(Low-rank Adap... 知识蒸馏是一种从复杂深层教师模型向轻量级学生模型迁移知识以提升性能的学习范式.针对教师模型分布知识多样性不足,以及构建学生模型架构的搜索空间导致大量资源消耗的问题,本文提出了一种基于低秩自适应的伸缩感知蒸馏(Low-rank Adaptation based Flexibility-Aware distillation,LAFA)方法 . LAFA方法通过构建低秩变换矩阵,将教师知识分别变换到学生模型的知识和类别标签,以提高分布知识的多样性.同时,LAFA引入决策辅助器,动态伸缩学生模型容量,从而实现蒸馏性能与容量之间的均衡.进一步,本文提出热启动和松弛策略来优化决策变量.热启动策略通过约束学生模型缓慢增加容量,缓解因容量伸缩而导致的收敛困难.松弛策略则在蒸馏后期移除约束,以少量资源消耗实现显著的性能提升.在CIFAR-100数据集上,LAFA集成于13种蒸馏方法,平均性能提升了0.28个百分点.同时,消融实验和分析实验进一步验证了LAFA方法的有效性. 展开更多
关键词 模型压缩 知识蒸馏 动态网络 模型正则化 深度学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部