期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
融合动态掩码注意力与多教师多特征知识蒸馏的文本分类
被引量:
3
1
作者
王润周
张新生
王明虎
《中文信息学报》
CSCD
北大核心
2024年第3期113-129,共17页
知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此...
知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此,该文提出一种融合动态掩码注意力机制与多教师多特征知识蒸馏的文本分类模型,不仅引入多种教师模型(RoBERTa、Electra)的知识源,还兼顾不同教师模型在多个特征层的语义信息,并通过设置动态掩码模型注意力机制使得蒸馏过程动态关注不等长数据,减少无用填充信息的干扰。在4种公开数据集上的实验结果表明,经过蒸馏后的学生模型(TinyBRET)在预测性能上均优于其他基准蒸馏策略,并在采用教师模型1/10的参数量、约1/2的平均运行时间的条件下,取得与两种教师模型相当的分类结果,平均准确率仅下降4.18%和3.33%,平均F 1值仅下降2.30%和2.38%。其注意力热度图也表明动态掩码注意力机制切实加强关注了数据尾部与上下文信息。
展开更多
关键词
动态掩码注意力
多教师多特征
知识蒸馏
文本分类
在线阅读
下载PDF
职称材料
题名
融合动态掩码注意力与多教师多特征知识蒸馏的文本分类
被引量:
3
1
作者
王润周
张新生
王明虎
机构
西安建筑科技大学管理学院
出处
《中文信息学报》
CSCD
北大核心
2024年第3期113-129,共17页
基金
陕西省重点产业创新链(群)-工业领域项目(2022ZDLGY06-04)
陕西省社科界重大理论与现实问题研究联合项目(2022HZ1522)。
文摘
知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此,该文提出一种融合动态掩码注意力机制与多教师多特征知识蒸馏的文本分类模型,不仅引入多种教师模型(RoBERTa、Electra)的知识源,还兼顾不同教师模型在多个特征层的语义信息,并通过设置动态掩码模型注意力机制使得蒸馏过程动态关注不等长数据,减少无用填充信息的干扰。在4种公开数据集上的实验结果表明,经过蒸馏后的学生模型(TinyBRET)在预测性能上均优于其他基准蒸馏策略,并在采用教师模型1/10的参数量、约1/2的平均运行时间的条件下,取得与两种教师模型相当的分类结果,平均准确率仅下降4.18%和3.33%,平均F 1值仅下降2.30%和2.38%。其注意力热度图也表明动态掩码注意力机制切实加强关注了数据尾部与上下文信息。
关键词
动态掩码注意力
多教师多特征
知识蒸馏
文本分类
Keywords
dynamic masking attention
multiple teachers multi features
knowledge distillation
text classification
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
融合动态掩码注意力与多教师多特征知识蒸馏的文本分类
王润周
张新生
王明虎
《中文信息学报》
CSCD
北大核心
2024
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部