-
题名硬件有限环境中低资源文本分类新策略
- 1
-
-
作者
尹照煜
宋文爱
刘宏昊
-
机构
中北大学软件学院
-
出处
《现代电子技术》
北大核心
2025年第8期56-62,共7页
-
基金
山西省研究生实践创新项目(2023SJ223)。
-
文摘
针对在硬件资源有限的情况下,难以有效提升低资源分类任务性能这一难题,提出使用基于新一代大型语言模型Claude3 Haiku的数据增强,并设计了一种更小更快的文本分类模型EQSBERT。首先基于Claude3 Haiku,使用分布式比例增强法和动态均衡过采样增强法来增强低资源文本分类任务数据集。通过二次自蒸馏、多目标知识蒸馏、多维剪枝,提出一种更小更快的BERT系列文本分类模型EQSBERT,采用EQSBERT对增强后的数据集进行分类。结果表明:Claude3 Haiku具有较好的性能,且成本效益高于GPT-4;EQSBERT在参数大幅减少的情况下也能维持其高性能,显著降低了运行成本。两者结合搭配使用,可以有效解决在硬件条件有限的情况下低资源分类任务方面的问题。该方案为资源受限情况下的自然语言处理任务提供了新的解决策略,在自动化数据标注、社交媒体监控以及内容审核系统应用方面有巨大潜力。
-
关键词
自然语言处理
低资源文本分类
大型语言模型Claude3
Haiku
数据增强
GPT-4
多目标知识蒸馏
-
Keywords
natural language processing
low-resource text classification
large language model Claude3 Haiku
data enhancement
GPT-4
multi-objective knowledge distillation
-
分类号
TN919.72-34
[电子电信—通信与信息系统]
TP391.1
[自动化与计算机技术—计算机应用技术]
-