-
题名硬件有限环境中低资源文本分类新策略
- 1
-
-
作者
尹照煜
宋文爱
刘宏昊
-
机构
中北大学软件学院
-
出处
《现代电子技术》
北大核心
2025年第8期56-62,共7页
-
基金
山西省研究生实践创新项目(2023SJ223)。
-
文摘
针对在硬件资源有限的情况下,难以有效提升低资源分类任务性能这一难题,提出使用基于新一代大型语言模型Claude3 Haiku的数据增强,并设计了一种更小更快的文本分类模型EQSBERT。首先基于Claude3 Haiku,使用分布式比例增强法和动态均衡过采样增强法来增强低资源文本分类任务数据集。通过二次自蒸馏、多目标知识蒸馏、多维剪枝,提出一种更小更快的BERT系列文本分类模型EQSBERT,采用EQSBERT对增强后的数据集进行分类。结果表明:Claude3 Haiku具有较好的性能,且成本效益高于GPT-4;EQSBERT在参数大幅减少的情况下也能维持其高性能,显著降低了运行成本。两者结合搭配使用,可以有效解决在硬件条件有限的情况下低资源分类任务方面的问题。该方案为资源受限情况下的自然语言处理任务提供了新的解决策略,在自动化数据标注、社交媒体监控以及内容审核系统应用方面有巨大潜力。
-
关键词
自然语言处理
低资源文本分类
大型语言模型Claude3
Haiku
数据增强
GPT-4
多目标知识蒸馏
-
Keywords
natural language processing
low-resource text classification
large language model Claude3 Haiku
data enhancement
GPT-4
multi-objective knowledge distillation
-
分类号
TN919.72-34
[电子电信—通信与信息系统]
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于预训练模型和图神经网络的藏文文本分类研究
被引量:10
- 2
-
-
作者
胥桂仙
刘兰寅
张廷
董玉双
-
机构
中央民族大学信息工程学院
-
出处
《东北师大学报(自然科学版)》
CAS
北大核心
2023年第1期52-64,共13页
-
基金
国家社会科学基金资助项目(19BGL241)
国家自然科学基金资助项目(62236011).
-
文摘
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model,CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks,GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率.
-
关键词
藏文文本分类
图卷积神经网络
预训练语言模型
低资源文本分类
-
Keywords
Tibetan text classification
graph convolution neural network
pre-trained language model
low-resource text classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-