-
题名基于提示学习的低资源藏文文本分类
被引量:3
- 1
-
-
作者
安波
赵维纳
龙从军
-
机构
中国社会科学院民族学与人类学研究所民族语言文化行为实验研究室
中国社会科学院中国少数民族语言研究中心
青海师范大学计算机学院省部共建藏语智能信息处理及应用国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2024年第2期70-78,共9页
-
基金
国家社会科学基金(22BTQ010)
省部共建藏语智能信息处理及应用国家重点实验室自主课题基金(2022-SKL-012)
+1 种基金
国家自然科学基金(62076233,62266036)
中国社会科学院数据练专项(2024SJK017)。
-
文摘
文本分类是自然语言处理的基础任务之一。标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求。为解决这个问题,该文在大规模预训练语言模型的基础上,利用提示学习实现低资源藏文文本分类,即使用不同的藏文预训练语言模型和提示模板开展藏文文本分类实验。实验结果表明,通过设计合理的提示模板等方式,提示学习能够在训练数据不足的情况下提升藏文文本分类的效果(48.3%),初步验证了提示学习在民族语言处理中的价值和潜力。但是,实验结果也反映出提示学习模型在处理部分类别时性能较差,且藏文预训练语言模型也有进一步提升空间。
-
关键词
藏文文本分类
预训练语言模型
提示学习
小样本学习
-
Keywords
Tibetan text classification,pre-trained language model
prompt learning
few-shot learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-