-
题名基于参数高效微调的藏文大模型研究
被引量:1
- 1
-
-
作者
杨毛加
柔特
才智杰
官却才让
贡去卓么
-
机构
青海师范大学计算机学院
省部共建藏语智能信息处理及应用国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2024年第12期106-115,共10页
-
基金
新一代人工智能国家科技重大专项(2022ZD0116100)
青海省重点研发项目(2022-GX-104)。
-
文摘
大模型是指拥有庞大参数量的深度学习模型,具备强大的表征学习和生成能力,对自然语言处理等领域产生了深远影响。随着技术的不断进步,大模型在性能和应用范围上不断取得突破,成为人工智能领域的研究热点。然而,大模型的发展也面临着一些挑战,如模型训练成本高、参数冗余以及跨语言应用存在局限性等。特别地,在藏文这一具有独特语言特性的研究领域,大模型的研究尚处于起步阶段,缺乏相应的模型和资源支持。针对上述问题,该文通过基于LoRA的参数高效微调方法,提出了基于Llama2模型架构构建的Tibetan-Llama2和Tibetan-Alpaca模型,经过较大规模数据的增量预训练和指令微调,上述两种模型具备了对藏文的长文本理解和生成能力,展现了其多任务学习能力,并且在多个领域都有广泛的应用前景。
-
关键词
自然语言处理
藏文大模型
参数高效微调
增量预训练
指令微调
-
Keywords
natural language processing
tibetan language model
efficient parameter fine-tuning
incremental pre-training
instruction fine-tuning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-