-
题名基于预训练及控制码的藏文律诗自动生成方法
- 1
-
-
作者
色差甲
慈祯嘉措
才让加
华果才让
-
机构
藏语智能全国重点实验室
青海省藏文信息处理工程技术研究中心
-
出处
《中文信息学报》
北大核心
2025年第3期42-48,共7页
-
基金
青海省重点研发与转化计划项目(2022-GX-104)
青海师范大学青年科研基金(2024QER14)
藏语智能信息处理及应用国家重点实验室项目(2024-SK1-006)。
-
文摘
诗歌自动写作研究是自然语言生成的一个重要研究领域,被认为是极具挑战且有趣的任务之一。该文提出一种基于预训练及控制码的藏文律诗生成方法。在藏文预训练语言模型上进行微调后,生成质量显著提升;同时引入控制码后,在很大程度上确保了扣题程度,即关键词在生成诗作中的平均覆盖率居高。此外,在生成的诗作中,不仅提高了词汇的丰富性,而且生成结果的多样性也明显提升。测试表明,基于预训练及控制码的生成方法显著优于基线方法。
-
关键词
藏文律诗自动生成
藏文预训练模型
控制码
-
Keywords
automatic generation of Tibetan poems
Tibetan Pre-training Model
control code
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名结合数据增强方法的藏文预训练语言模型
被引量:1
- 2
-
-
作者
色差甲
班马宝
才让加
柔特
-
机构
省部共建藏语智能信息处理及应用国家重点实验室
青海省藏文信息处理工程技术研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2024年第9期66-72,共7页
-
基金
青海省重点研发与转化计划项目(2022-GX-104)
青海师范大学青年科研基金(2024QER14)
藏语智能信息处理及应用国家重点实验室(2024-skl-006)。
-
文摘
最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符的藏文文本语料;然后在UniLM模型的基础上,利用藏文文本特征的数据增强方法和预训练技术相结合的方法预训练藏文语言模型。实验表明,该文方法在藏文La格例句分类和藏文文本分类等四个下游任务中获得显著效果。
-
关键词
藏文预训练语言模型
文本数据增强方法
UniLM模型
-
Keywords
Tibetan pre-training language model
text data enhancement method
UniLM model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-