期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于预训练及控制码的藏文律诗自动生成方法
1
作者 色差甲 慈祯嘉措 +1 位作者 才让加 华果才让 《中文信息学报》 北大核心 2025年第3期42-48,共7页
诗歌自动写作研究是自然语言生成的一个重要研究领域,被认为是极具挑战且有趣的任务之一。该文提出一种基于预训练及控制码的藏文律诗生成方法。在藏文预训练语言模型上进行微调后,生成质量显著提升;同时引入控制码后,在很大程度上确保... 诗歌自动写作研究是自然语言生成的一个重要研究领域,被认为是极具挑战且有趣的任务之一。该文提出一种基于预训练及控制码的藏文律诗生成方法。在藏文预训练语言模型上进行微调后,生成质量显著提升;同时引入控制码后,在很大程度上确保了扣题程度,即关键词在生成诗作中的平均覆盖率居高。此外,在生成的诗作中,不仅提高了词汇的丰富性,而且生成结果的多样性也明显提升。测试表明,基于预训练及控制码的生成方法显著优于基线方法。 展开更多
关键词 藏文律诗自动生成 藏文预训练模型 控制码
在线阅读 下载PDF
融合La格虚词语义信息的藏文La格分类模型 被引量:1
2
作者 班玛宝 慈祯嘉措 +1 位作者 张瑞 才让加 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期695-703,共9页
采用深度学习方法实现藏文La格(■)分类是一项具有挑战性和重要研究意义的藏语自然语言处理任务.藏文La格的自动分类更加依赖于上下文语义信息和特征的时序性,该文通过分析La格虚词的用法及语义特征,在设计La格虚词语义信息标记算法的... 采用深度学习方法实现藏文La格(■)分类是一项具有挑战性和重要研究意义的藏语自然语言处理任务.藏文La格的自动分类更加依赖于上下文语义信息和特征的时序性,该文通过分析La格虚词的用法及语义特征,在设计La格虚词语义信息标记算法的基础上,提出一种融合La格虚词语义信息的藏文La格分类模型.该模型首先以每个音节及对应La格虚词或其它音节的语义特征嵌入作为输入,丰富嵌入向量的语义信息,增加输入特征的多样性;然后采用一维卷积融合并学习每个音节及对应La格虚词或其它音节语义信息的局部特征向量,提高卷积层的空间特征学习能力;其次使用双向长短时记忆网络(long short-term memory)(LSTM)学习时序特征,提高时序特征的学习能力;最后使用注意力机制对双向LSTM层每一时刻的输出特征进行加权融合,充分利用每一时刻的输出特征,以提高最终文本表示的特征质量.在TLD藏文La格数据集上的实验结果显示,该模型的分类效果优于基线模型及仅用藏文音节嵌入的模型,在测试集上的分类准确率为93.10%. 展开更多
关键词 自然语言处理 La格虚词 语义信息 神经网络 La格分类
在线阅读 下载PDF
结合数据增强方法的藏文预训练语言模型 被引量:1
3
作者 色差甲 班马宝 +1 位作者 才让加 柔特 《中文信息学报》 CSCD 北大核心 2024年第9期66-72,共7页
最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符... 最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符的藏文文本语料;然后在UniLM模型的基础上,利用藏文文本特征的数据增强方法和预训练技术相结合的方法预训练藏文语言模型。实验表明,该文方法在藏文La格例句分类和藏文文本分类等四个下游任务中获得显著效果。 展开更多
关键词 藏文预训练语言模型 文本数据增强方法 UniLM模型
在线阅读 下载PDF
融合双通道音节特征的藏文La格例句自动分类模型 被引量:5
4
作者 班玛宝 才让加 +2 位作者 张瑞 色差甲 卓玛扎西 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第1期91-98,共8页
基于藏文La格(■)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型。该模型首先使用word2vec和Gl... 基于藏文La格(■)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型。该模型首先使用word2vec和Glove构建双通道藏文音节嵌入,分别在每路卷积中融合双通道音节特征,丰富输入特征的表达和提高卷积层的空间表征能力;然后在每一路卷积均使用结合层级注意力机制的Bi-LSTM学习时序特征后,拼接多路特征,提高上下文时序特征的学习能力;最后通过全链接层和Softmax层实现藏文La格例句自动分类。实验结果表明,该模型在测试集上的藏文La格例句分类准确率达到90.26%。 展开更多
关键词 自然语言处理 双通道音节特征 藏文La格例句 自动分类
在线阅读 下载PDF
一种端到端的藏文La格浅层语义分析 被引量:1
5
作者 班玛宝 色差甲 +2 位作者 才让加 张瑞 柔特 《中文信息学报》 CSCD 北大核心 2023年第2期62-70,共9页
该文通过详细分析La格的用法及特征,在研制La格(■)浅层语义标记规范的基础上,提出一种端到端的长短时记忆神经网络藏文La格浅层语义分析方法,该方法首先借鉴LSTM的设计思路,通过在LSTM的垂直方向上装置一个新颖的“门控高速连接”机制(... 该文通过详细分析La格的用法及特征,在研制La格(■)浅层语义标记规范的基础上,提出一种端到端的长短时记忆神经网络藏文La格浅层语义分析方法,该方法首先借鉴LSTM的设计思路,通过在LSTM的垂直方向上装置一个新颖的“门控高速连接”机制(Gated high-speed connection mechanism,GM),学习了输入句子的时序语义特征。GM包含对单元内部输入和输出的线性连接,使信息可以通畅地在不同层之间传播;然后使用Softmax计算每一时刻语义标签的局部归一化分布,以供输出层进行约束解码;最后使用维特比算法进行解码时通过强制执行该文设定的BIO和La格浅层语义标注约束,规范了输出语义标签之间的结构关系。虽然这个模型比较简单,不需要输入任何额外特征,但取得了理想的实验结果,在测试集上的藏文La格浅层语义分析准确率达到90.59%。 展开更多
关键词 自然语言处理 La格 浅层语义分析 门控高速连接 约束解码
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部