期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
《自然语言处理》课程教学模式改革与探索——以西藏大学为例
1
作者 群诺 格勒尼玛 +2 位作者 曹玺 达瓦追玛 洛桑嘎登 《高原科学研究》 CSCD 2024年第3期125-132,共8页
文章对目前我国高等院校积极开设的《自然语言处理》课程进行了研究分析,结合西藏大学计算机科学与技术专业研究生课程体系结构和自身服务民族地区信息化建设的特点,提出了教学内容、教学方法和考核方式等课程建设方面的新认识和新观点... 文章对目前我国高等院校积极开设的《自然语言处理》课程进行了研究分析,结合西藏大学计算机科学与技术专业研究生课程体系结构和自身服务民族地区信息化建设的特点,提出了教学内容、教学方法和考核方式等课程建设方面的新认识和新观点。文章认为《自然语言处理》课程的教学模式改革应当从优化教学内容、创新教学模式、整合教学资源、加强实践能力等方面着手,以培养研究生的理论水平、实践能力和创新思维为目标,推动自然语言处理技术和教育的可持续发展。 展开更多
关键词 《自然语言处理》课程 教学模式 课程建设 西藏大学
在线阅读 下载PDF
基于双向软模板方式提示学习的藏文文本分类
2
作者 周明军 李秉林 +1 位作者 群诺 尼玛扎西 《中文信息学报》 北大核心 2025年第1期16-27,共12页
藏文文本分类是藏语自然语言处理中的一项基础任务,在舆情监测、新闻推送、邮件分类等领域具有重要价值。预训练语言模型加微调的方式是目前主流的文本分类方法。然而,受限于有限的藏文标注数据和计算资源,使用该方法微调更大模型进行... 藏文文本分类是藏语自然语言处理中的一项基础任务,在舆情监测、新闻推送、邮件分类等领域具有重要价值。预训练语言模型加微调的方式是目前主流的文本分类方法。然而,受限于有限的藏文标注数据和计算资源,使用该方法微调更大模型进行文本分类研究变得非常困难。针对上述问题,该文提出了一种基于双向软模板方式提示学习的藏文文本分类方法。具体来说,传统的软模板方式提示学习只在输入文本嵌入向量前面添加可优化的软模板向量,但为了适应藏文语法结构,该文方法在输入文本嵌入向量首尾都进行软模板向量拼接。通过当前藏文两个主流藏文文本分类任务(情感分类、新闻主题分类)进行验证,结果表明,该文方法对于预训练语言模型(Pre-trained Language Model,PLM)的分类效果有显著提升。尤其在少样本实验中表现出色,其中,新闻主题分类的Macro-F_(1)值最高提升了5.7%,情感分类的Macro-F_(1)值最高提升了8.3%。 展开更多
关键词 藏文 软模板方式提示学习 预训练语言模型
在线阅读 下载PDF
基于领域特定提示学习和正则化加权先验优化的藏文不良语言检测方法
3
作者 任航 李镀 +3 位作者 杨进 章菁 群诺 王鑫 《中文信息学报》 北大核心 2025年第7期44-53,共10页
社交媒体上的不良言论对人们的心理健康和社会和谐构成严重威胁。然而在藏文社交平台上,由于缺乏有效的检测工具,使得对这些内容的监督和管理面临巨大挑战。鉴于藏文语料极为有限,传统的数据密集型方法并不适用。为解决这一问题,该文提... 社交媒体上的不良言论对人们的心理健康和社会和谐构成严重威胁。然而在藏文社交平台上,由于缺乏有效的检测工具,使得对这些内容的监督和管理面临巨大挑战。鉴于藏文语料极为有限,传统的数据密集型方法并不适用。为解决这一问题,该文提出了一种基于领域特定提示学习和正则化加权先验优化的方法。此方法基于提示学习与领域知识融合,可提升模型在低资源环境下的学习效果;采用正则化加权先验优化算法,通过调整损失函数和标签分布,提升模型准确性。该文以当前领先的XLM-RoBERTa (CINO)模型为基线,对自建的领域特定藏文不良语言数据集进行全量及小样本(50%、30%、10%)实验。结果表明,相较于基线,该方法在不同数据量条件下的准确率分别提高了2.8%、1.6%、1.3%和4.4%。 展开更多
关键词 藏文不良语言检测 领域特定提示学习 正则化加权先验优化
在线阅读 下载PDF
一种基于迁移学习的藏英神经机器翻译方法
4
作者 扎西平措 张佳亮 +1 位作者 群诺 尼玛扎西 《高原科学研究》 2025年第2期105-112,共8页
随着全球化背景下跨文化交流需求的日益增长,藏英翻译在促进我国藏族文化的传播、加强与外界的联系以及提升藏语言数字化应用等方面具有重要的现实意义。然而,藏英平行语料资源的严重匮乏,极大地制约了藏英神经机器翻译研究进展,导致系... 随着全球化背景下跨文化交流需求的日益增长,藏英翻译在促进我国藏族文化的传播、加强与外界的联系以及提升藏语言数字化应用等方面具有重要的现实意义。然而,藏英平行语料资源的严重匮乏,极大地制约了藏英神经机器翻译研究进展,导致系统在处理低频词汇和复杂句式时表现欠佳。针对这一问题,文章系统探讨了迁移学习技术在藏英神经机器翻译中的应用潜力。通过分析父模型的数据规模、目标语言特性以及参数冻结等因素对藏英翻译模型性能的影响基础上,借助其他语言的丰富语料和预训练模型,探索迁移学习策略在藏英神经机器翻译中的潜在优势。研究结果显示,引入迁移学习策略后藏英神经机器翻译性能得到了很大的提升,相比于传统策略BLEU值提高了1.88个点。该方法不仅能够有效缓解藏英语句对的不足,还能有效增强藏英神经机器翻译模型的翻译质量和泛化能力。 展开更多
关键词 藏英机器翻译 生成式对抗网络(GAN) 迁移学习
在线阅读 下载PDF
基于组块的藏文依存句法分析及自动标注方法
5
作者 达瓦追玛 曹玺 +2 位作者 尼玛扎西 群诺 道吉扎西 《高原科学研究》 CSCD 2024年第1期102-111,共10页
依存句法分析是自然语言处理领域核心技术之一,旨在通过分析句子中词语之间的依存关系来确定句法结构。目前,藏文依存句法分析研究面临着长句解析困难和粗粒度依存转化映射不全面等问题。为此,文章提出一种基于组块和细粒度词性匹配规... 依存句法分析是自然语言处理领域核心技术之一,旨在通过分析句子中词语之间的依存关系来确定句法结构。目前,藏文依存句法分析研究面临着长句解析困难和粗粒度依存转化映射不全面等问题。为此,文章提出一种基于组块和细粒度词性匹配规则的藏文依存句法分析及自动标注方法。该方法首先完善了藏文依存句法标注体系,并基于该标注体系人工标注数据集,提取词性匹配规则,进而通过藏文句子组块识别,提高了长句解析的准确性,最后实现了一个藏文依存句法自动标注原型系统TDParser,并构建了含7335条依存句法的藏文依存句法树库。通过实验证明了TDParser的性能及自动标注数据的有效性。 展开更多
关键词 藏文 依存句法分析 组块 自动标注
在线阅读 下载PDF
基于领域术语词典和句式框架的藏汉机器翻译领域数据增强方法研究
6
作者 格桑加措 尼玛扎西 +2 位作者 嘎玛扎西 次仁白玛 步寅硕 《高原科学研究》 CSCD 2024年第3期92-101,132,共11页
藏汉机器翻译系统在新闻、时政等领域已经取得了显著的翻译效果,这主要归功于建立了相对充足的双语句对。然而,现有藏汉双语语料中存在较大的领域偏差问题,藏医、佛学等领域的数据极度稀缺,导致藏汉翻译模型在处理这些低资源领域句对时... 藏汉机器翻译系统在新闻、时政等领域已经取得了显著的翻译效果,这主要归功于建立了相对充足的双语句对。然而,现有藏汉双语语料中存在较大的领域偏差问题,藏医、佛学等领域的数据极度稀缺,导致藏汉翻译模型在处理这些低资源领域句对时面临着领域词汇稀缺和翻译困难的挑战。为了解决这一问题,充分利用现有领域术语双语词典,提出了一种基于词典结合特定领域上下文语义关系的翻译质量提升方法,并应用于传统藏医药领域。首先,收集并建立了包含9166对词条的藏医领域术语双语词典,并利用该词典扩充低资源领域的数据,以提高翻译系统对于特定领域术语的覆盖率;其次,将词典中的词对直接添加到已有句对中、领域词典中的词来替换原有句对中的词两种方式进行数据扩充,以验证词典扩充的领域翻译性能;最后,考虑到领域特定句式信息对于翻译的重要性,通过分析特定领域的语境和语义关系,提出引入特定领域上下文句式框架来优化特殊领域的翻译性能,在传统藏医药领域进行测试。实验结果表明,在利用词典进行数据扩充后,传统藏医药领域的BLEU值从0提升到4.59,且文章提出的领域句式框架方法,仅构造5条句式框架,就能使BLEU值最高提升至6.32,这为解决低资源领域翻译问题提供了新的思路和方法。 展开更多
关键词 藏汉机器翻译 领域数据不平衡 领域句式框架 术语双语词典
在线阅读 下载PDF
完全端到端的藏语语音合成方法 被引量:1
7
作者 拉巴顿珠 官政先 +2 位作者 德庆卓玛 张恒 珠杰 《中文信息学报》 CSCD 北大核心 2024年第9期82-92,116,共12页
在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性... 在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性差且推理速度慢的问题,研究了基于深度生成模型的完全端到端VITS模型及其在藏语语音合成中的应用。首先,通过自然语音采集、自动标注和声学分析等构建一个7000条中等规模的藏语卫藏方言语音数据库;其次,由于现有开源模型不能很好地表征藏文音节结构特征,且现有相关描述无法全面地刻画藏语语音结构,为此提出了现代藏文存在7种字形结构的主张,并将其转写成对应的音素序列作为模型的输入;最后,经典的开源模型VITS应用在上述语音数据上进行了藏语语音合成试验。同时,为了提高合成系统的鲁棒性,在模型中引入了预训练的音素强制对齐信息。实验结果表明,相比两阶段的方法,通过端到端建模不仅有效减少了模型的推理时间,进一步提高合成语音的质量,而且基于7种藏文字形结构的音素序列作为建模单元,显著提升藏语音段特征的覆盖率,从而缓解低资源且黏着语常见的数据稀疏带来发音错误,以及音素分散导致模型训练困难问题。 展开更多
关键词 语音合成 藏语 音节结构 字音转换 端到端
在线阅读 下载PDF
一种多方法融合的藏语情感词典构建方法
8
作者 才让东知 尼玛扎西 +1 位作者 达瓦追玛 道吉扎西 《高原科学研究》 CSCD 2024年第2期96-105,共10页
深度学习在藏语情感分析领域备受关注,相较于传统机器学习方法其表现更出色。然而,构建藏语情感词典仍面临着挑战,如词汇量不足、过度依赖机器翻译系统、词典匹配源单一、缺少口语情感词典等。为解决上述问题,文章提出了一种多方法融合... 深度学习在藏语情感分析领域备受关注,相较于传统机器学习方法其表现更出色。然而,构建藏语情感词典仍面临着挑战,如词汇量不足、过度依赖机器翻译系统、词典匹配源单一、缺少口语情感词典等。为解决上述问题,文章提出了一种多方法融合的藏语情感词典构建方法。首先,统计并分析已有情感词标注规则后提出了一种藏语情感词的标注规则作为情感词分类的主要依据;其次,提出了一种多词典匹配的藏语情感词典构建方法构建了藏语基准情感词典,为了扩大基准情感词典的规模,利用SO-PMI和基于word2vec词向量相似度扩充方法对基准词典进行词汇扩充,并且利用藏语3大方言的口语词典经人工筛选后构建了藏语口语情感词典;然后,将基准词典和扩充词典合并去重后得到了《藏语书面语与口语情感词典》;最后,为了证明本文方法的可行性和所构建词典的可用性而进行了藏语情感词典性能评估实验;实验中准确率、召回率、F值分别为60.80%、90.31%、72.67%,达到了较好的应用水平,验证了多方法融合的藏语情感词典构建方法的可行性。 展开更多
关键词 藏语 SO-PMI 情感词典 多词典匹配 扩充词典
在线阅读 下载PDF
藏文音节查错纠错模型研究
9
作者 珠杰 郑任公 +2 位作者 拉巴顿珠 德庆卓玛 顿珠次仁 《中文信息学报》 CSCD 北大核心 2024年第12期116-126,共11页
针对藏文文本自动校对研究中缺乏高质量标注语料、鲜有纠错任务研究等问题,该文以藏文音节为单元的等长文本为研究内容,通过分析藏文文本错误类型,开展了藏文查错、纠错模型研究,该文主要贡献如下:(1)针对缺乏标注语料问题,一是提出了... 针对藏文文本自动校对研究中缺乏高质量标注语料、鲜有纠错任务研究等问题,该文以藏文音节为单元的等长文本为研究内容,通过分析藏文文本错误类型,开展了藏文查错、纠错模型研究,该文主要贡献如下:(1)针对缺乏标注语料问题,一是提出了结合语言知识的藏文混淆集构建算法,自动建立了音似、形似和拼写错误音节的混淆集,二是根据音似、形似、动词时态、易错虚词的不同混淆集,提出了加噪算法,在等长文本中将正确音节替换为错误音节。(2)针对查错问题,提出了基于预训练模型Word2Vec和ELMo的BiGRU-Attention藏文音节查错模型。最终实验表明,使用预训练模型能有效提升藏文音节查错效果,其中ELMo-BiGRU-Attention模型的查错效果达到最佳,音节级查错F1为90.91%,句子级查错F1为83.24%。(3)针对纠错问题,提出了soft-masked+BERT的藏文音节纠错网络,效果最好的模型音节级查错F1和纠错F1分别为95.51%和90.69%,句子级查错F1和纠错F1分别为86.34%和79.77%。 展开更多
关键词 藏文音节 查错模型 纠错模型 预训练 软掩码
在线阅读 下载PDF
基于图结构特征和语义关联度的无监督藏文关键短语抽取方法
10
作者 章菁 李镀 +3 位作者 杨进 任航 羊琴 群诺 《中文信息学报》 CSCD 北大核心 2024年第11期70-78,共9页
在资源稀缺、语义结构复杂的藏文语境下,关键短语抽取是一项具有挑战性的自然语言处理任务。现有藏文关键短语抽取方法依赖于词频和位置等统计特征,忽略了词汇间的语义关系。该文提出了一种基于图结构特征和语义关联度的无监督藏文关键... 在资源稀缺、语义结构复杂的藏文语境下,关键短语抽取是一项具有挑战性的自然语言处理任务。现有藏文关键短语抽取方法依赖于词频和位置等统计特征,忽略了词汇间的语义关系。该文提出了一种基于图结构特征和语义关联度的无监督藏文关键短语抽取方法。该方法使用藏文预训练语言模型和图结构特征来建模文档,使用自注意力机制融合全局和局部信息表示;通过计算原始文档与其掩码版本之间的语义关联度得分,采用综合加权策略,对自注意力机制、余弦相似度以及掩码版本所得到的关键短语得分进行三重加权计算。实验结果证明,该文提出的方法相较于基准在参数K为5、10、15的情况下,F1值分别提升了5.16%、2.52%、0.66%,证明了其在藏文文本关键短语抽取任务中的显著有效性。 展开更多
关键词 藏文关键短语抽取 图结构特征 语义关联度
在线阅读 下载PDF
端到端的藏语语音合成方法 被引量:5
11
作者 拉巴顿珠 珠杰 +1 位作者 欧珠 尼玛 《应用声学》 CSCD 北大核心 2023年第2期324-332,共9页
近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种... 近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种语言和不同音色的语音合成。该文研究Tacotron2在藏语中的应用,取得了良好的实验结果。首先,通过自然语音采集、自动标注、声学分析等构建了一个中等规模(5500句)藏语卫藏方言的语音语料库,其中包括藏文音素转写、特殊符号处理和Mel谱等各项数据;其次,利用开源程序Tacotron2和上述语音库进行了藏语语音合成试验;最后,通过对合成语音和自然语音的偏差分析,和对合成语音的自然度的主观评价,表明了基于端到端的藏语语音合成方法有效地减少合成语音的频谱蜕变,提升了合成语音的自然度。因此,基于“端到端”的Tacotron2合成框架在藏语语音合成中具有重要的应用价值,值得进一步研究和推广应用。 展开更多
关键词 语音合成 藏语 字音转换 端到端 Tacotron2
在线阅读 下载PDF
基于图神经网络结合预训练模型的藏文短文本情感分析研究 被引量:7
12
作者 朱宇雷 德吉卡卓 +1 位作者 群诺 尼玛扎西 《中文信息学报》 CSCD 北大核心 2023年第2期71-79,共9页
针对藏文情感分析研究中,由于藏文构字规则以及数据集不统一导致深度学习模型效果欠佳的问题,该文提出了一种结合图神经网络以及预训练模型的藏文情感分析模型,应用于藏文短文本。首先,采用Albert预训练模型对藏文文本进行词向量构建;其... 针对藏文情感分析研究中,由于藏文构字规则以及数据集不统一导致深度学习模型效果欠佳的问题,该文提出了一种结合图神经网络以及预训练模型的藏文情感分析模型,应用于藏文短文本。首先,采用Albert预训练模型对藏文文本进行词向量构建;其次,为对应句中标注出的藏文情感词构建表征,并且通过构建后的词向量与情感词表征进行融合;最后,将融合后的表征进行图数据构建并输入到图神经网络模型中,得到最终的分类效果。实验结果表明,该文提出的藏文情感分类模型准确率达到98.60%,优于其他基线模型。数据集公开网址为:https://github.com/TU-NLP/TU_SA/。 展开更多
关键词 藏文情感分析 图神经网络 预训练模型
在线阅读 下载PDF
一种融合CINO+TextCNN+BiLSTM+Attention的藏文情感分类方法 被引量:1
13
作者 白玛洛赛 群诺 达措 《高原科学研究》 CSCD 2023年第2期93-98,共6页
文章在卷积神经网络(TextCNN)、长短期记忆神经网络(LSTM)、词向量(Word2vec),全局词向量(Glove)等传统的训练词向量基础上,提出一种基于CINO+TextCNN+BiLSTM+Attention的藏文情感分类模型,使用少数民族语言的多语言预训练模型(CINO)来... 文章在卷积神经网络(TextCNN)、长短期记忆神经网络(LSTM)、词向量(Word2vec),全局词向量(Glove)等传统的训练词向量基础上,提出一种基于CINO+TextCNN+BiLSTM+Attention的藏文情感分类模型,使用少数民族语言的多语言预训练模型(CINO)来获取上下文语义的词向量,通过TextCNN和BiLSTM结合的注意力机制来提取局部信息和语义特征信息。文章构建了包含1.7万条藏文情感分类词的语料库,使用TextCNN、BiLSTM、CINO、CINO+TextCNN、CINO+BiLSTM、CINO+BiLSTM+Attention、CINO+TextCNN+BiLSTM+Attention等7种不同模型进行对比实验,实验结果表明本文提出的模型在藏文情感分类中的效果最优,其准确率上达到90.74%。 展开更多
关键词 藏文情感分类 CINO TextCNN 注意力机制
在线阅读 下载PDF
藏文句法分析研究方法综述 被引量:1
14
作者 仁青诺布 项秀才让 群诺 《高原科学研究》 CSCD 2022年第1期90-96,共7页
藏文句法分析对藏文语义信息处理和藏文问答系统、机器翻译等研究结果产生直接影响。文章利用文献综述方法对近年来的藏文句法分析理论研究和实际应用进行了梳理,分析了目前藏文句法分析研究的现状和存在的问题,在此基础上提出了构建藏... 藏文句法分析对藏文语义信息处理和藏文问答系统、机器翻译等研究结果产生直接影响。文章利用文献综述方法对近年来的藏文句法分析理论研究和实际应用进行了梳理,分析了目前藏文句法分析研究的现状和存在的问题,在此基础上提出了构建藏文依存树数据库的思路。 展开更多
关键词 藏文 句法分析 依存树库
在线阅读 下载PDF
基于图卷积网络的任意形状藏文文本检测方法研究
15
作者 珠杰 许泽洲 《高原科学研究》 CSCD 2023年第3期94-101,共8页
在文本检测领域,多形状文本检测一直是一个棘手的问题,对于藏文文本检测来说,这更是一个亟待解决的问题。文章构建了基于CC-Based思想的任意形状藏文文本检测模型,该模型首先使用卷积神经网络来获得文本构件预测,然后使用图卷积网络来... 在文本检测领域,多形状文本检测一直是一个棘手的问题,对于藏文文本检测来说,这更是一个亟待解决的问题。文章构建了基于CC-Based思想的任意形状藏文文本检测模型,该模型首先使用卷积神经网络来获得文本构件预测,然后使用图卷积网络来进行关系推理。模型在藏文自然场景数据集与现代藏文书籍数据集上都取得了优良的实验结果。 展开更多
关键词 文本检测 任意形状 藏文 图卷积网络
在线阅读 下载PDF
结合分词特征的藏文命名实体识别方法
16
作者 格勒尼玛 群诺 +2 位作者 项秀才让 洛桑嘎登 尼玛扎西 《高原科学研究》 2023年第4期106-114,共9页
命名实体识别是构建知识图谱、机器翻译、网络舆情分析等信息处理领域的前提和基础。在藏文命名实体识别研究中,传统单一字(音节)嵌入方法未能融入词的位置信息,对实体边界识别能力比较差。针对以上问题,文章提出在神经网络嵌入层嵌入字... 命名实体识别是构建知识图谱、机器翻译、网络舆情分析等信息处理领域的前提和基础。在藏文命名实体识别研究中,传统单一字(音节)嵌入方法未能融入词的位置信息,对实体边界识别能力比较差。针对以上问题,文章提出在神经网络嵌入层嵌入字(音节)的基础上加入了分词特征,并将这两种特征融合之后送入BiLSTM-CRF模型预测藏文实体识别结果。在西藏大学自然语言处理实验室构建的数据集上进行了实验,测试集和验证集上的F_(1)值分别达到了96.99%和96.84%,实验表明该方法在藏文命名实体识别任务中的有效性。 展开更多
关键词 分词特征 深度学习 命名实体识别 藏文
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部