检索结果-维普期刊中文期刊服务平台

CINO-TextGCN:融合CINO与TextGCN的藏文文本分类模型研究被引量：2: 1; 作者李果杨进陈晨《高原科学研究》 CSCD 2024年第1期121-129,共9页; 为提高藏文新闻文本分类准确性,文章提出一种融合少数民族语言预训练模型(Chinese Minority Pr-etrained Language Model,CINO)和图卷积神经网络模型(Text Graph Convolutional Networks,TextGCN)的方法,即CINO-TextGCN模型。为有效评... 展开更多; 关键词藏文图卷积神经网络融合模型新闻文本文本分类; 在线阅读下载PDF 职称材料

基于组块的藏文依存句法分析及自动标注方法: 2; 作者达瓦追玛曹玺 +2 位作者尼玛扎西群诺道吉扎西《高原科学研究》 CSCD 2024年第1期102-111,共10页; 依存句法分析是自然语言处理领域核心技术之一,旨在通过分析句子中词语之间的依存关系来确定句法结构。目前,藏文依存句法分析研究面临着长句解析困难和粗粒度依存转化映射不全面等问题。为此,文章提出一种基于组块和细粒度词性匹配规... 展开更多; 关键词藏文依存句法分析组块自动标注; 在线阅读下载PDF 职称材料

基于动态多头注意力机制的藏文语言模型被引量：6: 3; 作者张英拥措于韬《计算机工程与设计》北大核心 2023年第12期3707-3713,共7页; 针对预训练过程中大规模训练语料句子长度跨度较大、特征数量不定的情况,提出一种基于动态多头注意力机制的藏文ALBERT语言模型。在训练过程中根据句子的词数动态获得注意力机制的头数,使语言模型可以捕获重要的特征信息,在藏文公开数据... 展开更多; 关键词注意力机制动态注意力头数藏文预训练语言模型文本分类卷积神经网络自然语言处理; 在线阅读下载PDF 职称材料

基于藏文Albert预训练语言模型的图采样与聚合实体关系抽取: 4; 作者于韬尼玛次仁 +1 位作者拥措尼玛扎西《中文信息学报》 CSCD 北大核心 2022年第10期63-72,共10页; 实体关系抽取任务是对句子中实体对间的语义关系进行识别。该文提出了一种基于Albert预训练语言模型结合图采样与聚合算法(Graph Sampling and Aggregation,GraphSAGE)的实体关系抽取方法,并在藏文实体关系抽取数据集上实验。该文针对... 展开更多; 关键词藏文实体关系抽取 Albert GraphSAGE; 在线阅读下载PDF 职称材料

基于领域术语词典和句式框架的藏汉机器翻译领域数据增强方法研究: 5; 作者格桑加措尼玛扎西 +2 位作者嘎玛扎西次仁白玛步寅硕《高原科学研究》 2024年第3期92-101,132,共11页; 藏汉机器翻译系统在新闻、时政等领域已经取得了显著的翻译效果,这主要归功于建立了相对充足的双语句对。然而,现有藏汉双语语料中存在较大的领域偏差问题,藏医、佛学等领域的数据极度稀缺,导致藏汉翻译模型在处理这些低资源领域句对时... 展开更多; 关键词藏汉机器翻译领域数据不平衡领域句式框架术语双语词典; 在线阅读下载PDF 职称材料

基于双向软模板方式提示学习的藏文文本分类: 6; 作者周明军李秉林 +1 位作者群诺尼玛扎西《中文信息学报》 2025年第1期16-27,共12页; 藏文文本分类是藏语自然语言处理中的一项基础任务,在舆情监测、新闻推送、邮件分类等领域具有重要价值。预训练语言模型加微调的方式是目前主流的文本分类方法。然而,受限于有限的藏文标注数据和计算资源,使用该方法微调更大模型进行... 展开更多; 关键词藏文软模板方式提示学习预训练语言模型; 在线阅读下载PDF 职称材料

一种多方法融合的藏语情感词典构建方法: 7; 作者才让东知尼玛扎西 +1 位作者达瓦追玛道吉扎西《高原科学研究》 2024年第2期96-105,共10页; 深度学习在藏语情感分析领域备受关注,相较于传统机器学习方法其表现更出色。然而,构建藏语情感词典仍面临着挑战,如词汇量不足、过度依赖机器翻译系统、词典匹配源单一、缺少口语情感词典等。为解决上述问题,文章提出了一种多方法融合... 展开更多; 关键词藏语 SO-PMI 情感词典多词典匹配扩充词典; 在线阅读下载PDF 职称材料

题名CINO-TextGCN:融合CINO与TextGCN的藏文文本分类模型研究被引量：2: 1; 作者李果杨进陈晨; 机构西藏大学信息科学技术学院西藏大学藏文信息技术教育部工程研究中心四川大学网络空间安全学院; 出处《高原科学研究》 CSCD 2024年第1期121-129,共9页; 基金国家自然科学基金项目(62162057,61872254,61872254).; 文摘为提高藏文新闻文本分类准确性,文章提出一种融合少数民族语言预训练模型(Chinese Minority Pr-etrained Language Model,CINO)和图卷积神经网络模型(Text Graph Convolutional Networks,TextGCN)的方法,即CINO-TextGCN模型。为有效评测该模型对藏文文本的分类性能,自建了较大规模和较高质量的藏文新闻文本公开数据集TNEWS(https://github.com/LG2016/CINO-TextGCN),通过实验发现,CINO-Text-GCN在公开数据集TNCC上的准确率为74.20%,在TNEWS上为83.96%。因此,该融合模型能够较好地捕捉到藏文文本语义,提升藏文文本分类性能。; 关键词藏文图卷积神经网络融合模型新闻文本文本分类; Keywords Tibetan Graph Convolutional Networks(GCN) integrated model news text text classification; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于组块的藏文依存句法分析及自动标注方法: 2; 作者达瓦追玛曹玺尼玛扎西群诺道吉扎西; 机构西藏大学信息科学技术学院西藏大学西藏自治区藏文信息技术人工智能重点实验室西藏大学藏文信息技术教育部工程研究中心西藏大学西藏信息化省部共建协同创新中心; 出处《高原科学研究》 CSCD 2024年第1期102-111,共10页; 基金科技创新2030“新一代人工智能”重大项目(2022ZD0116102) 西藏大学研究生高水平人才培养计划项目(2021-GSP-S128).; 文摘依存句法分析是自然语言处理领域核心技术之一,旨在通过分析句子中词语之间的依存关系来确定句法结构。目前,藏文依存句法分析研究面临着长句解析困难和粗粒度依存转化映射不全面等问题。为此,文章提出一种基于组块和细粒度词性匹配规则的藏文依存句法分析及自动标注方法。该方法首先完善了藏文依存句法标注体系,并基于该标注体系人工标注数据集,提取词性匹配规则,进而通过藏文句子组块识别,提高了长句解析的准确性,最后实现了一个藏文依存句法自动标注原型系统TDParser,并构建了含7335条依存句法的藏文依存句法树库。通过实验证明了TDParser的性能及自动标注数据的有效性。; 关键词藏文依存句法分析组块自动标注; Keywords Tibetan dpendency parsing chunk automatic annotation; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于动态多头注意力机制的藏文语言模型被引量：6: 3; 作者张英拥措于韬; 机构西藏大学信息科学技术学院西藏大学藏文信息技术教育部工程研究中心西藏大学西藏自治区藏文信息技术人工智能重点实验室; 出处《计算机工程与设计》北大核心 2023年第12期3707-3713,共7页; 基金科技创新2030——“新一代人工智能”重大基金项目(2022ZD0116100) 西藏自治区科技创新基地自主研究基金项目(XZ2021JR0002G) +3 种基金国家重点研发计划重点专项基金项目(2017YFB1402202)。; 文摘针对预训练过程中大规模训练语料句子长度跨度较大、特征数量不定的情况,提出一种基于动态多头注意力机制的藏文ALBERT语言模型。在训练过程中根据句子的词数动态获得注意力机制的头数,使语言模型可以捕获重要的特征信息,在藏文公开数据集TNCC上进行验证。实验结果表明,改进后的预训练模型能够动态学习句子中的重要特征,在目前的TNCC文本分类任务上F1值均取得最优,其长文本分类及短文本分类任务的Macro F1值分别为73.23%、64.47%。; 关键词注意力机制动态注意力头数藏文预训练语言模型文本分类卷积神经网络自然语言处理; Keywords attention mechanism dynamic attention head number Tibetan pre-training language model text classification CNN natural language processing; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于藏文Albert预训练语言模型的图采样与聚合实体关系抽取: 4; 作者于韬尼玛次仁拥措尼玛扎西; 机构西藏大学信息科学技术学院; 出处《中文信息学报》 CSCD 北大核心 2022年第10期63-72,共10页; 基金科技部重点研发计划重点专项(2017YFB1402200) 西藏自治区科技创新基地自主研究项目(XZ2021JR002G)。; 文摘实体关系抽取任务是对句子中实体对间的语义关系进行识别。该文提出了一种基于Albert预训练语言模型结合图采样与聚合算法(Graph Sampling and Aggregation,GraphSAGE)的实体关系抽取方法,并在藏文实体关系抽取数据集上实验。该文针对藏文句子特征表示匮乏、传统藏文实体关系抽取模型准确率不高等问题,提出以下方案:①使用预先训练的藏文Albert模型获得高质量的藏文句子动态词向量特征;②使用提出的图结构数据构建与表示方法生成GraphSAGE模型的输入数据,并通过实验证明了该方法的有效性;③借鉴GraphSAGE模型的优势,利用其图采样与聚合操作进行关系抽取。实验结果表明,该文方法有效提高了藏文实体关系抽取模型的准确率,且优于基线实验效果。; 关键词藏文实体关系抽取 Albert GraphSAGE; Keywords Tibetan entity relation extraction Albert GraphSAGE; 分类号 TP391 [自动化与计算机技术]; 在线阅读下载PDF 职称材料

题名基于领域术语词典和句式框架的藏汉机器翻译领域数据增强方法研究: 5; 作者格桑加措尼玛扎西嘎玛扎西次仁白玛步寅硕; 机构西藏大学信息科学技术学院; 出处《高原科学研究》 2024年第3期92-101,132,共11页; 基金新一代人工智能国家科技重大专项项目(2022ZD0116101) 西藏自治区自然科学基金重点项目(XZ202201ZR0054G).; 文摘藏汉机器翻译系统在新闻、时政等领域已经取得了显著的翻译效果,这主要归功于建立了相对充足的双语句对。然而,现有藏汉双语语料中存在较大的领域偏差问题,藏医、佛学等领域的数据极度稀缺,导致藏汉翻译模型在处理这些低资源领域句对时面临着领域词汇稀缺和翻译困难的挑战。为了解决这一问题,充分利用现有领域术语双语词典,提出了一种基于词典结合特定领域上下文语义关系的翻译质量提升方法,并应用于传统藏医药领域。首先,收集并建立了包含9166对词条的藏医领域术语双语词典,并利用该词典扩充低资源领域的数据,以提高翻译系统对于特定领域术语的覆盖率;其次,将词典中的词对直接添加到已有句对中、领域词典中的词来替换原有句对中的词两种方式进行数据扩充,以验证词典扩充的领域翻译性能;最后,考虑到领域特定句式信息对于翻译的重要性,通过分析特定领域的语境和语义关系,提出引入特定领域上下文句式框架来优化特殊领域的翻译性能,在传统藏医药领域进行测试。实验结果表明,在利用词典进行数据扩充后,传统藏医药领域的BLEU值从0提升到4.59,且文章提出的领域句式框架方法,仅构造5条句式框架,就能使BLEU值最高提升至6.32,这为解决低资源领域翻译问题提供了新的思路和方法。; 关键词藏汉机器翻译领域数据不平衡领域句式框架术语双语词典; Keywords Tibetan-Chinese machine translation domain data imbalance domain sentence structure framework terminology bilingual dictionary; 分类号 TP391.2 [自动化与计算机技术]; 在线阅读下载PDF 职称材料

题名基于双向软模板方式提示学习的藏文文本分类: 6; 作者周明军李秉林群诺尼玛扎西; 机构西藏大学信息科学技术学院; 出处《中文信息学报》 2025年第1期16-27,共12页; 基金新一代人工智能国家科技重大项目(2022ZD0116100) 西藏大学研究生高水平人才培养计划项目(2022-GSP-S102)。; 文摘藏文文本分类是藏语自然语言处理中的一项基础任务,在舆情监测、新闻推送、邮件分类等领域具有重要价值。预训练语言模型加微调的方式是目前主流的文本分类方法。然而,受限于有限的藏文标注数据和计算资源,使用该方法微调更大模型进行文本分类研究变得非常困难。针对上述问题,该文提出了一种基于双向软模板方式提示学习的藏文文本分类方法。具体来说,传统的软模板方式提示学习只在输入文本嵌入向量前面添加可优化的软模板向量,但为了适应藏文语法结构,该文方法在输入文本嵌入向量首尾都进行软模板向量拼接。通过当前藏文两个主流藏文文本分类任务(情感分类、新闻主题分类)进行验证,结果表明,该文方法对于预训练语言模型(Pre-trained Language Model,PLM)的分类效果有显著提升。尤其在少样本实验中表现出色,其中,新闻主题分类的Macro-F_(1)值最高提升了5.7%,情感分类的Macro-F_(1)值最高提升了8.3%。; 关键词藏文软模板方式提示学习预训练语言模型; Keywords Tibetan soft template prompt learning PLM; 分类号 TP391 [自动化与计算机技术]; 在线阅读下载PDF 职称材料

题名一种多方法融合的藏语情感词典构建方法: 7; 作者才让东知尼玛扎西达瓦追玛道吉扎西; 机构西藏大学信息科学技术学院; 出处《高原科学研究》 2024年第2期96-105,共10页; 基金科技创新2030——新一代人工智能重大项目(2022ZD0116101) 西藏大学研究生高水平人才培养计划项目(2021-GSP-S129)。; 文摘深度学习在藏语情感分析领域备受关注,相较于传统机器学习方法其表现更出色。然而,构建藏语情感词典仍面临着挑战,如词汇量不足、过度依赖机器翻译系统、词典匹配源单一、缺少口语情感词典等。为解决上述问题,文章提出了一种多方法融合的藏语情感词典构建方法。首先,统计并分析已有情感词标注规则后提出了一种藏语情感词的标注规则作为情感词分类的主要依据;其次,提出了一种多词典匹配的藏语情感词典构建方法构建了藏语基准情感词典,为了扩大基准情感词典的规模,利用SO-PMI和基于word2vec词向量相似度扩充方法对基准词典进行词汇扩充,并且利用藏语3大方言的口语词典经人工筛选后构建了藏语口语情感词典;然后,将基准词典和扩充词典合并去重后得到了《藏语书面语与口语情感词典》;最后,为了证明本文方法的可行性和所构建词典的可用性而进行了藏语情感词典性能评估实验;实验中准确率、召回率、F值分别为60.80%、90.31%、72.67%,达到了较好的应用水平,验证了多方法融合的藏语情感词典构建方法的可行性。; 关键词藏语 SO-PMI 情感词典多词典匹配扩充词典; Keywords Tibetan language SO-PMI emotional dictionary multi-dictionary matching extended dictionary; 分类号 TP391.1 [自动化与计算机技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	CINO-TextGCN:融合CINO与TextGCN的藏文文本分类模型研究	李果杨进陈晨	《高原科学研究》 CSCD	2024	2	在线阅读下载PDF 职称材料
2	基于组块的藏文依存句法分析及自动标注方法	达瓦追玛曹玺尼玛扎西群诺道吉扎西	《高原科学研究》 CSCD	2024	0	在线阅读下载PDF 职称材料
3	基于动态多头注意力机制的藏文语言模型	张英拥措于韬	《计算机工程与设计》北大核心	2023	6	在线阅读下载PDF 职称材料
4	基于藏文Albert预训练语言模型的图采样与聚合实体关系抽取	于韬尼玛次仁拥措尼玛扎西	《中文信息学报》 CSCD 北大核心	2022		在线阅读下载PDF 职称材料
5	基于领域术语词典和句式框架的藏汉机器翻译领域数据增强方法研究	格桑加措尼玛扎西嘎玛扎西次仁白玛步寅硕	《高原科学研究》	2024		在线阅读下载PDF 职称材料
6	基于双向软模板方式提示学习的藏文文本分类	周明军李秉林群诺尼玛扎西	《中文信息学报》	2025		在线阅读下载PDF 职称材料
7	一种多方法融合的藏语情感词典构建方法	才让东知尼玛扎西达瓦追玛道吉扎西	《高原科学研究》	2024		在线阅读下载PDF 职称材料