期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于组块的藏文依存句法分析及自动标注方法
1
作者 达瓦追玛 曹玺 +2 位作者 尼玛扎西 群诺 道吉扎西 《高原科学研究》 CSCD 2024年第1期102-111,共10页
依存句法分析是自然语言处理领域核心技术之一,旨在通过分析句子中词语之间的依存关系来确定句法结构。目前,藏文依存句法分析研究面临着长句解析困难和粗粒度依存转化映射不全面等问题。为此,文章提出一种基于组块和细粒度词性匹配规... 依存句法分析是自然语言处理领域核心技术之一,旨在通过分析句子中词语之间的依存关系来确定句法结构。目前,藏文依存句法分析研究面临着长句解析困难和粗粒度依存转化映射不全面等问题。为此,文章提出一种基于组块和细粒度词性匹配规则的藏文依存句法分析及自动标注方法。该方法首先完善了藏文依存句法标注体系,并基于该标注体系人工标注数据集,提取词性匹配规则,进而通过藏文句子组块识别,提高了长句解析的准确性,最后实现了一个藏文依存句法自动标注原型系统TDParser,并构建了含7335条依存句法的藏文依存句法树库。通过实验证明了TDParser的性能及自动标注数据的有效性。 展开更多
关键词 藏文 依存句法分析 组块 自动标注
在线阅读 下载PDF
基于注意力头数和词性融合的藏文预训练模型
2
作者 张英 拥措 +3 位作者 斯曲卓嘎 拉毛杰 扎西永珍 尼玛扎西 《科学技术与工程》 北大核心 2024年第23期9957-9964,共8页
为了更好地学习藏文语言特征以及探究藏文预训练语言模型的最佳注意力机制头数,将词性与藏文预训练模型相结合,并进行了对比实验确定最佳的注意力头数,旨在提高语言模型对藏文语言特征的理解以及下游任务的性能。实验结果表明,在多个分... 为了更好地学习藏文语言特征以及探究藏文预训练语言模型的最佳注意力机制头数,将词性与藏文预训练模型相结合,并进行了对比实验确定最佳的注意力头数,旨在提高语言模型对藏文语言特征的理解以及下游任务的性能。实验结果表明,在多个分类任务中,注意力头数为12的预训练模型皆表现了良好的性能。此外,将词性融入预训练模型后,文本、标题和情感分类任务的模型F_(1)值分别提高了0.57%、0.92%和1.01%。实验结果证明融入词性特征后,模型可以更准确地理解藏文语言结构和语法规则,从而提高分类任务的准确率。 展开更多
关键词 注意力机制 词性 预训练语言模型 文本分类 情感分类
在线阅读 下载PDF
融合对抗训练与迭代膨胀卷积的藏医药命名实体识别方法
3
作者 拉毛杰 万玛才旦 +2 位作者 拥措 高兴 尼玛扎西 《高原科学研究》 2025年第1期105-118,共14页
当前藏文命名实体识别模型在处理藏医药领域的实体识别任务时,往往面临迁移性和泛化能力受限以及语义关联捕捉不充分和实体边界模糊等问题。文章提出一种融合对抗训练与迭代膨胀卷积的藏医药文本命名实体识别模型(TM-ATD)。该方法首先... 当前藏文命名实体识别模型在处理藏医药领域的实体识别任务时,往往面临迁移性和泛化能力受限以及语义关联捕捉不充分和实体边界模糊等问题。文章提出一种融合对抗训练与迭代膨胀卷积的藏医药文本命名实体识别模型(TM-ATD)。该方法首先基于《四部医典》构建了藏文音节标注的数据集TibetanAI_YUTOK_NER。其次采用预训练模型对藏文音节进行特征编码,融合对抗训练生成对抗样本以增强模型鲁棒性和泛化能力;通过双向长短时记忆网络捕捉序列依赖关系;采用迭代膨胀卷积全面捕捉文本上下文信息和全局特征,并利用多头自注意力机制增强局部上下文的理解能力,强化实体边界信息和文本语义关联。最后采用条件随机场进行解码操作输出最优标签序列。实验结果表明,融合对抗训练与迭代膨胀卷积的方法在藏医药文本数据集和藏文数据集TibetanAI_NER上的F1值分别达到了76.59%和54.91%,相较于基线模型,F1分别提升了3.03%和0.77%。 展开更多
关键词 藏医药 命名实体识别 预训练模型 对抗训练 膨胀卷积
在线阅读 下载PDF
基于动态多头注意力机制的藏文语言模型 被引量:6
4
作者 张英 拥措 于韬 《计算机工程与设计》 北大核心 2023年第12期3707-3713,共7页
针对预训练过程中大规模训练语料句子长度跨度较大、特征数量不定的情况,提出一种基于动态多头注意力机制的藏文ALBERT语言模型。在训练过程中根据句子的词数动态获得注意力机制的头数,使语言模型可以捕获重要的特征信息,在藏文公开数据... 针对预训练过程中大规模训练语料句子长度跨度较大、特征数量不定的情况,提出一种基于动态多头注意力机制的藏文ALBERT语言模型。在训练过程中根据句子的词数动态获得注意力机制的头数,使语言模型可以捕获重要的特征信息,在藏文公开数据集TNCC上进行验证。实验结果表明,改进后的预训练模型能够动态学习句子中的重要特征,在目前的TNCC文本分类任务上F1值均取得最优,其长文本分类及短文本分类任务的Macro F1值分别为73.23%、64.47%。 展开更多
关键词 注意力机制 动态注意力头数 藏文 预训练语言模型 文本分类 卷积神经网络 自然语言处理
在线阅读 下载PDF
基于编码器-解码器架构的藏医药文本实体关系联合抽取
5
作者 高兴 拥措 《高原科学研究》 CSCD 2024年第4期115-128,共14页
在藏医药领域,准确提取医学文本中的医学实体及其关系并结构化为三元组,对于构建藏医药知识图谱具有重要意义。然而,现有方法主要依赖通用预训练模型处理藏医药文本,这些模型未能充分覆盖藏医药领域的专业术语,且在泛化性和鲁棒性方面... 在藏医药领域,准确提取医学文本中的医学实体及其关系并结构化为三元组,对于构建藏医药知识图谱具有重要意义。然而,现有方法主要依赖通用预训练模型处理藏医药文本,这些模型未能充分覆盖藏医药领域的专业术语,且在泛化性和鲁棒性方面存在不足。为此,文章提出了一种新型模型,该模型基于编码器-解码器架构,并融合了指针机制。在编码阶段,BERT和GloVe被用于生成丰富的嵌入表示,这些表示经过融合,增强了模型对医学领域文本的理解力;在解码阶段,通过将Transformer解码器和指针机制结合,模型直接生成与实体和关系相关的结构化信息。此外,文章通过引入“相似跨度”的概念和相应的惩罚性训练策略,进一步增强了模型识别实体的能力。通过在CMeIE-V2和藏医药数据集TibetanAI_TMDisRE_v1.0上进行广泛实验,并与基线模型进行对比,验证了文章模型的卓越性能和鲁棒性。 展开更多
关键词 编码器-解码器架构 指针机制 藏医药文本 实体关系联合抽取
在线阅读 下载PDF
基于藏文Albert预训练语言模型的图采样与聚合实体关系抽取
6
作者 于韬 尼玛次仁 +1 位作者 拥措 尼玛扎西 《中文信息学报》 CSCD 北大核心 2022年第10期63-72,共10页
实体关系抽取任务是对句子中实体对间的语义关系进行识别。该文提出了一种基于Albert预训练语言模型结合图采样与聚合算法(Graph Sampling and Aggregation,GraphSAGE)的实体关系抽取方法,并在藏文实体关系抽取数据集上实验。该文针对... 实体关系抽取任务是对句子中实体对间的语义关系进行识别。该文提出了一种基于Albert预训练语言模型结合图采样与聚合算法(Graph Sampling and Aggregation,GraphSAGE)的实体关系抽取方法,并在藏文实体关系抽取数据集上实验。该文针对藏文句子特征表示匮乏、传统藏文实体关系抽取模型准确率不高等问题,提出以下方案:①使用预先训练的藏文Albert模型获得高质量的藏文句子动态词向量特征;②使用提出的图结构数据构建与表示方法生成GraphSAGE模型的输入数据,并通过实验证明了该方法的有效性;③借鉴GraphSAGE模型的优势,利用其图采样与聚合操作进行关系抽取。实验结果表明,该文方法有效提高了藏文实体关系抽取模型的准确率,且优于基线实验效果。 展开更多
关键词 藏文 实体关系抽取 Albert GraphSAGE
在线阅读 下载PDF
基于藏文字符感知的文本预训练模型方法研究
7
作者 洛桑嘎登 尼玛扎西 《计算机工程与应用》 2024年第21期127-133,共7页
目前藏文预训练模型主要使用音节作为藏文单词表示。采用音节嵌入构建藏文单词表示,会存在藏文单词表示不完整且鲁棒性不高的问题。为了应对这一挑战,提出了一个名为藏文字符感知的预训练模型,该模型融合藏文字符、字丁和音节三个维度... 目前藏文预训练模型主要使用音节作为藏文单词表示。采用音节嵌入构建藏文单词表示,会存在藏文单词表示不完整且鲁棒性不高的问题。为了应对这一挑战,提出了一个名为藏文字符感知的预训练模型,该模型融合藏文字符、字丁和音节三个维度的特征,从藏文更细粒度的信息表征藏文单词特征。利用原始数据集和对抗性拼写错误测试集,评估了所提出的方法在藏文自动分词和命名实体识别任务上的性能。实验结果表明,该方法可以同时提高藏文预训练语言模型的性能和鲁棒性。 展开更多
关键词 藏文 预训练模型 字符感知
在线阅读 下载PDF
面向社交媒体的藏文图文多字体检测与识别研究
8
作者 拥措 龙炳鑫 +2 位作者 拉毛杰 仁青东主 尼玛扎西 《高原科学研究》 2023年第4期76-85,共10页
社交媒体为大众沟通交流与信息传播提供了更为便捷的平台。文章针对当前社交媒体中藏文图文背景复杂、多字体、字体混排和版式多样等特点,构建了社交媒体藏文图文识别数据集,提出一种融合PSENET和CRNN(卷积循环神经网络)的端到端检测识... 社交媒体为大众沟通交流与信息传播提供了更为便捷的平台。文章针对当前社交媒体中藏文图文背景复杂、多字体、字体混排和版式多样等特点,构建了社交媒体藏文图文识别数据集,提出一种融合PSENET和CRNN(卷积循环神经网络)的端到端检测识别算法。该算法利用PSENET进行多角度的文本检测,再结合基于多头注意力机制的CRNN模型进行文字识别。实验结果表明,检测率和多字体识别率分别达到了95.7%和84.5%,相较于无预训练模型和CTC(连接时序分类)识别模型,准确率分别提高了34.6%和4.14%。表明该方法在解决社交媒体中藏文图文多字体识别问题上具有较好的实用价值和应用前景。 展开更多
关键词 社交媒体 藏文 多字体 文字识别
在线阅读 下载PDF
基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取
9
作者 于韬 拥措 +1 位作者 高兴 尼玛扎西 《中文信息学报》 2024年第3期65-74,83,共11页
实体关系联合抽取任务旨在识别命名实体的同时可抽取实体间的语义关系。该文提出了一种基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取方法,针对基于序列标注的联合抽取方法中标注策略的局限性及特征单一、模型学习能力有限的问... 实体关系联合抽取任务旨在识别命名实体的同时可抽取实体间的语义关系。该文提出了一种基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取方法,针对基于序列标注的联合抽取方法中标注策略的局限性及特征单一、模型学习能力有限的问题,提出以下解决方案:①使用嵌套实体标注策略突破原有标注方法的局限;②使用类别特征静态融合、多特征动态融合方法及奖惩机制分别用于特征增强及模型优化。实验结果表明,该文方法提升了藏医药领域联合抽取模型的效果,模型最终的F 1值为79.23%。同时,为了证明该文模型的鲁棒性及有效性,还在SKE及NYT领域数据上进行了相关实验,实验结果验证该模型的有效性,且优于基线方法。 展开更多
关键词 藏医药 实体关系 联合抽取 多特征融合 奖惩机制
在线阅读 下载PDF
基于预训练的藏医药实体关系抽取
10
作者 周青 拥措 +1 位作者 拉毛东只 尼玛扎西 《中文信息学报》 2024年第8期76-83,共8页
藏医药领域的文本主要以非结构化形式保存,藏医药文本的信息抽取对挖掘藏医药的知识有重要作用。针对现有藏文实体关系抽取模型语义表达能力差、嵌套实体抽取准确率低的问题,该文介绍了一种基于预训练模型的实体关系抽取方法,使用Tibeta... 藏医药领域的文本主要以非结构化形式保存,藏医药文本的信息抽取对挖掘藏医药的知识有重要作用。针对现有藏文实体关系抽取模型语义表达能力差、嵌套实体抽取准确率低的问题,该文介绍了一种基于预训练模型的实体关系抽取方法,使用TibetanAI_ALBERT_v2.0预训练语言模型,使得模型更好地识别实体,使用Span方法解决实体嵌套问题。在Dropout的基础上,增加了一个KL散度损失函数项,提升了模型的泛化能力。在TibetanAI_TMIE_v1.0藏医药数据集上进行了实验,实验结果表明,精确率、召回率和F1值分别达到了84.5%、80.1%和82.2%,F1值较基线提升了4.4个百分点,实验结果证明了该文方法的有效性。 展开更多
关键词 藏医药 实体关系抽取 预训练语言模型
在线阅读 下载PDF
一种多方法融合的藏语情感词典构建方法
11
作者 才让东知 尼玛扎西 +1 位作者 达瓦追玛 道吉扎西 《高原科学研究》 2024年第2期96-105,共10页
深度学习在藏语情感分析领域备受关注,相较于传统机器学习方法其表现更出色。然而,构建藏语情感词典仍面临着挑战,如词汇量不足、过度依赖机器翻译系统、词典匹配源单一、缺少口语情感词典等。为解决上述问题,文章提出了一种多方法融合... 深度学习在藏语情感分析领域备受关注,相较于传统机器学习方法其表现更出色。然而,构建藏语情感词典仍面临着挑战,如词汇量不足、过度依赖机器翻译系统、词典匹配源单一、缺少口语情感词典等。为解决上述问题,文章提出了一种多方法融合的藏语情感词典构建方法。首先,统计并分析已有情感词标注规则后提出了一种藏语情感词的标注规则作为情感词分类的主要依据;其次,提出了一种多词典匹配的藏语情感词典构建方法构建了藏语基准情感词典,为了扩大基准情感词典的规模,利用SO-PMI和基于word2vec词向量相似度扩充方法对基准词典进行词汇扩充,并且利用藏语3大方言的口语词典经人工筛选后构建了藏语口语情感词典;然后,将基准词典和扩充词典合并去重后得到了《藏语书面语与口语情感词典》;最后,为了证明本文方法的可行性和所构建词典的可用性而进行了藏语情感词典性能评估实验;实验中准确率、召回率、F值分别为60.80%、90.31%、72.67%,达到了较好的应用水平,验证了多方法融合的藏语情感词典构建方法的可行性。 展开更多
关键词 藏语 SO-PMI 情感词典 多词典匹配 扩充词典
在线阅读 下载PDF
基于领域术语词典和句式框架的藏汉机器翻译领域数据增强方法研究
12
作者 格桑加措 尼玛扎西 +2 位作者 嘎玛扎西 次仁白玛 步寅硕 《高原科学研究》 2024年第3期92-101,132,共11页
藏汉机器翻译系统在新闻、时政等领域已经取得了显著的翻译效果,这主要归功于建立了相对充足的双语句对。然而,现有藏汉双语语料中存在较大的领域偏差问题,藏医、佛学等领域的数据极度稀缺,导致藏汉翻译模型在处理这些低资源领域句对时... 藏汉机器翻译系统在新闻、时政等领域已经取得了显著的翻译效果,这主要归功于建立了相对充足的双语句对。然而,现有藏汉双语语料中存在较大的领域偏差问题,藏医、佛学等领域的数据极度稀缺,导致藏汉翻译模型在处理这些低资源领域句对时面临着领域词汇稀缺和翻译困难的挑战。为了解决这一问题,充分利用现有领域术语双语词典,提出了一种基于词典结合特定领域上下文语义关系的翻译质量提升方法,并应用于传统藏医药领域。首先,收集并建立了包含9166对词条的藏医领域术语双语词典,并利用该词典扩充低资源领域的数据,以提高翻译系统对于特定领域术语的覆盖率;其次,将词典中的词对直接添加到已有句对中、领域词典中的词来替换原有句对中的词两种方式进行数据扩充,以验证词典扩充的领域翻译性能;最后,考虑到领域特定句式信息对于翻译的重要性,通过分析特定领域的语境和语义关系,提出引入特定领域上下文句式框架来优化特殊领域的翻译性能,在传统藏医药领域进行测试。实验结果表明,在利用词典进行数据扩充后,传统藏医药领域的BLEU值从0提升到4.59,且文章提出的领域句式框架方法,仅构造5条句式框架,就能使BLEU值最高提升至6.32,这为解决低资源领域翻译问题提供了新的思路和方法。 展开更多
关键词 藏汉机器翻译 领域数据不平衡 领域句式框架 术语双语词典
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部