期刊文献+
共找到72篇文章
< 1 2 4 >
每页显示 20 50 100
基于DAN与FastText的藏文短文本分类研究 被引量:1
1
作者 李果 陈晨 +1 位作者 杨进 群诺 《计算机科学》 CSCD 北大核心 2024年第S01期103-107,共5页
随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行... 随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行无监督训练获得预训练的藏文音节向量集,使用预训练的音节向量集将藏文短文本信息转化为音节向量,把音节向量送入DAN(Deep Averaging Networks)网络并在输出阶段融合经过FastText网络训练的句向量特征,最后通过全连接层和softmax层完成分类。在公开的TNCC(Tibetan News Classification Corpus)新闻标题数据集上所提模型的Macro-F1是64.53%,比目前最好评测结果TiBERT模型的Macro-F1得分高出2.81%,比GCN模型的Macro-F1得分高出6.14%,融合模型具有较好的藏文短文本分类效果。 展开更多
关键词 藏文短文本分类 特征融合 深度平均网络 快速文本
在线阅读 下载PDF
CINO-TextGCN:融合CINO与TextGCN的藏文文本分类模型研究 被引量:2
2
作者 李果 杨进 陈晨 《高原科学研究》 CSCD 2024年第1期121-129,共9页
为提高藏文新闻文本分类准确性,文章提出一种融合少数民族语言预训练模型(Chinese Minority Pr-etrained Language Model,CINO)和图卷积神经网络模型(Text Graph Convolutional Networks,TextGCN)的方法,即CINO-TextGCN模型。为有效评... 为提高藏文新闻文本分类准确性,文章提出一种融合少数民族语言预训练模型(Chinese Minority Pr-etrained Language Model,CINO)和图卷积神经网络模型(Text Graph Convolutional Networks,TextGCN)的方法,即CINO-TextGCN模型。为有效评测该模型对藏文文本的分类性能,自建了较大规模和较高质量的藏文新闻文本公开数据集TNEWS(https://github.com/LG2016/CINO-TextGCN),通过实验发现,CINO-Text-GCN在公开数据集TNCC上的准确率为74.20%,在TNEWS上为83.96%。因此,该融合模型能够较好地捕捉到藏文文本语义,提升藏文文本分类性能。 展开更多
关键词 藏文 图卷积神经网络 融合模型 新闻文本 文本分类
在线阅读 下载PDF
完全端到端的藏语安多方言语声合成
3
作者 张维昭 李俊帜 《应用声学》 北大核心 2025年第5期1251-1262,共12页
目前藏语语声合成研究多面向卫藏方言,而对安多和康方言研究相对较少。在分析藏文特点的基础上,该文首先设计并构建一个大规模标准安多方言语声合成语料库(TACSS),总时长为18.6 h。然后,设计了基于计算机可识别机读音标的SAMPA-AT和基... 目前藏语语声合成研究多面向卫藏方言,而对安多和康方言研究相对较少。在分析藏文特点的基础上,该文首先设计并构建一个大规模标准安多方言语声合成语料库(TACSS),总时长为18.6 h。然后,设计了基于计算机可识别机读音标的SAMPA-AT和基于藏文构件的两种字素到音素(G2P)转写方案。最后,采用完全端到端语声合成模型VITS,实现了藏语安多方言的语声合成。与此同时,该文还比较了基于SAMPA-AT和基于藏文构件的两种G2P转写方案的优劣。实验结果表明,与两阶段语声合成模型相比,VITS在藏语安多方言语声合成任务上具有更好的表现。通过采用基于藏文构件的转写方案,该文提出的完全端到端藏语安多方言语声合成模型平均意见得分最优值为4.59。 展开更多
关键词 语声合成 藏语安多方言 端到端 语料库 藏文文本转写
在线阅读 下载PDF
面向新闻文本的汉藏新词抽取及分析 被引量:1
4
作者 庞仙 陈波 赵小兵 《北京大学学报(自然科学版)》 北大核心 2025年第1期45-52,共8页
提出一种有效的面向新闻文本的无监督新词抽取方法。该方法通过结合无监督的TopWORDS算法和分词工具PKUSEG,辅助启发式词语抽取方法,实现从汉文和藏文新闻文本中抽取年度新词,共抽取到2022年度汉文新词606个,藏文新词664个。该方法能够... 提出一种有效的面向新闻文本的无监督新词抽取方法。该方法通过结合无监督的TopWORDS算法和分词工具PKUSEG,辅助启发式词语抽取方法,实现从汉文和藏文新闻文本中抽取年度新词,共抽取到2022年度汉文新词606个,藏文新词664个。该方法能够减少人工筛选工作量,并显著地提高新词抽取的效率。与《中国语言生活状况报告2023》发布的2022年度汉文新词相比,该方法抽取的新词在数量和语种方面优势明显。此外,对汉文和藏文新词进行对齐,并从新词的发展和使用状况角度开展案例分析。 展开更多
关键词 新闻文本 汉文 藏文 新词抽取
在线阅读 下载PDF
融合降噪微调与图注意力机制的藏文长文本分类
5
作者 敬容 万福成 +2 位作者 黄锐 于洪志 马宁 《计算机工程与科学》 北大核心 2025年第6期1133-1140,共8页
在藏文长文本分类任务中,长距离依赖问题尤为突出。同时,多语言预训练模型在处理藏文文本分类任务时也存在一定的偏差。针对以上问题,基于预训练语言模型CINO-Large,提出融合降噪微调与图注意力机制的藏文长文本分类方法。首先,在CINO-L... 在藏文长文本分类任务中,长距离依赖问题尤为突出。同时,多语言预训练模型在处理藏文文本分类任务时也存在一定的偏差。针对以上问题,基于预训练语言模型CINO-Large,提出融合降噪微调与图注意力机制的藏文长文本分类方法。首先,在CINO-Large中引入不完全信任损失函数In-trust,通过任务适应性损失增强模型在下游任务中的泛化能力。其次,在图结构建模中引入滑动窗口和线性分类,选择性增加文档与文档边缘,提高节点间的特征区分度。最后,利用图注意力机制GAT捕捉不同节点在图中的重要性,完成藏文长文本分类任务。在TNCC中的新闻长文本上,由所提方法构建的模型的分类准确率达到了71.66%,与预训练语言模型CINO-Large相比,其准确率、精确度和F1分数分别提高了1.77%、2.67%和2.03%,在部分分类困难的子类别上,模型的F1分数能显著提升20%左右。 展开更多
关键词 预训练模型 降噪微调 图注意力机制 藏文长文本分类
在线阅读 下载PDF
不同基本单元信息融合的藏文短文本摘要生成
6
作者 夏吾吉 黄鹤鸣 +2 位作者 樊永红 更藏措毛 范玉涛 《计算机工程》 北大核心 2025年第6期174-183,共10页
藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,... 藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,但由于藏文受分词技术的限制,直接以词作为文本摘要生成的基本单元,对性能的影响较大。针对上述问题,构建包含10523条文本-摘要对的多领域藏文短文本摘要数据集TB-SUM,在研究藏文文本构成单元的基础上,提出适用于藏文文本摘要生成的不同基本单元融合方法,并构建融合不同基本单元的藏文文本摘要生成模型Fusion_GloVe_GRU_Atten,利用全局词向量表示(GloVe)模块实现藏文文本向量化后通过双向门控循环单元(Bi-GRU)模块对输入向量进行编码,利用注意力机制获取输入向量的完整语义信息,使解码器更加关注与当前单词相关的编码器输出,同时将GRU作为解码器生成藏文摘要。在数据集TB-SUM和Ti-SUM上的实验结果表明,以音节和词的融合作为模型训练的基本单元,以音节作为测试的基本单元时,Fusion_GloVe_GRU_Atten模型生成短文本摘要效果更好,能得到更高的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数。 展开更多
关键词 基本单元 信息融合 词向量 数据集构建 藏文短文本摘要生成
在线阅读 下载PDF
敦煌藏文发愿文P.T.16-2+IOL Tib J 751文本分析
7
作者 索南才旦 《敦煌研究》 北大核心 2025年第2期126-134,共9页
敦煌藏文写本P.T.16-2和IOL Tib J 751是吐蕃在河州境内修建德噶玉采会盟寺后各地大行军衙及高级官吏为庆祝大和盟、会盟寺开光仪式而所献呈的《发愿文汇编》。通过文本分析发现,河州大行军衙境内的德噶或大夏是吐蕃先后同唐、回鹘以及... 敦煌藏文写本P.T.16-2和IOL Tib J 751是吐蕃在河州境内修建德噶玉采会盟寺后各地大行军衙及高级官吏为庆祝大和盟、会盟寺开光仪式而所献呈的《发愿文汇编》。通过文本分析发现,河州大行军衙境内的德噶或大夏是吐蕃先后同唐、回鹘以及南诏等三国举行会盟后,告知所议盟文内容的重要地点,因而其他被世人称之为德噶玉采会盟川。在德噶玉采会盟川修建会盟寺,标志着吐蕃长期对外征战的终结和大规模推行兴佛运动的开始。P.T.16-2+IOL Tib J 751资料可分为两种,第一种是唐蕃会盟期间的藏汉文盟文,第二种是以《圣三聚大乘经》为主的佛教经典。 展开更多
关键词 敦煌藏文 发愿文 P.T.16-2+IOL Tib J 751 分析
在线阅读 下载PDF
基于TiBERT标签修复交替网络的藏语语言理解方法
8
作者 沈淑涛 高红梅 贾承燊 《高原科学研究》 2025年第3期108-119,共12页
预训练语言模型在下游自然语言理解任务中表现出色,能够从大规模无标注文本数据中自动学习通用语法和语义特征。然而,现有的大多数预训练语言模型和跨语言模型尚未覆盖藏语等少数民族语言,导致其在相关语言任务上的表现有限。近年来,以S... 预训练语言模型在下游自然语言理解任务中表现出色,能够从大规模无标注文本数据中自动学习通用语法和语义特征。然而,现有的大多数预训练语言模型和跨语言模型尚未覆盖藏语等少数民族语言,导致其在相关语言任务上的表现有限。近年来,以SimCSE为代表的对比学习方法通过构建正负样本对来实现无监督表征学习。然而,简单的样本构造策略可能会导致语义相近的正对数据被错误地划分为负对数据。针对上述问题,文章提出了一种基于BERT的标签修复交替学习网络。该网络通过交替训练两个相同的BERT模型对藏语句子进行编码,并基于编码结果动态优化正负样本划分策略,从而获得更具区分性的特征表示。在藏语文本相似度匹配数据集上的实验评估结果显示,所提方法在处理相似对与错负对时具有较强的清理能力。进一步地,在文本分类和文本相似度匹配两个下游理解任务上的实验验证了该方法的优越性。最后,消融实验也证实了各个模块的有效性,整体上体现了所提方法的综合优势。 展开更多
关键词 预训练模型 藏语文本分类 藏语相似度匹配 交替学习
在线阅读 下载PDF
面向自然语言处理的藏文文字识别研究进展
9
作者 道吉扎西 仁青东主 +2 位作者 邢沛然 嘎玛扎西 尼玛扎西 《高原科学研究》 2025年第2期92-104,共13页
藏文文字识别在文本高速录入、数字化保护及智慧城市建设等方面具有重要的应用价值。为了推动藏文文字识别技术的研究与发展,文章系统综述了藏文文字识别的关键算法,并对其研究现状与未来趋势进行了深入探讨。首先,介绍了藏文文字识别... 藏文文字识别在文本高速录入、数字化保护及智慧城市建设等方面具有重要的应用价值。为了推动藏文文字识别技术的研究与发展,文章系统综述了藏文文字识别的关键算法,并对其研究现状与未来趋势进行了深入探讨。首先,介绍了藏文文字识别的基本概念,结合其字体和书写风格等特点,将识别任务划分为现代印刷体藏文文字识别、手写体藏文文字识别、自然场景藏文文字识别和藏文古籍文献识别等4种类型,并分析了各类任务的挑战与研究背景。其次,详细梳理了传统方法和深度学习方法在藏文文字识别中的应用和进展,重点探讨了深度学习方法如何推动识别性能的显著提升,并分析了该领域研究范式的转变过程。此外,对当前主流的藏文文字识别数据集进行了归纳与分析。最后,基于现有研究的局限性,总结了各类藏文文字识别任务中存在的不足,并对未来的研究方向提出了展望。 展开更多
关键词 图像识别 藏文 文字识别 深度学习 数据集
在线阅读 下载PDF
基于Transformer和生成对抗网络的藏文生成图像方法
10
作者 黄安 华却才让 +2 位作者 环科尤 张瑞 杨启辉 《高原科学研究》 2025年第2期113-121,共9页
针对藏文生成图像领域资源稀缺以及生成的图像语义一致性低和细节模糊等问题,提出了一种基于Transformer和生成对抗网络的藏文生成图像方法。该方法利用Transformer架构训练不同粒度文本编码器以提取藏文特征,之后将文本特征与随机采样... 针对藏文生成图像领域资源稀缺以及生成的图像语义一致性低和细节模糊等问题,提出了一种基于Transformer和生成对抗网络的藏文生成图像方法。该方法利用Transformer架构训练不同粒度文本编码器以提取藏文特征,之后将文本特征与随机采样得到的噪声经过仿射变化进行特征融合,并输入卷积层生成图像。经实验,在自建的CUB-BO数据集上,IS值和FID值分别达到了5.22和14.43,展现出较高的藏文生成图像能力。此外,对比实验发现,采用音节切分策略处理藏文文本相较于子词切分生成的图像在细节清晰度和语义一致性上表现更为出色。 展开更多
关键词 藏文生成图像 生成对抗网络(GAN) 音节切分
在线阅读 下载PDF
基于GraphSAGE网络的藏文短文本分类研究 被引量:1
11
作者 敬容 杨逸民 +3 位作者 万福成 国旗 于洪志 马宁 《中文信息学报》 CSCD 北大核心 2024年第9期58-65,共8页
文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模... 文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模的基础上,融合文档特征,采用二元分类模型动态网络构建“文档-文档”边,以充分挖掘短文本的全局特征,增加滑动窗口,减少模型的计算复杂度并寻找最优窗口取值。其次,针对藏文短文本的音节稀疏性,首次引入GraphSAGE作为基础模型,并探究不同聚合方式在藏文短文本分类上的性能差异。最后,为捕获节点间关系的异质性,对邻居节点进行特征加权再平均池化以增强模型的特征提取能力。在TNCC标题文本数据集上,该文模型的分类准确率达到了62.50%,与传统GCN、原始GraphSAGE和预训练语言模型CINO相比,该方法在分类准确率上分别提高了2.56%、1%和2.4%。 展开更多
关键词 图神经网络 藏文文本分类 TNCC数据集
在线阅读 下载PDF
基于提示学习的低资源藏文文本分类 被引量:3
12
作者 安波 赵维纳 龙从军 《中文信息学报》 CSCD 北大核心 2024年第2期70-78,共9页
文本分类是自然语言处理的基础任务之一。标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求。为解决这个问题,该文在大规模预训练语言模型的基础上,利用... 文本分类是自然语言处理的基础任务之一。标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求。为解决这个问题,该文在大规模预训练语言模型的基础上,利用提示学习实现低资源藏文文本分类,即使用不同的藏文预训练语言模型和提示模板开展藏文文本分类实验。实验结果表明,通过设计合理的提示模板等方式,提示学习能够在训练数据不足的情况下提升藏文文本分类的效果(48.3%),初步验证了提示学习在民族语言处理中的价值和潜力。但是,实验结果也反映出提示学习模型在处理部分类别时性能较差,且藏文预训练语言模型也有进一步提升空间。 展开更多
关键词 藏文文本分类 预训练语言模型 提示学习 小样本学习
在线阅读 下载PDF
基于深度学习的梵藏文本识别
13
作者 才让叁智 仁增多杰 +1 位作者 多拉 索南尖措 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第6期1059-1066,共8页
[目的]梵藏文本识别是自动排序、词法分析和自动校对等研究的重要前期工作环节.当前基于规则的梵藏文本识别方法中存在无法有效识别短梵文词语等诸多问题.[方法]在自建的梵藏文本识别数据集上,采用基于双向长短时记忆网络和自注意力的... [目的]梵藏文本识别是自动排序、词法分析和自动校对等研究的重要前期工作环节.当前基于规则的梵藏文本识别方法中存在无法有效识别短梵文词语等诸多问题.[方法]在自建的梵藏文本识别数据集上,采用基于双向长短时记忆网络和自注意力的梵藏文本识别方法、基于预训练语言模型CINO的梵藏文本识别方法和基于规则的梵藏文本识别方法之间进行实验对比,并分析它们的识别结果,进而选出最优的梵藏文本识别方法.[结果]基于双向长短时记忆网络和自注意力机制的梵藏文本识别模型的宏准确率、召回率和F1值分别达到了98.09%、99.22%和98.65%,其效果优于多语言预训练模型CINO和其他3种基于规则的方法.[结论]基于skip-gram、CBOW和GloVe的藏文字符表示模型使用相同的小规模、无重样的训练数据集时,CBOW的字符表示效果优于其他两者;训练数据相同的情况下,基于双向长短时记忆网络和自注意力机制的梵藏文本识别模型优于多语言预训练模型CINO,同时,也优于基于规则的梵藏文本识别模型. 展开更多
关键词 藏文信息处理 梵藏文本识别 字符表示 STTRM_BS模型
在线阅读 下载PDF
TN-SUM:藏文文本摘要数据集
14
作者 黄硕 闫晓东 田金超 《中国科学数据(中英文网络版)》 CSCD 2024年第4期59-67,共9页
是自然语言处理领域的一个重要研究方向,有助于解决信息过载、提高文本数据的可用性和可理解性的一门技术。藏语是中国少数民族语言之一,属于低资源语言,拥有自己独特的文字和语法结构。与中英文这些主要语言相比,藏文在自动文本摘要领... 是自然语言处理领域的一个重要研究方向,有助于解决信息过载、提高文本数据的可用性和可理解性的一门技术。藏语是中国少数民族语言之一,属于低资源语言,拥有自己独特的文字和语法结构。与中英文这些主要语言相比,藏文在自动文本摘要领域的研究仍然相对滞后,主要原因之一是因为缺乏大规模的可用数据集。为了弥补这一缺失,使用爬虫的方法从各大藏文新闻门户网站抓取了2万篇真实藏文新闻,每篇新闻使用标题作为摘要,创建了一个包含丰富、多样的藏文文本摘要数据集TN-SUM,并寻找了10位藏语作为母语的学生对数据进行打分,以此对数据进行质量控制和评估,进而满足科研人员的需要,来推动藏文在自动文本摘要领域的发展。 展开更多
关键词 自动文本摘要 数据集 藏文新闻 标题
在线阅读 下载PDF
古籍里的身体史:浅谈藏医体质学的发展及特点 被引量:1
15
作者 南兴加 仁青姐 +3 位作者 加羊土旦 格知加 央嘎 仁青加 《医学与哲学》 北大核心 2024年第3期74-77,共4页
藏医体质学在藏医药学文献中占有重要的比重。主要以历史为主线,分别以吐蕃时期的古籍文献《胸腔伤术论》《碧吉黄皮卷》《月王药诊》和佛教后弘时期的《二十支医学论典》,以及12世纪成书的《四部医典》等文献中所记载的不同体质学文献... 藏医体质学在藏医药学文献中占有重要的比重。主要以历史为主线,分别以吐蕃时期的古籍文献《胸腔伤术论》《碧吉黄皮卷》《月王药诊》和佛教后弘时期的《二十支医学论典》,以及12世纪成书的《四部医典》等文献中所记载的不同体质学文献内容为研究对象,运用归纳法和对比法来探讨藏医体质学发展历程和不同体质分类方法,阐述了藏医学不同发展时期对体质的认知与文化结构差异等,即藏医体质学的分类法由三分法、四分法、五分法以及七分法的不同历程和独特的理论依据。 展开更多
关键词 藏医体质学 古籍 体质分类法
在线阅读 下载PDF
结合数据增强方法的藏文预训练语言模型 被引量:1
16
作者 色差甲 班马宝 +1 位作者 才让加 柔特 《中文信息学报》 CSCD 北大核心 2024年第9期66-72,共7页
最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符... 最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符的藏文文本语料;然后在UniLM模型的基础上,利用藏文文本特征的数据增强方法和预训练技术相结合的方法预训练藏文语言模型。实验表明,该文方法在藏文La格例句分类和藏文文本分类等四个下游任务中获得显著效果。 展开更多
关键词 藏文预训练语言模型 文本数据增强方法 UniLM模型
在线阅读 下载PDF
旃陀罗语法及其藏译历史初探
17
作者 白玛央金 《西藏大学学报(社会科学版)》 CSSCI 北大核心 2024年第1期40-48,共9页
根据西藏自治区梵文贝叶经写本目录(罗炤,王森,罗睺罗)、剑桥大学梵文写本目录以及散见于各学者专著论文中的写本信息,对目前有记录的旃陀罗语法(Cāndravyākaraṇa)写本保存情况进行综合分析,初步梳理了旃陀罗语法的基本谱系(四层主... 根据西藏自治区梵文贝叶经写本目录(罗炤,王森,罗睺罗)、剑桥大学梵文写本目录以及散见于各学者专著论文中的写本信息,对目前有记录的旃陀罗语法(Cāndravyākaraṇa)写本保存情况进行综合分析,初步梳理了旃陀罗语法的基本谱系(四层主干文献和附属文献)。并以其作为标准,梳理出旃陀罗语法文献的藏译情况。文章还对藏译文献序跋中记载的译者、时间、地点等重要信息进行提取,以求复原出旃陀罗语法在藏地的翻译与传播历史。 展开更多
关键词 旃陀罗语法 梵文写本 藏译历史
在线阅读 下载PDF
基于编码器-解码器架构的藏医药文本实体关系联合抽取
18
作者 高兴 拥措 《高原科学研究》 CSCD 2024年第4期115-128,共14页
在藏医药领域,准确提取医学文本中的医学实体及其关系并结构化为三元组,对于构建藏医药知识图谱具有重要意义。然而,现有方法主要依赖通用预训练模型处理藏医药文本,这些模型未能充分覆盖藏医药领域的专业术语,且在泛化性和鲁棒性方面... 在藏医药领域,准确提取医学文本中的医学实体及其关系并结构化为三元组,对于构建藏医药知识图谱具有重要意义。然而,现有方法主要依赖通用预训练模型处理藏医药文本,这些模型未能充分覆盖藏医药领域的专业术语,且在泛化性和鲁棒性方面存在不足。为此,文章提出了一种新型模型,该模型基于编码器-解码器架构,并融合了指针机制。在编码阶段,BERT和GloVe被用于生成丰富的嵌入表示,这些表示经过融合,增强了模型对医学领域文本的理解力;在解码阶段,通过将Transformer解码器和指针机制结合,模型直接生成与实体和关系相关的结构化信息。此外,文章通过引入“相似跨度”的概念和相应的惩罚性训练策略,进一步增强了模型识别实体的能力。通过在CMeIE-V2和藏医药数据集TibetanAI_TMDisRE_v1.0上进行广泛实验,并与基线模型进行对比,验证了文章模型的卓越性能和鲁棒性。 展开更多
关键词 编码器-解码器架构 指针机制 藏医药文本 实体关系联合抽取
在线阅读 下载PDF
基于栏目的藏文网页文本自动分类方法 被引量:7
19
作者 胥桂仙 向春丞 +2 位作者 翁彧 赵小兵 杨国胜 《中文信息学报》 CSCD 北大核心 2011年第4期20-23,共4页
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别... 该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。 展开更多
关键词 藏文信息处理 文本分类 藏文网页分类
在线阅读 下载PDF
基于预训练模型和图神经网络的藏文文本分类研究 被引量:10
20
作者 胥桂仙 刘兰寅 +1 位作者 张廷 董玉双 《东北师大学报(自然科学版)》 CAS 北大核心 2023年第1期52-64,共13页
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实... 在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model,CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks,GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率. 展开更多
关键词 藏文文本分类 图卷积神经网络 预训练语言模型 低资源文本分类
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部