期刊文献+
共找到51篇文章
< 1 2 3 >
每页显示 20 50 100
基于迭代式回译策略的藏汉机器翻译方法研究 被引量:8
1
作者 慈祯嘉措 桑杰端珠 +2 位作者 孙茂松 周毛先 色差甲 《中文信息学报》 CSCD 北大核心 2020年第11期67-73,83,共8页
该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系... 该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系统,作为起始数据资源,然后结合翻译等效性分类器,利用迭代式回译策略和译文自动筛选机制,实现了稀缺资源条件下提升藏汉神经网络机器翻译性能的有效模型,使最终的模型比基准模型在藏到汉的翻译上有6.7个BLEU值的提升,在汉到藏的翻译上有9.8个BLEU值的提升,证实了迭代式回译策略和平行句对过滤机制在汉藏(藏汉)机器翻译中的有效性。 展开更多
关键词 藏汉 回译 稀缺资源 自动筛选 神经网络
在线阅读 下载PDF
融合单语语言模型的藏汉机器翻译方法研究 被引量:6
2
作者 慈祯嘉措 桑杰端珠 +2 位作者 孙茂松 色差甲 周毛先 《中文信息学报》 CSCD 北大核心 2019年第12期61-66,共6页
由于藏汉平行语料匮乏,导致藏汉神经网络机器翻译效果欠佳,该文提出了一种将藏语单语语言模型融合到藏汉神经网络机器翻译的方法,首先利用神经网络实现藏语单语语言模型,然后使用Transformer实现藏汉神经网络机器翻译模型,最后将藏语单... 由于藏汉平行语料匮乏,导致藏汉神经网络机器翻译效果欠佳,该文提出了一种将藏语单语语言模型融合到藏汉神经网络机器翻译的方法,首先利用神经网络实现藏语单语语言模型,然后使用Transformer实现藏汉神经网络机器翻译模型,最后将藏语单语语言模型融合到藏汉神经网络机器翻译中。实验表明,该方法能显著提升藏汉神经网络机器翻译质量。基线系统藏语到汉语的BLEU值为21.1,汉语到藏语的BLEU值为18.6,融合藏语单语语言模型后,藏语到汉语的BLEU值为24.5,汉语到藏语的BLEU值为23.3,比原有基线系统的BLEU值分别提高了3.4和4.7。 展开更多
关键词 藏语 语言模型 机器翻译 融合 神经网络
在线阅读 下载PDF
基于节点特征增强的信息溯源模型
3
作者 霍宣蓉 肖玉芝 +2 位作者 韩佳新 黄涛 胡泽宇 《复杂系统与复杂性科学》 北大核心 2025年第3期1-10,共10页
针对网络谣言溯源难度大,以信息载体模型和用户特征深度挖掘为切入点,提出了一种节点特征增强的溯源模型,旨在利用深度学习方法获取信息节点的高阶多尺度特征(高阶邻居、邻居状态、不同状态连接结构),并结合SEIR传播机制将节点状态学习... 针对网络谣言溯源难度大,以信息载体模型和用户特征深度挖掘为切入点,提出了一种节点特征增强的溯源模型,旨在利用深度学习方法获取信息节点的高阶多尺度特征(高阶邻居、邻居状态、不同状态连接结构),并结合SEIR传播机制将节点状态学习为信息源(I态)与非信息源(S、E、R态)。首先,利用多种节点中心性指标扩充并丰富节点特征;其次,使用抗噪增强模块对扩充后的节点特征进行重构,并动态学习节点自身及其一阶邻居的特征;再次,使用度量学习方法调整节点特征空间,使得相同状态节点之间的距离缩小,以便区分节点的类别和特性;最后,将节点多维度特征融合并分类,最终确定信息源。实验结果表明,模型在模拟生成网络和实际网络上的信息溯源均取得相对较好的效果。 展开更多
关键词 节点特征增强 信息溯源 SEIR模型 感染子图 度量学习
在线阅读 下载PDF
基于Transformer和生成对抗网络的藏文生成图像方法
4
作者 黄安 华却才让 +2 位作者 环科尤 张瑞 杨启辉 《高原科学研究》 2025年第2期113-121,共9页
针对藏文生成图像领域资源稀缺以及生成的图像语义一致性低和细节模糊等问题,提出了一种基于Transformer和生成对抗网络的藏文生成图像方法。该方法利用Transformer架构训练不同粒度文本编码器以提取藏文特征,之后将文本特征与随机采样... 针对藏文生成图像领域资源稀缺以及生成的图像语义一致性低和细节模糊等问题,提出了一种基于Transformer和生成对抗网络的藏文生成图像方法。该方法利用Transformer架构训练不同粒度文本编码器以提取藏文特征,之后将文本特征与随机采样得到的噪声经过仿射变化进行特征融合,并输入卷积层生成图像。经实验,在自建的CUB-BO数据集上,IS值和FID值分别达到了5.22和14.43,展现出较高的藏文生成图像能力。此外,对比实验发现,采用音节切分策略处理藏文文本相较于子词切分生成的图像在细节清晰度和语义一致性上表现更为出色。 展开更多
关键词 藏文生成图像 生成对抗网络(GAN) 音节切分
在线阅读 下载PDF
面向语言信息处理的藏语短语及其分类方法研究 被引量:5
5
作者 才藏太 索南才让 才让加 《中文信息学报》 CSCD 北大核心 2018年第9期41-46,共6页
短语作为语言分析的一个层次,占有十分重要的位置。有效的短语分析对降低其后句法分析的难度,缩小句法分析器的搜索空间,提高机器翻译的翻译正确率是很有帮助的。而目前面向信息处理的藏语短语的研究刚刚起步,有待于进一步发展。该文在... 短语作为语言分析的一个层次,占有十分重要的位置。有效的短语分析对降低其后句法分析的难度,缩小句法分析器的搜索空间,提高机器翻译的翻译正确率是很有帮助的。而目前面向信息处理的藏语短语的研究刚刚起步,有待于进一步发展。该文在藏语短语与藏语句子的界线研究的基础上,根据藏语信息处理的特点和要求,按照语法功能和便于计算机自动分析和处理的原则对短语进行分类,并规定了信息处理中藏语短语类别单位的标记代码。 展开更多
关键词 藏语 短语 分类 标记
在线阅读 下载PDF
融合La格虚词语义信息的藏文La格分类模型 被引量:1
6
作者 班玛宝 慈祯嘉措 +1 位作者 张瑞 才让加 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期695-703,共9页
采用深度学习方法实现藏文La格(■)分类是一项具有挑战性和重要研究意义的藏语自然语言处理任务.藏文La格的自动分类更加依赖于上下文语义信息和特征的时序性,该文通过分析La格虚词的用法及语义特征,在设计La格虚词语义信息标记算法的... 采用深度学习方法实现藏文La格(■)分类是一项具有挑战性和重要研究意义的藏语自然语言处理任务.藏文La格的自动分类更加依赖于上下文语义信息和特征的时序性,该文通过分析La格虚词的用法及语义特征,在设计La格虚词语义信息标记算法的基础上,提出一种融合La格虚词语义信息的藏文La格分类模型.该模型首先以每个音节及对应La格虚词或其它音节的语义特征嵌入作为输入,丰富嵌入向量的语义信息,增加输入特征的多样性;然后采用一维卷积融合并学习每个音节及对应La格虚词或其它音节语义信息的局部特征向量,提高卷积层的空间特征学习能力;其次使用双向长短时记忆网络(long short-term memory)(LSTM)学习时序特征,提高时序特征的学习能力;最后使用注意力机制对双向LSTM层每一时刻的输出特征进行加权融合,充分利用每一时刻的输出特征,以提高最终文本表示的特征质量.在TLD藏文La格数据集上的实验结果显示,该模型的分类效果优于基线模型及仅用藏文音节嵌入的模型,在测试集上的分类准确率为93.10%. 展开更多
关键词 自然语言处理 La格虚词 语义信息 神经网络 La格分类
在线阅读 下载PDF
基于藏文音节的图像标题自动生成方法研究 被引量:1
7
作者 华却才让 白颖 +2 位作者 周子琦 才让当知 完么措 《高原科学研究》 CSCD 2024年第3期102-109,共8页
图像标题生成在人机交互、多媒体搜索以及图像自动标注等领域具有广泛的应用前景。文章提出基于藏文音节的图像标题生成方法。首先,Encoder将输入的图像数据通过多层残差卷积层提取图像特征;其次,通过Attention机制来准确获取Encoder中... 图像标题生成在人机交互、多媒体搜索以及图像自动标注等领域具有广泛的应用前景。文章提出基于藏文音节的图像标题生成方法。首先,Encoder将输入的图像数据通过多层残差卷积层提取图像特征;其次,通过Attention机制来准确获取Encoder中的特征向量,进行加权求和,增强特征提取;最后,采用LSTM的解码器对藏文音节特征向量进行解码,生成图像标题。该方法在Flickr8K测试集上和Flickr30K测试集上BLEU_4值分别达到了20.6和24.4,比紧缩格的切分方法分别提高了2.3和4.2。生成的标题语言表达流畅,符合语法规则,能较好地描述图像的核心意义。 展开更多
关键词 图像 标题 藏文音节 注意力机制
在线阅读 下载PDF
藏文词向量相似度和相关性评测集构建 被引量:6
8
作者 才智杰 孙茂松 才让卓玛 《中文信息学报》 CSCD 北大核心 2019年第7期81-87,100,共8页
词向量评测是词向量研究的基础,包括内部评测(intrinsic evaluation)和外部评测(extrinsic evaluations)。外部评测是将得到的词向量应用到具体某个任务中进行评测,是词向量研究的目标。内部评测是通过建立词之间的语义相似度或相关性... 词向量评测是词向量研究的基础,包括内部评测(intrinsic evaluation)和外部评测(extrinsic evaluations)。外部评测是将得到的词向量应用到具体某个任务中进行评测,是词向量研究的目标。内部评测是通过建立词之间的语义相似度或相关性能力的评测集,评价词向量模型的性能,是一种常用的词向量评测方式。该文通过分析英文、汉文词向量评测集构建方法,结合藏文的特点,研究藏文词向量评测集构建方法,构建了用于评价藏文词向量相似度和相关性的评测集TWordSim215和TWordRel215,并分析其有效性。 展开更多
关键词 自然语言处理 藏文 词向量 评测集
在线阅读 下载PDF
基于词性约束的藏文分词策略与算法 被引量:8
9
作者 才让卓玛 才智杰 《中文信息学报》 CSCD 北大核心 2020年第2期33-37,共5页
自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,... 自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,该方法不仅能有效地预防和处理各类歧义现象,而且在藏文未登录词处理方面有较好表现。 展开更多
关键词 分词 词性 未登录词 歧义
在线阅读 下载PDF
一种多基元联合训练的藏文词向量表示方法 被引量:4
10
作者 才智杰 才让卓玛 孙茂松 《中文信息学报》 CSCD 北大核心 2020年第5期44-49,共6页
词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文词向量表示技术的研究对藏文特征分析以及用深度学习技术处理... 词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文词向量表示技术的研究对藏文特征分析以及用深度学习技术处理藏文具有重要意义。该文提出了一种构件、字和词多基元联合训练的藏文词向量表示方法,设计了多基元联合训练藏文词向量的模型TCCWE,并采用内部评测中的词相似度/相关性评价方式验证了其有效性。实验表明,该文提出的藏文词向量表示方法有效,其性能在TWordSim215上提高了3.35%,在TWordRel215上提高了4.36%。 展开更多
关键词 自然语言处理 藏文 神经网络 词向量表示
在线阅读 下载PDF
藏文句子语义块识别方法 被引量:3
11
作者 柔特 色差甲 才让加 《中文信息学报》 CSCD 北大核心 2019年第6期42-49,共8页
语义理解是自然语言理解的一项关键任务,传统上采用以语法为中心的词法和句法分析等技术来解析句义。该文提出了一种以语义块分析藏文句义的新方法,其中藏文语义块识别通过采用Bi-LSTM和ID-CNN两种神经网络构架对该任务进行建模和对比... 语义理解是自然语言理解的一项关键任务,传统上采用以语法为中心的词法和句法分析等技术来解析句义。该文提出了一种以语义块分析藏文句义的新方法,其中藏文语义块识别通过采用Bi-LSTM和ID-CNN两种神经网络构架对该任务进行建模和对比分析。经实验,上述的两种模型在测试数据集上取得了良好的性能表现,F1值平均分别为89%和92%。这种语义块分析和识别技术能够较好地替代词义消歧和语义角色标注等工作。 展开更多
关键词 藏文 语义块 语义分割 语义分析
在线阅读 下载PDF
藏文句义分割方法 被引量:2
12
作者 柔特 色差甲 才让加 《计算机工程》 CAS CSCD 北大核心 2020年第2期286-291,共6页
句子是字或词根据语法规则进行组合的编码,句义分割是句子组合规律的解码问题,即对句义进行解析。在藏文分词后直接进行语义分析,其颗粒度过小,容易出现词语歧义,而以句子为分析单位,则颗粒度过大,不能较好地揭示句子的语义。为此,提出... 句子是字或词根据语法规则进行组合的编码,句义分割是句子组合规律的解码问题,即对句义进行解析。在藏文分词后直接进行语义分析,其颗粒度过小,容易出现词语歧义,而以句子为分析单位,则颗粒度过大,不能较好地揭示句子的语义。为此,提出一种藏文句义分割方法,通过长度介于词语和句子之间的语义块单元进行句义分割。在对句子进行分词和标注的基础上,重新组合分词结果,将句子分割为若干个语义块,并采用空洞卷积神经网络模型对语义块进行识别。实验结果表明,该方法对藏文句义分割的准确率达到94.68%。 展开更多
关键词 句义分割 语义块 语义分析 空洞卷积神经网络 藏文
在线阅读 下载PDF
融合多层级特征表示的多领域谣言早期检测方法
13
作者 黄涛 肖玉芝 +2 位作者 向洁萍 金胜 霍宣蓉 《情报杂志》 北大核心 2025年第4期127-135,共9页
[研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短... [研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短语和句子级特征,构建多层级特征增强的单元门模块以挖掘谣言深层信息。利用该模块构建领域感知特征抽取器,捕获谣言文本的领域特征及偏差,形成多领域与多层级的谣言特征表示,判断是否为谣言。[研究结果/结论]在涵盖9个不同领域的公开数据集上的实验结果表明,该模型的准确率、F1值和AUC值分别达到了92.85%、93.11%和96.96%,能够有效的对多领域谣言进行早期检测。 展开更多
关键词 网络谣言 谣言识别 早期谣言检测 多领域话题 特征增强 领域感知
在线阅读 下载PDF
基于循环卷积神经网络的藏文句类识别 被引量:3
14
作者 柔特 才让加 《中文信息学报》 CSCD 北大核心 2019年第12期76-82,共7页
句子是语言的最小使用单位,句类识别是为了进一步细化句法和句义研究。由于藏文句尾通常没有特殊的标点符号来识别不同句类,因此这一藏文语言特性就变成了一大难题。该文提出了基于语境和功能特征为一体的句子用途分类方案。首先,该文... 句子是语言的最小使用单位,句类识别是为了进一步细化句法和句义研究。由于藏文句尾通常没有特殊的标点符号来识别不同句类,因此这一藏文语言特性就变成了一大难题。该文提出了基于语境和功能特征为一体的句子用途分类方案。首先,该文介绍了文法中藏文句子分类及其特征。其次,收集了大量藏文句子并对其进行了人工标注。最后,采用循环卷积神经网络对藏文句类进行了自动识别。实验表明,该模型对藏文句类识别有较为显著的效果。 展开更多
关键词 藏文句类 循环卷积神经网络 词向量 句类识别
在线阅读 下载PDF
单纯形神经网络综述
15
作者 唐春阳 冶忠林 +1 位作者 白立冰 赵海兴 《计算机学报》 北大核心 2025年第7期1617-1638,共22页
图神经网络依托强大的计算能力在文本分类、节点分类和自然语言处理等领域取得了显著成果,其主要用于处理包含成对关系的图结构数据。然而,现实世界中的网络之间往往存在高阶交互关系,若使用图结构表示这种复杂关系,可能会丢失节点间的... 图神经网络依托强大的计算能力在文本分类、节点分类和自然语言处理等领域取得了显著成果,其主要用于处理包含成对关系的图结构数据。然而,现实世界中的网络之间往往存在高阶交互关系,若使用图结构表示这种复杂关系,可能会丢失节点间的重要信息。最近,单纯形被证明不仅可以编码节点间的成对关系,还可以编码多节点间的高阶交互关系。因此,学者们开始探索如何在单纯形上设计神经网络,并随之提出了众多单纯形神经网络模型。与已有的神经网络综述不同,文中重点分析了单纯形神经网络在处理多元高阶交互关系中的前沿研究及应用。首先总结了近几年单纯形神经网络的发展脉络并介绍了单纯复形、边界矩阵和霍奇拉普拉斯矩阵等基础知识;其次依据构建单纯形神经网络时采用的不同方法对其进行归纳分类,并解释了每类的代表性模型;然后介绍了单纯形神经网络的实际应用及性能分析;最后总结并探讨了单纯形神经网络未来的研究方向。本文针对单纯形神经网络进行综述,旨在帮助读者了解单纯形神经网络的理论基础与模型构建方法,力争为模型优化与实际应用提供参考。 展开更多
关键词 单纯形 单纯复形 单纯形神经网络 单纯形邻域 图神经网络
在线阅读 下载PDF
格萨尔史诗命名实体和实体关系标注语料库构建
16
作者 环科尤 华却才让 +1 位作者 赵海兴 算太本 《中文信息学报》 北大核心 2025年第5期41-50,共10页
格萨尔史诗是具有丰富的实体及关系的知识资源,包含大量与知识图谱相关的核心知识。为了更好地实现格萨尔史诗知识图谱的构建与应用,该文从格萨尔史诗文本入手,借鉴国内外主流的实体关系标注语料库和格萨尔学的理论指导,制定了格萨尔史... 格萨尔史诗是具有丰富的实体及关系的知识资源,包含大量与知识图谱相关的核心知识。为了更好地实现格萨尔史诗知识图谱的构建与应用,该文从格萨尔史诗文本入手,借鉴国内外主流的实体关系标注语料库和格萨尔学的理论指导,制定了格萨尔史诗实体及关系的标注体系和标注规范,并研发了相应的标注系统。针对格萨尔史诗实体识别和关系抽取任务,分别采用基于迁移学习和双向长短时记忆神经网络进行初步实验,据此对语料库中的各类实体和关系进行评估及校正工作,构建了格萨尔史诗实体关系标注语料库(Gesar epic Entity Related tagged Corpus,GesarERC)。该文所构建的语料库包含6种实体类型和80种常见实体关系,共标注98199个命名实体及102061个实体关系,实体关系的标注一致性达到96.24%,为后续的格萨尔史诗研究以及藏文领域知识图谱的构建打下了基础。 展开更多
关键词 格萨尔史诗 实体关系 标注语料库 知识图谱
在线阅读 下载PDF
在线社交超网络的信息全局传播模型 被引量:8
17
作者 巩云超 李发旭 +1 位作者 周丽娜 胡枫 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第3期437-445,共9页
信息爆炸时代,在线社交网络作为信息传播的主要途径被广泛应用,但在线社交网络中信息传播的动态过程往往难以准确预测和防控。该文引入超图中的超边描述两个或两个以上个体之间复杂的社交关系,利用基于超网络动态演化模型构建在线社交... 信息爆炸时代,在线社交网络作为信息传播的主要途径被广泛应用,但在线社交网络中信息传播的动态过程往往难以准确预测和防控。该文引入超图中的超边描述两个或两个以上个体之间复杂的社交关系,利用基于超网络动态演化模型构建在线社交超网络,并结合基于反应过程策略的SIS模型,对在线社交超网络中信息全局传播的动态过程进行理论分析和仿真实验。使用平均场理论得到超网络结构参数与传播率、恢复率之间的解析表达式,并通过仿真实验分析超网络规模、传播率、恢复率、超网络结构参数以及初始传播节点对信息全局传播的影响。进一步,对超网络和复杂网络结构下的信息全局传播过程进行了对比分析。研究结果有助于深层次理解在线社交网络中信息全局传播的传播规律及发展趋势,并为信息侦测和舆情控制等实际应用提供科学依据。 展开更多
关键词 超网络 信息传播 反应过程策略 SIS模型
在线阅读 下载PDF
基于多源信息融合的分布式词表示学习 被引量:4
18
作者 冶忠林 赵海兴 +1 位作者 张科 朱宇 《中文信息学报》 CSCD 北大核心 2019年第10期18-30,共13页
分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足:(1)罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息;(2)... 分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足:(1)罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息;(2)中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示;(3)互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远。基于以上三点,该文提出了一种基于多源信息融合的分布式词表示学习算法(MSWE),主要做了4个方面的改进:(1)通过显式地构建词语的上下文特征矩阵,保留了罕见词及其上下文词语在语言训练模型中的共现信息可以较准确地反映出词语结构所投影出的结构语义关联;(2)通过词语的描述或解释文本,构建词语的属性语义特征矩阵,可有效地弥补因为上下文结构特征稀疏而导致的训练不充分;(3)通过使用同义词与反义词信息,构建了词语的同义词与反义词特征矩阵,使得同义词在词向量空间中具有较近的空间距离,而反义词则在词向量空间中具有较远的空间距离;(4)通过诱导矩阵补全算法融合多源特征矩阵,训练得到词语低维度的表示向量。实验结果表明,该文提出的MSWE算法能够有效地从多源词语特征矩阵中学习到有效的特征因子,在6个词语相似度评测数据集上表现出了优异的性能。 展开更多
关键词 词表示学习 词表示 词嵌入 词向量 词特征学习
在线阅读 下载PDF
基于PCFG的藏文疑问句句法分析 被引量:6
19
作者 班玛宝 才智杰 拉玛扎西 《中文信息学报》 CSCD 北大核心 2019年第2期67-74,共8页
藏文疑问句的句法分析在藏文问答系统、搜索引擎、信息的抽取和检索等领域有着广泛的应用前景。该文通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,归纳了各类藏文疑问句的结构特征,进而利用PCFG对藏文疑问句进行了句法分析。... 藏文疑问句的句法分析在藏文问答系统、搜索引擎、信息的抽取和检索等领域有着广泛的应用前景。该文通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,归纳了各类藏文疑问句的结构特征,进而利用PCFG对藏文疑问句进行了句法分析。经测试,在封闭测试集上的准确率、召回率和F1值分别达97.6%、97.3%和97.4%,在开放测试集上的准确率、召回率和F1值分别达96.0%、95.4%和95.7%。 展开更多
关键词 藏文疑问句 疑问代词 句法分析 PCFG CYK
在线阅读 下载PDF
融合双通道音节特征的藏文La格例句自动分类模型 被引量:5
20
作者 班玛宝 才让加 +2 位作者 张瑞 色差甲 卓玛扎西 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第1期91-98,共8页
基于藏文La格(■)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型。该模型首先使用word2vec和Gl... 基于藏文La格(■)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型。该模型首先使用word2vec和Glove构建双通道藏文音节嵌入,分别在每路卷积中融合双通道音节特征,丰富输入特征的表达和提高卷积层的空间表征能力;然后在每一路卷积均使用结合层级注意力机制的Bi-LSTM学习时序特征后,拼接多路特征,提高上下文时序特征的学习能力;最后通过全链接层和Softmax层实现藏文La格例句自动分类。实验结果表明,该模型在测试集上的藏文La格例句分类准确率达到90.26%。 展开更多
关键词 自然语言处理 双通道音节特征 藏文La格例句 自动分类
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部