期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于字节对编码的端到端藏语语音识别研究
1
作者 蔡郁青 仁增多杰 +3 位作者 尼玛扎西 王超 朱宇雷 张瑾 《中文信息学报》 北大核心 2025年第4期172-178,共7页
针对藏语端到端语音识别研究中存在的建模单元不统一和识别效果不理想的问题,该文提出了一种BPE-Conformer-CTC/Attention端到端藏语语音识别方法。首先,该方法采用了字节对编码算法进行语音建模,通过反复合并出现频率最高的字符对,将... 针对藏语端到端语音识别研究中存在的建模单元不统一和识别效果不理想的问题,该文提出了一种BPE-Conformer-CTC/Attention端到端藏语语音识别方法。首先,该方法采用了字节对编码算法进行语音建模,通过反复合并出现频率最高的字符对,将文本分割成易于管理、有意义的单元,平衡建模单元的粒度,从而解决藏语语音识别中建模单元不统一的问题。其次,使用了Conformer编码器,有效地融合了音频序列的全局和局部依赖关系,从而增强了模型的表征能力。最后,通过CTC/Attention联合解码策略,加速了对齐和解码过程,进而提高了识别效果的准确性和效率。在开源数据集XBMU-AMDO31和TIBMD@MUC上的实验结果表明,该文所提出的BPE-Conformer-CTC/Attention模型分别取得了9.0%和4.6%的词错误率,相较于基线模型Transformer-CTC/Attention,词错误率分别相对降低了14.2%和30.3%。该研究方法为藏语端到端语音识别任务提供了一种有效的解决方案。 展开更多
关键词 藏语语音识别 端到端 字节对编码 安多方言
在线阅读 下载PDF
融合格序列和多维语义特征的藏语句法成分标注研究
2
作者 尕藏扎西 多拉 冷本扎西 《高原科学研究》 2025年第1期119-128,共10页
深层句法分析是藏语自然语言理解中的关键难题之一。针对现有藏语句法分析模型性能欠佳的问题,文章提出一种融合格序列知识和多维语义特征的藏语句法成分标注方法。该方法以提取藏语格序列对句法成分的约束信息为主要语义特征,进而融合... 深层句法分析是藏语自然语言理解中的关键难题之一。针对现有藏语句法分析模型性能欠佳的问题,文章提出一种融合格序列知识和多维语义特征的藏语句法成分标注方法。该方法以提取藏语格序列对句法成分的约束信息为主要语义特征,进而融合藏文字丁、词、词性等多维语义特征后,用Bi-LSTM+CRF联合预测藏语句法成分标记。实验结果显示,该方法在真实语料中的准确率达90.67%、精确率达87.00%、召回率达87.33%,F1值达87.16%,其F1值高于所有基线模型。此外,通过消融实验验证了融合藏语格序列知识及其他特征的WPCc_BiLSTM+CRF模型可大幅提升藏语句法成分标注性能。 展开更多
关键词 藏语格序列 语义特征 句法成分标注 句法分析
在线阅读 下载PDF
基于数字实体特征的藏文问答数据集构建
3
作者 官却才让 杨毛加 +2 位作者 柔特 班玛宝 才让加 《中文信息学报》 北大核心 2025年第3期59-65,共7页
藏文问答系统是藏语自然语言处理领域中具有广泛发展前景的研究方向之一。同时,藏文问答系统的发展面临着众多挑战。该文针对藏文问答数据集匮乏、人工数据集构建的低效问题,提出一种BERT-BiLSTM-CRF与先验知识相结合的数据集构建方法:... 藏文问答系统是藏语自然语言处理领域中具有广泛发展前景的研究方向之一。同时,藏文问答系统的发展面临着众多挑战。该文针对藏文问答数据集匮乏、人工数据集构建的低效问题,提出一种BERT-BiLSTM-CRF与先验知识相结合的数据集构建方法:首先,详细分析藏文数字实体的特征并在藏文数字实体分类的基础上,采用BERT-BiLSTM-CRF模型识别藏文数字实体,作为问答三元组(S,Q,A)中的答案(A),经测试,此方法在测试集上的F值可达84.67%;其次,利用藏文数字实体与疑问词间的先验对应关系,设计一种基于数字实体的藏文问题生成算法,以自动生成藏文问题(即问答三元组中的Q);最后,合并原文(S)、问题(Q)和答案(A)来构建三元组藏文问答数据集。通过该方法构建了规模为139786个问答三元组的藏文问答数据集,为进一步研究藏文问答系统奠定了数据基础。 展开更多
关键词 自然语言处理 数字实体 问答系统 数据集构建
在线阅读 下载PDF
基于情感引导-扩散模型的藏族音乐生成网络
4
作者 宋子牛 彭春燕 +1 位作者 王龙辉 郑钰辉 《计算机应用研究》 北大核心 2025年第8期2283-2289,共7页
人工智能技术在音乐创作领域取得了显著进展,但针对藏族音乐自动生成的研究相对匮乏。现有研究在藏族音乐生成中主要面临三个挑战:缺乏特定情感的表达能力、高维特征处理效率低下,以及音乐上下文一致性不足。为解决上述问题,提出一种基... 人工智能技术在音乐创作领域取得了显著进展,但针对藏族音乐自动生成的研究相对匮乏。现有研究在藏族音乐生成中主要面临三个挑战:缺乏特定情感的表达能力、高维特征处理效率低下,以及音乐上下文一致性不足。为解决上述问题,提出一种基于情感引导的扩散模型(emotion-driven diffusion model,EDDM)。该模型基于VAE-diffusion框架,利用变分自编码器提取音源数据关键潜在特征,并在扩散过程中对其进行建模。首先,设计情感特征编码器以提取音乐情感特征,并通过交叉注意力机制将情感特征嵌入到扩散模型中,实现藏族音乐特定情感和风格的精准表达;其次,引入token drop策略过滤冗余特征,提高音乐生成的鲁棒性和多样化;最后,提出self-conditioning机制增强上下文关联,利用上一步信息来指导下一步结果生成,确保音乐生成的一致性。实验结果表明,EDDM在藏族音乐生成任务上效果突出,在客观评价方面,模型在FAD(2.35↓)、JSD(0.08↓)、NDB(18↑)等指标上均优于现有方法;主观评价中,生成的音乐展现出良好的情感表达能力和音乐特征一致性。EDDM在民族音乐自动生成领域具有一定的创新性和应用价值。所生成的部分情感引导的藏族音乐公开在https://szn1998.github.io/。 展开更多
关键词 藏族音乐生成 扩散模型 情感引导 token drop self-conditioning
在线阅读 下载PDF
基于预训练及控制码的藏文律诗自动生成方法
5
作者 色差甲 慈祯嘉措 +1 位作者 才让加 华果才让 《中文信息学报》 北大核心 2025年第3期42-48,共7页
诗歌自动写作研究是自然语言生成的一个重要研究领域,被认为是极具挑战且有趣的任务之一。该文提出一种基于预训练及控制码的藏文律诗生成方法。在藏文预训练语言模型上进行微调后,生成质量显著提升;同时引入控制码后,在很大程度上确保... 诗歌自动写作研究是自然语言生成的一个重要研究领域,被认为是极具挑战且有趣的任务之一。该文提出一种基于预训练及控制码的藏文律诗生成方法。在藏文预训练语言模型上进行微调后,生成质量显著提升;同时引入控制码后,在很大程度上确保了扣题程度,即关键词在生成诗作中的平均覆盖率居高。此外,在生成的诗作中,不仅提高了词汇的丰富性,而且生成结果的多样性也明显提升。测试表明,基于预训练及控制码的生成方法显著优于基线方法。 展开更多
关键词 藏文律诗自动生成 藏文预训练模型 控制码
在线阅读 下载PDF
一种基于迁移学习的藏英神经机器翻译方法
6
作者 扎西平措 张佳亮 +1 位作者 群诺 尼玛扎西 《高原科学研究》 2025年第2期105-112,共8页
随着全球化背景下跨文化交流需求的日益增长,藏英翻译在促进我国藏族文化的传播、加强与外界的联系以及提升藏语言数字化应用等方面具有重要的现实意义。然而,藏英平行语料资源的严重匮乏,极大地制约了藏英神经机器翻译研究进展,导致系... 随着全球化背景下跨文化交流需求的日益增长,藏英翻译在促进我国藏族文化的传播、加强与外界的联系以及提升藏语言数字化应用等方面具有重要的现实意义。然而,藏英平行语料资源的严重匮乏,极大地制约了藏英神经机器翻译研究进展,导致系统在处理低频词汇和复杂句式时表现欠佳。针对这一问题,文章系统探讨了迁移学习技术在藏英神经机器翻译中的应用潜力。通过分析父模型的数据规模、目标语言特性以及参数冻结等因素对藏英翻译模型性能的影响基础上,借助其他语言的丰富语料和预训练模型,探索迁移学习策略在藏英神经机器翻译中的潜在优势。研究结果显示,引入迁移学习策略后藏英神经机器翻译性能得到了很大的提升,相比于传统策略BLEU值提高了1.88个点。该方法不仅能够有效缓解藏英语句对的不足,还能有效增强藏英神经机器翻译模型的翻译质量和泛化能力。 展开更多
关键词 藏英机器翻译 生成式对抗网络(GAN) 迁移学习
在线阅读 下载PDF
基于Transformer和生成对抗网络的藏文生成图像方法
7
作者 黄安 华却才让 +2 位作者 环科尤 张瑞 杨启辉 《高原科学研究》 2025年第2期113-121,共9页
针对藏文生成图像领域资源稀缺以及生成的图像语义一致性低和细节模糊等问题,提出了一种基于Transformer和生成对抗网络的藏文生成图像方法。该方法利用Transformer架构训练不同粒度文本编码器以提取藏文特征,之后将文本特征与随机采样... 针对藏文生成图像领域资源稀缺以及生成的图像语义一致性低和细节模糊等问题,提出了一种基于Transformer和生成对抗网络的藏文生成图像方法。该方法利用Transformer架构训练不同粒度文本编码器以提取藏文特征,之后将文本特征与随机采样得到的噪声经过仿射变化进行特征融合,并输入卷积层生成图像。经实验,在自建的CUB-BO数据集上,IS值和FID值分别达到了5.22和14.43,展现出较高的藏文生成图像能力。此外,对比实验发现,采用音节切分策略处理藏文文本相较于子词切分生成的图像在细节清晰度和语义一致性上表现更为出色。 展开更多
关键词 藏文生成图像 生成对抗网络(GAN) 音节切分
在线阅读 下载PDF
基于重要性度量矩阵的超网络关键节点识别算法
8
作者 李发旭 卫良 +2 位作者 徐慧 胡枫 巩云超 《运筹与管理》 2025年第3期119-125,共7页
识别超网络中的关键节点,对优化网络结构和信息的有效传播起着至关重要的作用。在超网络中,关键节点的重要程度并非单纯由节点自身所具备的影响力与运行效率决定,还依赖于其相邻节点所作出的贡献程度。因此,要全面且精准地剖析关键节点... 识别超网络中的关键节点,对优化网络结构和信息的有效传播起着至关重要的作用。在超网络中,关键节点的重要程度并非单纯由节点自身所具备的影响力与运行效率决定,还依赖于其相邻节点所作出的贡献程度。因此,要全面且精准地剖析关键节点的重要性,不仅需考量节点自身的重要属性,还需探究其相邻节点对该节点重要性所产生的影响。通过定义超网络中节点的超度、效率,以及构建节点重要性度量矩阵,本文提出了一种新的超网络关键节点识别方法。该方法并非仅着眼于节点自身所固有的性质,还充分融合了相邻节点在重要度方面所做出的贡献。该方法通过运用节点的超度值以及效率这两个量化指标,精准地表征了节点对相邻节点重要度的贡献情况。与此同时,此方法巧妙地将节点的局部重要性与全局重要性有机结合,能够切实提高对节点重要性进行度量时的精度,高度契合节点重要性度量在实际应用场景中的需求。此外,该方法还应用于蛋白复合物超网络中加以验证,实验结果表明,本文所提方法能够高效且精准地识别出复杂超网络中的关键节点。这一成果为后续针对超网络中关键节点的深入探究,以及超网络拓扑结构的系统性研究,提供了一定的借鉴与参考。 展开更多
关键词 超网络 关键节点 超度 节点效率 重要性度量矩阵
在线阅读 下载PDF
基于人名语义特征的藏文机器阅读理解数据构建方法
9
作者 杨毛加 柔特 +2 位作者 才智杰 班玛宝 色差甲 《中文信息学报》 2025年第5期51-59,共9页
机器阅读理解作为自然语言处理领域的重要技术,旨在通过构建智能系统实现对文本的深度理解,从而自动提取关键信息并准确回答相关问题。藏文机器阅读理解研究目前尚处于初级阶段,仍缺乏大规模数据集。该文在分析英汉机器阅读理解的基础上... 机器阅读理解作为自然语言处理领域的重要技术,旨在通过构建智能系统实现对文本的深度理解,从而自动提取关键信息并准确回答相关问题。藏文机器阅读理解研究目前尚处于初级阶段,仍缺乏大规模数据集。该文在分析英汉机器阅读理解的基础上,结合藏文语言特性,研究了藏文机器阅读理解数据集的构建方法,并采用人工、半自动和自动构建策略构建了藏文机器阅读理解数据集,其中包含27982个篇章和201124个段落、问题和答案三元组。该文提出的三种构建方法可以有效构建较大规模的藏文机器阅读理解数据集,为藏文机器阅读理解和下游自然语言理解任务奠定了基础。 展开更多
关键词 机器阅读理解 自然语言处理 人名语义特征 数据集
在线阅读 下载PDF
基于图解析的端到端片段藏文语义角色标注方法
10
作者 班玛宝 罗鹏 +3 位作者 头旦才让 尼玛扎西 才让加 于永斌 《北京大学学报(自然科学版)》 2025年第3期440-450,共11页
语义角色标注作为通往语义理解的重要途径,在机器翻译、信息抽取和问答系统中具有广泛的应用价值.本文通过借鉴英文和汉文中较为成熟的语义角色标注方法,在已有藏文语义标注体系和方法的基础上,提出一种基于图解析的端到端片段(span)藏... 语义角色标注作为通往语义理解的重要途径,在机器翻译、信息抽取和问答系统中具有广泛的应用价值.本文通过借鉴英文和汉文中较为成熟的语义角色标注方法,在已有藏文语义标注体系和方法的基础上,提出一种基于图解析的端到端片段(span)藏文语义角色标注方法.该方法将基于片段的藏文语义角色标注转换成基于词的图解析任务,可分为语义角色标注到图的转换和图至语义角色标注的恢复两个阶段.第一阶段采用藏文预训练语言模型(TiUniLM)进行动态词嵌入,并通过引入谓词标识器P,自动指定谓词,然后通过设计"门控"机制长短时记忆网络(GM-LSTM)对时序特征进一步建模.第二阶段使用Viterbi约束解码,对不合法的图进行校正.最后,通过在TSRLD-Span上的实验表明,该方法在测试集上的最佳F1值可达89.69%,相比基线模型,性能具有显著提升,验证了该方法的有效性. 展开更多
关键词 自然语言处理 图解析 片段 藏文语义角色标注 谓词标识器
在线阅读 下载PDF
格萨尔史诗命名实体和实体关系标注语料库构建
11
作者 环科尤 华却才让 +1 位作者 赵海兴 算太本 《中文信息学报》 2025年第5期41-50,共10页
格萨尔史诗是具有丰富的实体及关系的知识资源,包含大量与知识图谱相关的核心知识。为了更好地实现格萨尔史诗知识图谱的构建与应用,该文从格萨尔史诗文本入手,借鉴国内外主流的实体关系标注语料库和格萨尔学的理论指导,制定了格萨尔史... 格萨尔史诗是具有丰富的实体及关系的知识资源,包含大量与知识图谱相关的核心知识。为了更好地实现格萨尔史诗知识图谱的构建与应用,该文从格萨尔史诗文本入手,借鉴国内外主流的实体关系标注语料库和格萨尔学的理论指导,制定了格萨尔史诗实体及关系的标注体系和标注规范,并研发了相应的标注系统。针对格萨尔史诗实体识别和关系抽取任务,分别采用基于迁移学习和双向长短时记忆神经网络进行初步实验,据此对语料库中的各类实体和关系进行评估及校正工作,构建了格萨尔史诗实体关系标注语料库(Gesar epic Entity Related tagged Corpus,GesarERC)。该文所构建的语料库包含6种实体类型和80种常见实体关系,共标注98199个命名实体及102061个实体关系,实体关系的标注一致性达到96.24%,为后续的格萨尔史诗研究以及藏文领域知识图谱的构建打下了基础。 展开更多
关键词 格萨尔史诗 实体关系 标注语料库 知识图谱
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部