期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于交替语言数据重构方法的跨语言文本相似度模型
1
作者 王轶 王坤宁 刘铭 《吉林大学学报(理学版)》 北大核心 2025年第2期551-558,共8页
针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重... 针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重构的预训练文本对,并利用上述文本对对多语言大模型mBERT(BERT-based-multilingual)进行基于数据重构的针对性预训练和微调处理.为验证该模型的可行性,在联合国平行语料数据集上进行实验,实验结果表明,该模型的相似度查准率优于mBERT和其他两种基线模型,其不仅可以进一步提高跨语言信息检索的准确性,并且可以降低多语言自然语言处理任务的研究成本. 展开更多
关键词 mBERT模型 文本相似度 多语言预训练模型 模型微调
在线阅读 下载PDF
Lacmia:抗混淆的多民族语言生成式摘要模型
2
作者 翁彧 罗皓予 +3 位作者 刘征 超木日力格 刘轩 董俊 《中文信息学报》 CSCD 北大核心 2024年第10期80-94,共15页
该文提出了一种针对中国多民族低资源语言生成式摘要模型Lacmia(Language-Anti-confusioned Chinese Minority Abstractive Summarization Model)。为了克服以往模型只能处理单一语言的限制,Lacmia采用了一种统一的生成式架构来执行不... 该文提出了一种针对中国多民族低资源语言生成式摘要模型Lacmia(Language-Anti-confusioned Chinese Minority Abstractive Summarization Model)。为了克服以往模型只能处理单一语言的限制,Lacmia采用了一种统一的生成式架构来执行不同民族语言的摘要生成任务。此外,为了解决以往模型在多民族低资源语言处理上的性能不足问题,该模型在框架中加入了语言信息嵌入模块。该文通过在损失函数中引入目标语言偏好性正则化项,有效减轻了多语言摘要中出现的语言混淆现象,从而提升摘要生成准确性和流畅度。广泛的实验表明,Lacmia在包括藏语和维吾尔语在内的多民族低资源语言摘要任务中,取得了卓越成绩。除了在ROUGE评价标准上实现了显著性能提升外,Lacmia在该文新提出的CINOScore和NLCR两项指标上均达到了最佳效果,验证了模型的有效性和先进性。 展开更多
关键词 生成式摘要 多语言预训练模型 低资源语言信息处理 多目标学习
在线阅读 下载PDF
面向“一带一路”的低资源语言机器翻译研究 被引量:2
3
作者 侯钰涛 阿布都克力木·阿布力孜 +2 位作者 史亚庆 马依拉木·木斯得克 哈里旦木·阿布都克里木 《计算机工程》 CAS CSCD 北大核心 2024年第4期332-341,共10页
随着“一带一路”倡议的深入推进,沿线国家和地区之间的跨语言沟通需求日渐增长,机器翻译技术逐渐成为各国之间深入交流的重要手段。然而,这些国家存在大量低资源语言,语料的稀缺性导致其机器翻译研究进展较为缓慢。针对该问题,提出一... 随着“一带一路”倡议的深入推进,沿线国家和地区之间的跨语言沟通需求日渐增长,机器翻译技术逐渐成为各国之间深入交流的重要手段。然而,这些国家存在大量低资源语言,语料的稀缺性导致其机器翻译研究进展较为缓慢。针对该问题,提出一种基于NLLB模型改进的低资源语言机器翻译训练方法。首先基于多语言预训练模型提出一种改进的训练策略,该策略在数据增强的前提下,对损失函数进行优化,从而在机器翻译任务中有效提高低资源语言的翻译性能;然后使用ChatGPT以及ChatGLM模型分别评估老挝语-汉语以及越南语-汉语的翻译能力,大语言模型(LLM)已具备一定的翻译低资源语言的能力,而且ChatGPT模型在越南语-汉语翻译任务上已经大幅超越传统的神经机器翻译(NMT)模型,但是在老挝语上的翻译性能还有待进一步提高。实验结果表明,在4种低资源语言到汉语的翻译任务上,相比NLLB-600M基线模型,平均提升了1.33个双语替换测评(BLEU)值以及0.82个chrF++值,从而充分证明了该方法在低资源语言机器翻译任务上的有效性。此外,该方法使用ChatGPT和ChatGLM模型分别对老挝语-汉语以及越南语-汉语进行了初步研究,在越南语-汉语翻译任务中,ChatGPT模型表现出色,远超传统的NMT模型,分别提高了9.28个BLEU值和3.12个chrF++值。 展开更多
关键词 低资源语言 机器翻译 数据增强 多语言预训练模型 语言模型
在线阅读 下载PDF
基于跨层级多视角特征的多语言事件探测
4
作者 张志远 张维彦 +1 位作者 宋雨秋 阮彤 《计算机科学》 CSCD 北大核心 2024年第5期208-215,共8页
多语言事件探测任务的目标是将多种语言的新闻文档集合组织成不同的关键事件,其中每个事件可以包含不同语言的新闻文档。该任务有助于各种下游任务应用,如多语言知识图谱构建、事件推理、信息检索等。目前,多语言事件探测主要分为先翻... 多语言事件探测任务的目标是将多种语言的新闻文档集合组织成不同的关键事件,其中每个事件可以包含不同语言的新闻文档。该任务有助于各种下游任务应用,如多语言知识图谱构建、事件推理、信息检索等。目前,多语言事件探测主要分为先翻译再事件探测与先单语言检测再跨多种语言对齐两种方法,前者依赖翻译的效果,后者需要为每种语言单独训练模型。为此,提出了一种名为基于跨层级多视角特征融合的多语言事件探测方法,端到端地进行多语言事件探测任务。该方法从不同层级利用文档的多视角特征,获得了高可靠性的多语言事件探测结果并提升了低资源语言事件探测的泛化性能。在9种语言混合的新闻数据集上进行的实验表明,所提方法的BCubed F1值提升了4.63%。 展开更多
关键词 多语言预训练模型 多语言事件探测 新闻文档聚类 加权相似度 增量聚类
在线阅读 下载PDF
融合敏感词典和异构图的汉泰跨语言敏感信息识别
5
作者 朱栩冉 余正涛 张勇丙 《计算机工程与设计》 北大核心 2024年第7期2150-2156,共7页
通用跨语言文本分类模型识别毒品、暴力和自然灾害等敏感信息不准确,且汉泰双语敏感词表示多样化、难对齐导致不同语言信息聚合能力较弱,为此提出一种融合敏感词典和异构图的汉泰跨语言敏感信息识别方法。利用汉泰敏感词典构建具有文档... 通用跨语言文本分类模型识别毒品、暴力和自然灾害等敏感信息不准确,且汉泰双语敏感词表示多样化、难对齐导致不同语言信息聚合能力较弱,为此提出一种融合敏感词典和异构图的汉泰跨语言敏感信息识别方法。利用汉泰敏感词典构建具有文档对齐和词对齐的跨语言异构图结构,将文档以及所含关键词和敏感词作为节点,双语对齐、相似关系和不同词性作为边构建汉泰跨语言异构图;基于多语言预训练模型对文档节点和词节点进行表征;通过多层图卷积神经网络对输入文档进行编码,使用敏感信息分类器对文档进行分类预测。实验结果表明,所提方法准确率较基线模型提高了5.83%。 展开更多
关键词 敏感词典 语言 异构图 图卷积神经网络 敏感信息识别 多语言预训练模型 双语对齐
在线阅读 下载PDF
基于表征空间结构对齐的跨语言知识迁移方法
6
作者 任思远 彭程 +1 位作者 陈科 何智毅 《计算机应用》 CSCD 北大核心 2024年第S2期18-23,共6页
在自然语言处理(NLP)领域中,对比学习作为一种高效的句子表征学习方法,有效缓解了基于Transformer的预训练语言模型的各向异性,并显著提升了句子表征的质量。然而,现有研究集中在英语上,尤其是在有监督设置下的情况。由于缺乏有标签数据... 在自然语言处理(NLP)领域中,对比学习作为一种高效的句子表征学习方法,有效缓解了基于Transformer的预训练语言模型的各向异性,并显著提升了句子表征的质量。然而,现有研究集中在英语上,尤其是在有监督设置下的情况。由于缺乏有标签数据,在大多数非英语语言上难以有效利用对比学习获得高质量的句子表征。针对此问题,提出一种适用于对比学习模型的跨语言知识迁移方法——通过对齐不同语言表征空间的结构进行跨语言知识迁移,并基于此方法设计了一个简单有效的跨语言知识迁移框架——TransCSE,旨在将有监督英语对比学习模型的知识迁移到非英语模型上。通过英语到英语、法语、阿拉伯语、西班牙语、土耳其语、汉语等6个方向的知识迁移实验,TransCSE将有监督英语对比学习模型SimCSE(Simple Contrastive learning of Sentence Embeddings)的知识迁移到了多语言预训练语言模型mBERT(multilingual Bidirectional Encoder Representations from Transformers)上。实验结果表明,与原始的mBERT相比,利用TransCSE框架训练完成的模型在XNLI(Cross-lingual Natural Language Inference)和STS(Semantic Textual Similarity) 2017这2个基准数据集上分别获得了17.95和43.27个百分点的准确率提升,验证了TransCSE的有效性;同时,相较于基于共享参数和基于表征对齐的跨语言知识迁移方法,TransCSE在2个数据集上均取得了最佳表现。 展开更多
关键词 自然语言处理 对比学习 语言知识迁移 多语言预训练模型 表征空间结构对齐
在线阅读 下载PDF
CINOSUM:面向多民族低资源语言的抽取式摘要模型
7
作者 翁彧 罗皓予 +3 位作者 超木日力格 刘轩 董俊 刘征 《计算机科学》 2024年第7期296-302,共7页
针对现有的模型无法处理多民族低资源语言自动摘要生成的问题,基于CINO提出了一种面向多民族低资源语言的抽取式摘要模型CINOSUM。为扩大文本摘要的语言范围,首先构建了多种民族语言的摘要数据集MESUM。为解决以往模型在低资源语言上效... 针对现有的模型无法处理多民族低资源语言自动摘要生成的问题,基于CINO提出了一种面向多民族低资源语言的抽取式摘要模型CINOSUM。为扩大文本摘要的语言范围,首先构建了多种民族语言的摘要数据集MESUM。为解决以往模型在低资源语言上效果不佳的问题,构建了一个框架,采用统一的句子抽取器,以进行不同民族语言的抽取式摘要生成。此外,提出采用多语言数据集的联合训练方法,旨在弥补知识获取上的不足,进而扩展在低资源语言上的应用,显著增强模型的适应性与灵活性。最终,在MESUM数据集上开展了广泛的实验研究,实验结果表明CINOSUM模型在包括藏语和维吾尔语在内的多民族低资源语言环境中表现卓越,并且在ROUGE评价体系下取得了显著的性能提升。 展开更多
关键词 抽取式摘要 多语言预训练模型 低资源语言信息处理 知识迁移
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部