期刊文献+
共找到284篇文章
< 1 2 15 >
每页显示 20 50 100
一种基于SimCSE有监督微调的跨语言专利文本表示优化方法
1
作者 王莉军 李浩天 +1 位作者 高影繁 王淑君 《情报学报》 北大核心 2025年第7期818-829,共12页
本文提出了一种跨语言专利文本表示优化方法,旨在提升中英专利文本的语义表示能力。该方法结合了SimCSE(simple contrastive sentence embeddings)对比学习算法与有监督微调策略,通过充分利用中英专利文本的平行语料数据,实现了跨语言... 本文提出了一种跨语言专利文本表示优化方法,旨在提升中英专利文本的语义表示能力。该方法结合了SimCSE(simple contrastive sentence embeddings)对比学习算法与有监督微调策略,通过充分利用中英专利文本的平行语料数据,实现了跨语言的有效文本表示。在无监督SimCSE微调的基础上,本文引入了有监督的SimCSE微调算法,以增强模型在跨语言语义理解上的表现。具体而言,本文提出了一种正负样本挖掘策略,通过分析专利文本间的引用关系构建高质量正样本集,使模型能够捕捉到更准确的跨语言语义相似性。同时,引入RetroMAE(retrieval-oriented masked auto-encoder)二次预训练模型,针对难负例的挖掘进行优化,以进一步提高模型的区分能力和泛化性能。与传统跨语言文本表示方法相比,本文方法在处理跨语言专利文本时表现出显著优势,突破了已有方法在语义对齐和区分上的局限性,为多领域跨语言专利分析提供了更加精准有效的工具。 展开更多
关键词 跨语言专利 SimCSE 正负例挖掘
在线阅读 下载PDF
基于强化语言关联的中缅越跨语言摘要研究
2
作者 何志磊 高盛祥 +1 位作者 朱恩昌 余正涛 《计算机工程》 北大核心 2025年第8期160-167,共8页
跨语言摘要(CLS)旨在用目标语言(如中文)的文本对源语言(如缅甸语)的文本核心内容进行概括和总结。CLS实质上是机器翻译(MT)和单语摘要(MS)的联合任务,需要模型同时具备这两方面的能力。在面向越南语、缅甸语等低资源语言场景时,CLS训... 跨语言摘要(CLS)旨在用目标语言(如中文)的文本对源语言(如缅甸语)的文本核心内容进行概括和总结。CLS实质上是机器翻译(MT)和单语摘要(MS)的联合任务,需要模型同时具备这两方面的能力。在面向越南语、缅甸语等低资源语言场景时,CLS训练数据稀缺,且中文与缅甸语、越南语属于不同的语系,语言差异较大,导致当前的CLS方法泛化性较差。为此,以缅-中、越-中为研究对象,提出一种语言关系增强的CLS方法。首先将输入序列转化为连续词对;然后计算源语言和目标语言之间的连续词对之间的关系;最后引入MT和MS的联合训练方法,有效地捕捉目标语言和源语言之间的关系,提高模型的泛化性和对连续文本的处理能力。在自建数据集上进行实验,结果表明,相较其他基线模型,该方法在ROUGE-1、ROUGE-2和ROUGE-L评价指标上分别提升了5、1、4百分点。 展开更多
关键词 跨语言摘要 低资源语言 语言差异 连续文本 泛化性
在线阅读 下载PDF
基于双语依存关联图的跨语言情感分类
3
作者 白瑞瑞 王中卿 周国栋 《软件学报》 北大核心 2025年第6期2827-2843,共17页
跨语言情感分类在自然语言处理领域非常重要并且已经得到广泛的研究,因为它可以利用源语言的标签信息构建目标语言的情感分类系统,从而大大减少目标语言中费时而耗力的标注工作.不同语言的表达方式存在明显差异是跨语言情感分类的基本挑... 跨语言情感分类在自然语言处理领域非常重要并且已经得到广泛的研究,因为它可以利用源语言的标签信息构建目标语言的情感分类系统,从而大大减少目标语言中费时而耗力的标注工作.不同语言的表达方式存在明显差异是跨语言情感分类的基本挑战,提出基于双语依存关联图模型的跨语言情感分类方法.虽然不同语言的表达存在差异,但是内部的句法依存关系是相似的.通过在不同语言的词节点之间建边表示双语评论实例的语义相关性,双语依存关联图能够对不同语言词之间依存关系的相似性进行显式建模,从而使图神经网络可以在语言内和语言间整合句法结构信息,进行跨语言情感分类.利用英文和中文两种语言的数据集进行实验,实验结果相较于基线方法提高了3%.研究表明,利用双语依存关联图能够对不同语言评论实例之间的关联性进行有效建模,从而显著提升跨语言情感分类的准确率. 展开更多
关键词 图神经网络 情感分类 跨语言
在线阅读 下载PDF
融入WGCN和附带监督的跨语言装备实体对齐
4
作者 李子康 刘旭红 +2 位作者 吴天宇 郭冬冬 苗琳 《小型微型计算机系统》 北大核心 2025年第7期1571-1577,共7页
为解决跨语言实体对齐任务中由于装备知识图谱的复杂关系和噪声数据导致实体邻居节点包含无关或错误信息,从而影响对齐准确率的问题,本文提出了一种名为WGISEA的装备领域跨语言实体对齐模型.首先通过将每一种语言装备知识图谱中的实体... 为解决跨语言实体对齐任务中由于装备知识图谱的复杂关系和噪声数据导致实体邻居节点包含无关或错误信息,从而影响对齐准确率的问题,本文提出了一种名为WGISEA的装备领域跨语言实体对齐模型.首先通过将每一种语言装备知识图谱中的实体与对应语言的文本语料库的词汇结合,利用文本语料库中的信息作为监督信号为实体对齐任务提供额外的语义和关联信息;结合加权图卷积网络中的权重矩阵来动态调整实体之间的关系权重,减弱邻居节点引入的噪声信息;最后利用反向传播算法来更新实体的嵌入向量以获得更好的跨语言知识图谱实体对齐效果.在自行构建的数据集CEED和公开数据集DBP15k上的实验表明,WGISEA模型相比于基线模型取得了更好的实体对齐效果,其中Hits@1性能比基线模型分别提高了3.3%和2.7%.此外,通过一系列消融实验进一步验证了WGISEA模型的有效性. 展开更多
关键词 装备知识图谱 实体对齐 跨语言 附带监督 加权图卷积网络
在线阅读 下载PDF
基于多类型词信息引导的汉越跨语言摘要生成方法
5
作者 贾伟强 张勇丙 高盛祥 《计算机应用与软件》 北大核心 2025年第7期161-166,260,共7页
任务大多依赖于机器翻译,而越南语这类低资源语种翻译效果不佳,汉越跨语言摘要面临着数据稀缺下双语语义对齐困难的问题。针对该问题,提出一种基于多类型词信息引导的汉越跨语言摘要生成方法。利用显式的关键词信息引导对源文本重要信... 任务大多依赖于机器翻译,而越南语这类低资源语种翻译效果不佳,汉越跨语言摘要面临着数据稀缺下双语语义对齐困难的问题。针对该问题,提出一种基于多类型词信息引导的汉越跨语言摘要生成方法。利用显式的关键词信息引导对源文本重要信息的编码;利用外部汉越双语概率词典中的词对齐信息,引导编解码器对关键信息的双语对齐;基于指针-生成网络,将两类词信息应用于越南语摘要的生成任务。在构建的汉越跨语言摘要数据集上的实验结果表明,该模型可以有效提升跨语言摘要生成的质量。 展开更多
关键词 多类型词信息 外部知识 词对齐 关键词引导 跨语言摘要
在线阅读 下载PDF
基于对齐查询的跨语言信息检索方法
6
作者 李俊文 宋雨秋 +3 位作者 张维彦 阮彤 刘井平 朱焱 《计算机科学》 北大核心 2025年第8期259-267,共9页
跨语言信息检索是自然语言处理中一项重要的信息获取任务。最近,基于大语言模型的检索方法在这一任务中获得了广泛关注并取得了显著的进展。然而,现有基于提示大语言模型的无监督检索方法在效果和效率上仍有不足。对此,提出了一种全新... 跨语言信息检索是自然语言处理中一项重要的信息获取任务。最近,基于大语言模型的检索方法在这一任务中获得了广泛关注并取得了显著的进展。然而,现有基于提示大语言模型的无监督检索方法在效果和效率上仍有不足。对此,提出了一种全新的基于对齐查询的跨语言信息检索方法。具体而言,采用“预训练-微调”范式,基于预训练多语言模型提出了一种自适应的自指导编码器,通过同一语言内的检索学习指导跨语言检索学习。该方法引入与文档语种相同的语义对齐的查询,并设计了一种自适应的自指导机制,利用不同语种视角下的单语言检索结果的概率分布来指导跨语言检索。在22对语言组合上进行了广泛的实验来评估所提模型的有效性和效率,结果表明,所提方法的MRR指标达到了当前最先进水平。具体而言,其在高资源语种组合上相较于次优基线的平均MRR提高了15.45%,在低资源语种组合上相较于次优基线提高了18.9%。此外,相比基于大语言模型的方法,该方法在训练时间和推理时间上均更短,并且显著提升了收敛性能。相关代码已公开1)。 展开更多
关键词 跨语言信息检索 对齐查询 自指导 自适应层级系数
在线阅读 下载PDF
面向语言学习者的跨语言反馈评语生成方法
7
作者 安纪元 朱琳 杨尔弘 《中文信息学报》 北大核心 2025年第7期148-161,共14页
反馈评语生成是近年来自然语言处理研究的一个热点任务,旨在为语言学习者的作文提供纠偏及解释性的评价,以帮助学习者理解并内化语言规则,从而提高写作水平。现有研究主要聚焦于单一语言的反馈评语生成,忽略了非母语学习者可能面临的理... 反馈评语生成是近年来自然语言处理研究的一个热点任务,旨在为语言学习者的作文提供纠偏及解释性的评价,以帮助学习者理解并内化语言规则,从而提高写作水平。现有研究主要聚焦于单一语言的反馈评语生成,忽略了非母语学习者可能面临的理解障碍,以及评语中存在陌生语言知识等问题。该文提出了一种新的跨语言反馈评语生成(CLFCG)任务,其目的是为汉语母语者学习英语提供汉语的反馈评语。首先,通过构建首个英-汉跨语言反馈评语数据集,探索了大语言模型(如GPT-4)和预训练语言模型(如mBART、mT5)在该任务上的性能,并针对预训练语言模型,分析了修正编辑、线索词语和语法术语等附加信息对反馈评语生成效果的影响。其次,该文提出了一种基于大语言模型的评估方法,以更加准确地评估反馈评语生成效果。实验结果显示,基于微调的预训练语言模型能够更好地对齐人类教师的评语,但其生成的准确性略逊于采用少样本学习策略的GPT-4模型。最后,该文对实验结果进行了深入讨论和分析,以期为跨语言反馈评语生成任务提供更多思路和见解。 展开更多
关键词 智能辅助语言学习 反馈评语生成 跨语言文本生成 预训练语言模型 语言模型
在线阅读 下载PDF
“已经”的多功能性及其跨语言语义图
8
作者 金立鑫 祁嘉耀 《汉语学习》 北大核心 2025年第1期3-12,共10页
本文在前人研究的基础上进一步描写普通话副词“已经”的句法分布,得到的结论是,“已经”至少具有三个语义表达功能:(1)表示对已然事件的确定;(2)表示说话人对听话人的话语预设的否定;(3)表达“已然体/实现体”范畴。文章最后梳理了15... 本文在前人研究的基础上进一步描写普通话副词“已经”的句法分布,得到的结论是,“已经”至少具有三个语义表达功能:(1)表示对已然事件的确定;(2)表示说话人对听话人的话语预设的否定;(3)表达“已然体/实现体”范畴。文章最后梳理了15种语言对应“已经”词汇意义的多功能义项,在此基础上构拟了“已经”的小样本跨语言语义概念空间,从中可以看到不同语言表达“已经”的词在该语义空间上不同的语义功能分布。 展开更多
关键词 “已经” 语义功能 跨语言研究 语义概念空间
在线阅读 下载PDF
基于跨语言模型的中美数字经济政策对比
9
作者 邹雨衡 路冬媛 桑栋 《复杂系统与复杂性科学》 北大核心 2025年第2期82-89,共8页
在中美战略竞争日益加剧的背景下,对比分析中美数字经济政策具有重大的战略意义。面对传统政策对比方法在样本范围和人工分析的局限性,本研究提出了一种创新性的基于跨语言模型的复杂分析框架,结合数字经济政策特性,通过针对性微调跨语... 在中美战略竞争日益加剧的背景下,对比分析中美数字经济政策具有重大的战略意义。面对传统政策对比方法在样本范围和人工分析的局限性,本研究提出了一种创新性的基于跨语言模型的复杂分析框架,结合数字经济政策特性,通过针对性微调跨语言模型,对中美数字经济政策进行多维分类与多语言相似度计算,实现了中美数字经济政策环境的自动化对比分析。通过实验表明,本文提出的方法能够在政策工具、数字经济组成要素等多个维度准确识别政策文本特征,在多个分类维度上的准确率均优于基线方法。基于本文方法,通过对1.6万余篇中美数字经济政策文本进行对比分析,本文揭示了两国政策在政策工具使用、数字经济产业发展重心等方面的关键差异,并针对性提出了进一步发展数字经济的政策建议。 展开更多
关键词 数字经济 政策对比 跨语言模型
在线阅读 下载PDF
低资源场景下的汉语—传统蒙古语跨语言摘要方法研究
10
作者 班琪 云静 邓磊 《计算机工程与科学》 北大核心 2025年第5期931-939,共9页
跨语言摘要任务旨在给定一种语言的源文档(如中文)生成目标语言(如传统蒙古文)的摘要。传统的多任务框架通常采用序列到序列的网络,应用多个专用于各特定任务的解码器。然而,在将文档从一种语言提炼为另一种具有不同形态和结构特性语言... 跨语言摘要任务旨在给定一种语言的源文档(如中文)生成目标语言(如传统蒙古文)的摘要。传统的多任务框架通常采用序列到序列的网络,应用多个专用于各特定任务的解码器。然而,在将文档从一种语言提炼为另一种具有不同形态和结构特性语言的摘要时,多任务框架无法有效捕捉和理解2种语言之间的关系和差异。特别是对于传统蒙古语,其形态变化繁杂、构词形式多样的特点,使得低资源下语言特征的学习和处理变得更加困难。为了解决这一问题,提出一种在多任务框架中引入一致性学习的跨语言摘要模型。通过计算源语言摘要和生成的目标语言摘要之间概率分布差异的距离度量进行一致性建模,在交叉熵损失和一致性损失的约束下优化跨语言摘要模型。此外,构建了一个中—蒙跨语言摘要数据集,在此数据集上获得了有竞争力的ROUGE分数,表明了所提模型在资源匮乏情况下的有效性。 展开更多
关键词 中—蒙跨语言摘要 一致性学习 低资源
在线阅读 下载PDF
基于程序流程图和图注意力网络的跨语言代码抄袭检测方法 被引量:2
11
作者 张峰 韦友良 秦玉成 《小型微型计算机系统》 北大核心 2025年第1期249-256,共8页
跨语言代码抄袭检测在软件知识产权保护和计算机程序设计类课程教学等领域有广泛的应用.然而,不同编程语言的语法差异降低了代码之间的相似度,导致抄袭检测的准确率较低.因此,本文提出一种基于程序流程图和图注意力网络的跨语言代码抄... 跨语言代码抄袭检测在软件知识产权保护和计算机程序设计类课程教学等领域有广泛的应用.然而,不同编程语言的语法差异降低了代码之间的相似度,导致抄袭检测的准确率较低.因此,本文提出一种基于程序流程图和图注意力网络的跨语言代码抄袭检测方法.首先,将代码转换为程序流程图,并利用图注意力网络提取程序流程图的特征作为代码的表示;其次,采用交叉匹配方法逐行对比代码的表示,以获得代码的相似特征向量;最后,拼接待检测代码的相似特征向量,并通过全连接神经网络计算抄袭的概率.实验结果表明,与现有的跨语言代码抄袭检测方法相比,本文提出的方法在查准率、查全率和F1值方面均有提高.其中,与基于属性计数的CLCDSA方法、基于抽象语法树的ASTLearner方法相比,F1值分别提高了11%和16%. 展开更多
关键词 代码抄袭检测 编程语言 程序流程图 图注意力网络
在线阅读 下载PDF
一种提高跨语言理解的NLP迁移学习 被引量:3
12
作者 王坤 盛鸿宇 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期153-163,共11页
随着互联网信息的发展,如何有效地表示不同语言所含的信息已成为自然语言处理(Natural Language Processing,NLP)领域的一项重要任务.然而,很多传统的机器学习模型依赖在高资源语言中进行训练,无法迁移到低资源语言中使用.为了解决这一... 随着互联网信息的发展,如何有效地表示不同语言所含的信息已成为自然语言处理(Natural Language Processing,NLP)领域的一项重要任务.然而,很多传统的机器学习模型依赖在高资源语言中进行训练,无法迁移到低资源语言中使用.为了解决这一问题,结合迁移学习和深度学习模型,提出一种多语言双向编码器表征量(Multi-lingual Bidirectional Encoder Representations from Transformers,M-BERT)的迁移学习方法.该方法利用M-BERT作为特征提取器,在源语言领域和目标语言领域之间进行特征转换,减小不同语言领域之间的差异,从而提高目标任务在不同领域之间的泛化能力.首先,在构建BERT模型的基础上,通过数据收集处理、训练设置、参数估计和模型训练等预训练操作完成M-BERT模型的构建,并在目标任务上进行微调.然后,利用迁移学习实现M-BERT模型在跨语言文本分析方面的应用.最后,在从英语到法语和德语的跨语言迁移实验中,证明了本文模型具有较高的性能质量和较小的计算量,并在联合训练方案中达到了96.2%的准确率.研究结果表明,该文模型实现了跨语言数据迁移,且验证了其在跨语言NLP领域的有效性和创新性. 展开更多
关键词 自然语言处理 语言双向编码器表征量 迁移学习 跨语言 深度学习
在线阅读 下载PDF
融合图像信息的越汉跨语言新闻文本摘要方法
13
作者 吴奇远 余正涛 +2 位作者 黄于欣 谭凯文 张勇丙 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期714-723,共10页
[目的]为了有效剔除冗余文本信息,提高摘要简洁性同时充分利用图像信息提高摘要准确性,对融合图像信息的越汉跨语言新闻文本摘要方法进行研究.[方法]首先利用文本编码器和图像编码器对越南语新闻文本和图像进行表征,其次利用图文对比损... [目的]为了有效剔除冗余文本信息,提高摘要简洁性同时充分利用图像信息提高摘要准确性,对融合图像信息的越汉跨语言新闻文本摘要方法进行研究.[方法]首先利用文本编码器和图像编码器对越南语新闻文本和图像进行表征,其次利用图文对比损失增强图像和文本表征的一致性,迫使越南语的表征空间趋近于与语言无关的图像表征空间,然后利用图文融合器进行图像和文本的有效融合,增强新闻文本的关键信息提取能力,最后利用摘要解码器生成中文摘要.[结果]在本文构建的越汉多模态跨语言摘要数据集上,相较于对比方法,本方法生成的摘要具备更高的ROUGE分数、信息量、简洁度和流畅度.[结论]引入图像信息有利于生成高质量的跨语言摘要;采用单任务直接学习两种语言的互动信息可以降低将跨语言摘要分解为多任务带来的误差累积. 展开更多
关键词 跨语言摘要 越汉跨语言新闻摘要 图文融合 图文对比损失
在线阅读 下载PDF
基于要素关联图的汉越跨语言事件检索方法
14
作者 赵周颖 余正涛 +2 位作者 黄于欣 陈瑞清 朱恩昌 《现代电子技术》 北大核心 2024年第7期127-132,共6页
汉越跨语言事件检索旨在根据输入的中文事件查询短语,检索出相关的越南语新闻事件文档。由于查询文档的新闻文本较长,中文事件查询短语与越南语的查询文档长度不一,表达差异较大,且查询文档中往往会包含大量与其描述的核心事件无关的噪... 汉越跨语言事件检索旨在根据输入的中文事件查询短语,检索出相关的越南语新闻事件文档。由于查询文档的新闻文本较长,中文事件查询短语与越南语的查询文档长度不一,表达差异较大,且查询文档中往往会包含大量与其描述的核心事件无关的噪声文本,现有的模型不能很好地捕获事件匹配特征,匹配效果欠佳。基于此,文中提出基于要素关联图的汉越跨语言事件检索方法。首先,预训练一个汉越双语词嵌入来解决跨语言问题;然后,抽取查询文档中的关键信息(关键词和实体)以构建要素关联图;最后,通过引入一个图编码器对构建的要素图进行编码,生成结构化的事件信息来增强传统的事件检索模型。实验结果表明文中提出的方法优于传统的基线方法。 展开更多
关键词 跨语言事件检索 跨语言词嵌入 要素关联图 图神经网络 文本匹配 事件检索
在线阅读 下载PDF
面向汉越跨语言事件检索的事件预训练方法 被引量:1
15
作者 吴少扬 余正涛 +3 位作者 黄于欣 朱恩昌 高盛祥 邓同杰 《中文信息学报》 CSCD 北大核心 2024年第4期78-85,共8页
汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务。由于越南语属于典型的低资源语言,汉越跨语言事件检索缺乏大规模的标注数据,并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识,不适用于该任务。因此,... 汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务。由于越南语属于典型的低资源语言,汉越跨语言事件检索缺乏大规模的标注数据,并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识,不适用于该任务。因此,为了将汉越双语对齐的事件知识融入到多语言预训练语言模型中,该文提出了两个预训练方法,即事件要素掩码预训练以及跨语言事件对比预训练。在该文构造的汉越跨语言事件检索数据集和公开跨语言问答数据集上进行了实验,比基线提升1%~3%MAP值,2%~4%NDCG值,证明了该文方法的有效性。 展开更多
关键词 事件预训练 跨语言事件检索 掩码语言模型 对比学习
在线阅读 下载PDF
基于对比学习的跨语言代码克隆检测方法 被引量:2
16
作者 吕泉润 谢春丽 +1 位作者 万泽轩 魏家劲 《计算机应用研究》 CSCD 北大核心 2024年第7期2147-2152,共6页
代码克隆检测是提高软件开发效率、软件质量和可靠性的重要手段。基于抽象语法树(abstract syntax tree,AST)的单语言克隆检测已经取得了较为显著的效果,但跨语言代码的AST节点存在同义词、近义词且手工标注数据集成本高等问题,限制了... 代码克隆检测是提高软件开发效率、软件质量和可靠性的重要手段。基于抽象语法树(abstract syntax tree,AST)的单语言克隆检测已经取得了较为显著的效果,但跨语言代码的AST节点存在同义词、近义词且手工标注数据集成本高等问题,限制了现有克隆检测方法的有效性和实用性。针对上述问题,提出一种基于对比学习的树卷积神经网络(contrastive tree convolutional neuraln etwork,CTCNN)的跨语言代码克隆检测方法。该方法首先将不同编程语言的代码解析为AST,并对AST的节点类型和节点值作同义词转换处理,以降低不同编程语言AST之间的差异;同时,采用对比学习扩充负样本并对模型进行训练,使得在小样本数据集下能够最小化克隆对之间的距离,最大化非克隆对之间的距离。最后在公开数据集上进行了评测,精确度达到95.26%、召回率为99.98%、F_(1)为97.56%。结果表明,相较于现有的最好的CLCDSA和C4方法,该模型的检测精度分别提高了432%和3.73%,其F_(1)值分别提升了29.84%和6.29%,证明了所提模型是一种有效的跨语言代码克隆检测方法。 展开更多
关键词 跨语言 代码克隆 对比学习 抽象语法树
在线阅读 下载PDF
基于对抗双向GRU网络的跨语言情感分类方法 被引量:2
17
作者 李雪芹 杨文丽 李娜娜 《计算机应用与软件》 北大核心 2024年第1期82-88,共7页
为了提高资源匮乏语言的情感分类性能,提出一种基于对抗双向GRU网络相结合的跨语言情感分类模型(ABi-GRU)。通过基于语义双语词嵌入方法来提取中英文文本词向量特征;结合注意力机制的双向GRU网络提取文本的上下文情感特征,同时引入生成... 为了提高资源匮乏语言的情感分类性能,提出一种基于对抗双向GRU网络相结合的跨语言情感分类模型(ABi-GRU)。通过基于语义双语词嵌入方法来提取中英文文本词向量特征;结合注意力机制的双向GRU网络提取文本的上下文情感特征,同时引入生成对抗网络缩小中英文向量特征分布之间的差距;通过情感分类器进行情感分类。实验结果分析表明,该方法有效地提升了跨语言情感分类的准确率。 展开更多
关键词 跨语言情感分类 注意力机制 生成对抗网络 双向GRU网络
在线阅读 下载PDF
基于多策略强化学习的低资源跨语言摘要方法研究 被引量:1
18
作者 冯雄波 黄于欣 +1 位作者 赖华 高玉梦 《计算机工程》 CAS CSCD 北大核心 2024年第2期68-77,共10页
(CLS)旨在给定1个源语言文件(如越南语),生成目标语言(如中文)的摘要。端到端的CLS模型在大规模、高质量的标记数据基础上取得较优的性能,这些标记数据通常是利用机器翻译模型将单语摘要语料库翻译成CLS语料库而构建的。然而,由于低资... (CLS)旨在给定1个源语言文件(如越南语),生成目标语言(如中文)的摘要。端到端的CLS模型在大规模、高质量的标记数据基础上取得较优的性能,这些标记数据通常是利用机器翻译模型将单语摘要语料库翻译成CLS语料库而构建的。然而,由于低资源语言翻译模型的性能受限,因此翻译噪声会被引入到CLS语料库中,导致CLS模型性能降低。提出基于多策略的低资源跨语言摘要方法。利用多策略强化学习解决低资源噪声训练数据场景下的CLS模型训练问题,引入源语言摘要作为额外的监督信号来缓解翻译后的噪声目标摘要影响。通过计算源语言摘要和生成目标语言摘要之间的单词相关性和单词缺失程度来学习强化奖励,在交叉熵损失和强化奖励的约束下优化CLS模型。为验证所提模型的性能,构建1个有噪声的汉语-越南语CLS语料库。在汉语-越南语和越南语-汉语跨语言摘要数据集上的实验结果表明,所提模型ROUGE分数明显优于其他基线模型,相比NCLS基线模型,该模型ROUGE-1分别提升0.71和0.84,能够有效弱化噪声干扰,从而提高生成摘要的质量。 展开更多
关键词 汉语-越南语跨语言摘要 低资源 噪声数据 噪声分析 多策略强化学习
在线阅读 下载PDF
基于跨语言学习的老挝语实体识别方法 被引量:1
19
作者 邓喆 周兰江 周蕾越 《中文信息学报》 CSCD 北大核心 2024年第8期84-92,共9页
传统的命名实体识别系统主要是有监督的机器学习模型,这种方法需要大量的手动标注数据才能实现比较好的效果,难以适用于老挝语这种低资源语言。该文在对汉语和老挝语结构特点进行研究后,针对实验室目前获取的大量汉-老平行句对提出了一... 传统的命名实体识别系统主要是有监督的机器学习模型,这种方法需要大量的手动标注数据才能实现比较好的效果,难以适用于老挝语这种低资源语言。该文在对汉语和老挝语结构特点进行研究后,针对实验室目前获取的大量汉-老平行句对提出了一种基于跨语言学习的老挝语实体识别方法,该方法仅需要汉-老平行句对,而无需大量命名实体标注数据。首先,利用开源命名实体识别工具在汉语端进行命名实体标注;然后,利用跨语言表示和相似度计算将标注从汉语端投影到老挝语端并进行后处理;最后,使用融合词性特征和音节特征的字符向量训练命名实体识别模型。实验表明,基于跨语言学习的老挝语实体识别模型的F_(1)值达到了74.29%。 展开更多
关键词 老挝语 命名实体识别 弱监督学习 跨语言词向量
在线阅读 下载PDF
藏汉跨语言摘要数据集TiCLS 被引量:1
20
作者 欧阳新鹏 闫晓东 《中国科学数据(中英文网络版)》 CSCD 2024年第4期68-75,共8页
是自然语言处理领域中的重要研究方向,旨在源语言的文本上生成目标语言的摘要,帮助人们更好地理解和传播不同语言之间的信息。近年来,随着深度学习和预训练技术的发展,跨语言摘要任务在高资源语言数据上取得了显著的进展。然而藏文等低... 是自然语言处理领域中的重要研究方向,旨在源语言的文本上生成目标语言的摘要,帮助人们更好地理解和传播不同语言之间的信息。近年来,随着深度学习和预训练技术的发展,跨语言摘要任务在高资源语言数据上取得了显著的进展。然而藏文等低资源语言由于可用的数据稀少,藏汉跨语言摘要研究还处于起步阶段。为了推动藏汉跨语言摘要的研究,本研究构建了可用于藏汉跨语言摘要生成任务的数据集,共包含8000个样本,格式为json文件。在每个json文件中有2个键,其中text对应藏文源语言新闻内容,summary对应中文目标语言新闻摘要。本数据集爬取自藏文新闻网站,为保证数据质量,在爬取数据时,去除了通讯社、图片、视频、图片、视频名称描述、报道记者等无关内容,只留下新闻的正文内容,然后借助现有的较成熟的藏汉翻译工具将藏文源语言新闻摘要翻译成中文目标语言摘要。同时为了进一步提高数据集的质量,本研究从摘要的事实一致性、充分性、流畅性等方面对数据集质量进行了评估,经筛选后得到了8000条质量较高的样本。本数据集的发布对推动藏汉跨语言摘要的发展具有重要价值。 展开更多
关键词 藏汉跨语言摘要 藏文 低资源 数据集
在线阅读 下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部