期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于强化语言关联的中缅越跨语言摘要研究
1
作者 何志磊 高盛祥 +1 位作者 朱恩昌 余正涛 《计算机工程》 北大核心 2025年第8期160-167,共8页
跨语言摘要(CLS)旨在用目标语言(如中文)的文本对源语言(如缅甸语)的文本核心内容进行概括和总结。CLS实质上是机器翻译(MT)和单语摘要(MS)的联合任务,需要模型同时具备这两方面的能力。在面向越南语、缅甸语等低资源语言场景时,CLS训... 跨语言摘要(CLS)旨在用目标语言(如中文)的文本对源语言(如缅甸语)的文本核心内容进行概括和总结。CLS实质上是机器翻译(MT)和单语摘要(MS)的联合任务,需要模型同时具备这两方面的能力。在面向越南语、缅甸语等低资源语言场景时,CLS训练数据稀缺,且中文与缅甸语、越南语属于不同的语系,语言差异较大,导致当前的CLS方法泛化性较差。为此,以缅-中、越-中为研究对象,提出一种语言关系增强的CLS方法。首先将输入序列转化为连续词对;然后计算源语言和目标语言之间的连续词对之间的关系;最后引入MT和MS的联合训练方法,有效地捕捉目标语言和源语言之间的关系,提高模型的泛化性和对连续文本的处理能力。在自建数据集上进行实验,结果表明,相较其他基线模型,该方法在ROUGE-1、ROUGE-2和ROUGE-L评价指标上分别提升了5、1、4百分点。 展开更多
关键词 跨语言摘要 低资源语言 语言差异 连续文本 泛化性
在线阅读 下载PDF
基于多类型词信息引导的汉越跨语言摘要生成方法
2
作者 贾伟强 张勇丙 高盛祥 《计算机应用与软件》 北大核心 2025年第7期161-166,260,共7页
任务大多依赖于机器翻译,而越南语这类低资源语种翻译效果不佳,汉越跨语言摘要面临着数据稀缺下双语语义对齐困难的问题。针对该问题,提出一种基于多类型词信息引导的汉越跨语言摘要生成方法。利用显式的关键词信息引导对源文本重要信... 任务大多依赖于机器翻译,而越南语这类低资源语种翻译效果不佳,汉越跨语言摘要面临着数据稀缺下双语语义对齐困难的问题。针对该问题,提出一种基于多类型词信息引导的汉越跨语言摘要生成方法。利用显式的关键词信息引导对源文本重要信息的编码;利用外部汉越双语概率词典中的词对齐信息,引导编解码器对关键信息的双语对齐;基于指针-生成网络,将两类词信息应用于越南语摘要的生成任务。在构建的汉越跨语言摘要数据集上的实验结果表明,该模型可以有效提升跨语言摘要生成的质量。 展开更多
关键词 多类型词信息 外部知识 词对齐 关键词引导 跨语言摘要
在线阅读 下载PDF
低资源场景下的汉语—传统蒙古语跨语言摘要方法研究
3
作者 班琪 云静 邓磊 《计算机工程与科学》 北大核心 2025年第5期931-939,共9页
跨语言摘要任务旨在给定一种语言的源文档(如中文)生成目标语言(如传统蒙古文)的摘要。传统的多任务框架通常采用序列到序列的网络,应用多个专用于各特定任务的解码器。然而,在将文档从一种语言提炼为另一种具有不同形态和结构特性语言... 跨语言摘要任务旨在给定一种语言的源文档(如中文)生成目标语言(如传统蒙古文)的摘要。传统的多任务框架通常采用序列到序列的网络,应用多个专用于各特定任务的解码器。然而,在将文档从一种语言提炼为另一种具有不同形态和结构特性语言的摘要时,多任务框架无法有效捕捉和理解2种语言之间的关系和差异。特别是对于传统蒙古语,其形态变化繁杂、构词形式多样的特点,使得低资源下语言特征的学习和处理变得更加困难。为了解决这一问题,提出一种在多任务框架中引入一致性学习的跨语言摘要模型。通过计算源语言摘要和生成的目标语言摘要之间概率分布差异的距离度量进行一致性建模,在交叉熵损失和一致性损失的约束下优化跨语言摘要模型。此外,构建了一个中—蒙跨语言摘要数据集,在此数据集上获得了有竞争力的ROUGE分数,表明了所提模型在资源匮乏情况下的有效性。 展开更多
关键词 中—蒙跨语言摘要 一致性学习 低资源
在线阅读 下载PDF
基于多策略强化学习的低资源跨语言摘要方法研究 被引量:1
4
作者 冯雄波 黄于欣 +1 位作者 赖华 高玉梦 《计算机工程》 CAS CSCD 北大核心 2024年第2期68-77,共10页
(CLS)旨在给定1个源语言文件(如越南语),生成目标语言(如中文)的摘要。端到端的CLS模型在大规模、高质量的标记数据基础上取得较优的性能,这些标记数据通常是利用机器翻译模型将单语摘要语料库翻译成CLS语料库而构建的。然而,由于低资... (CLS)旨在给定1个源语言文件(如越南语),生成目标语言(如中文)的摘要。端到端的CLS模型在大规模、高质量的标记数据基础上取得较优的性能,这些标记数据通常是利用机器翻译模型将单语摘要语料库翻译成CLS语料库而构建的。然而,由于低资源语言翻译模型的性能受限,因此翻译噪声会被引入到CLS语料库中,导致CLS模型性能降低。提出基于多策略的低资源跨语言摘要方法。利用多策略强化学习解决低资源噪声训练数据场景下的CLS模型训练问题,引入源语言摘要作为额外的监督信号来缓解翻译后的噪声目标摘要影响。通过计算源语言摘要和生成目标语言摘要之间的单词相关性和单词缺失程度来学习强化奖励,在交叉熵损失和强化奖励的约束下优化CLS模型。为验证所提模型的性能,构建1个有噪声的汉语-越南语CLS语料库。在汉语-越南语和越南语-汉语跨语言摘要数据集上的实验结果表明,所提模型ROUGE分数明显优于其他基线模型,相比NCLS基线模型,该模型ROUGE-1分别提升0.71和0.84,能够有效弱化噪声干扰,从而提高生成摘要的质量。 展开更多
关键词 汉语-越南语跨语言摘要 低资源 噪声数据 噪声分析 多策略强化学习
在线阅读 下载PDF
低资源场景下基于联合训练与自训练的跨语言摘要方法
5
作者 程绍欢 唐煜佳 +1 位作者 刘峤 陈文宇 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第5期762-770,共9页
随着全球化的不断发展,跨语言摘要任务已成为自然语言处理领域的一项重要课题。在低资源场景下,现有方法存在表征转换受限和数据利用不充分等问题。为此,该文提出了一种基于联合训练与自训练的跨语言摘要方法。该方法使用两个模型分别... 随着全球化的不断发展,跨语言摘要任务已成为自然语言处理领域的一项重要课题。在低资源场景下,现有方法存在表征转换受限和数据利用不充分等问题。为此,该文提出了一种基于联合训练与自训练的跨语言摘要方法。该方法使用两个模型分别建模翻译任务和跨语言摘要任务,以统一输出端的语言向量空间,从而避免模型间表征转换受限的问题。此外,通过对齐平行训练对的输出特征和概率进行联合训练,增强模型间的语义共享。同时,在联合训练的基础上引入自训练技术,利用额外的单语摘要数据生成合成数据,有效缓解了低资源场景下数据稀缺的问题。实验结果表明,该方法在多个低资源场景下均优于现有对比方法,实现了ROUGE分数的显著提升。 展开更多
关键词 跨语言摘要 联合训练 低资源场景 机器翻译 自训练
在线阅读 下载PDF
使用词对齐半监督对抗学习的汉越跨语言摘要生成方法 被引量:4
6
作者 王剑 张莹 +1 位作者 余正涛 黄于欣 《小型微型计算机系统》 CSCD 北大核心 2022年第5期992-997,共6页
是将输入的源语言文本生成目标语言摘要的过程.目前跨语言摘要任务大多是借助于机器翻译,而针对越南语这类低资源语言,机器翻译效果不佳是汉越跨语言摘要面临的挑战.针对该问题,提出了一种基于词对齐的半监督对抗学习汉越跨语言摘要生... 是将输入的源语言文本生成目标语言摘要的过程.目前跨语言摘要任务大多是借助于机器翻译,而针对越南语这类低资源语言,机器翻译效果不佳是汉越跨语言摘要面临的挑战.针对该问题,提出了一种基于词对齐的半监督对抗学习汉越跨语言摘要生成方法,其思想是将汉越双语对齐到同一空间,得到对齐的双语特征,然后同时利用双语特征生成跨语言摘要.具体来讲,基于编解码框架,首先利用Bert编码器分别对输入的汉越文本进行向量表征;然后基于汉越双语词典的半监督对抗学习方法,实现双语词向量在同一语义空间对齐;最后基于注意力机制同时关注双语上下文向量,解码得到目标语言摘要.在收集的汉越摘要数据集上的实验结果表明,该方法可以有效提升汉越跨语言摘要模型的性能. 展开更多
关键词 跨语言摘要 Bert 半监督对抗学习 词对齐
在线阅读 下载PDF
跨语言摘要研究综述 被引量:2
7
作者 潘航宇 席耀一 +2 位作者 陈宇飞 曹蓉 南煜 《小型微型计算机系统》 CSCD 北大核心 2023年第8期1616-1628,共13页
跨语言摘要能将一种语言的文本总结为另一种语言的摘要,旨在帮助人们快速准确地获取陌生语言文本的关键信息.目前,针对该研究的全面综述工作十分稀缺.因此,本文回顾跨语言摘要的研究发展,在全面调研和深入分析的基础上,从研究方法、数... 跨语言摘要能将一种语言的文本总结为另一种语言的摘要,旨在帮助人们快速准确地获取陌生语言文本的关键信息.目前,针对该研究的全面综述工作十分稀缺.因此,本文回顾跨语言摘要的研究发展,在全面调研和深入分析的基础上,从研究方法、数据集、评价方法以及未来方向等4个方面对跨语言摘要的研究工作展开综述.首先,全面梳理了现有跨语言摘要方法,概括为“先翻译后摘要”、“先摘要后翻译”、间接学习方法、辅助学习方法以及特征增强方法等5大类,并进行了优缺点分析.其次,归纳和分析了跨语言摘要数据集的构建方法,并对现有数据集进行了详尽整理.然后,系统地总结和分析了跨语言摘要评价方法.最后,进一步讨论了未来研究方向. 展开更多
关键词 跨语言摘要 方法模型 数据集 评价方法 未来研究方向
在线阅读 下载PDF
融合关键词概率映射的汉越低资源跨语言摘要
8
作者 李笑萌 张亚飞 +2 位作者 郭军军 高盛祥 余正涛 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期630-637,共8页
在低资源汉越跨语言摘要任务中,由于标注的汉越对齐数据稀缺,较难实现跨语言语义对齐.鉴于此,提出一种融合关键词概率映射的低资源跨语言摘要方法,首先利用源语言关键词实现关键信息的提取,然后基于概率映射对将源语言关键词映射到目标... 在低资源汉越跨语言摘要任务中,由于标注的汉越对齐数据稀缺,较难实现跨语言语义对齐.鉴于此,提出一种融合关键词概率映射的低资源跨语言摘要方法,首先利用源语言关键词实现关键信息的提取,然后基于概率映射对将源语言关键词映射到目标语言,最后基于指针网络将映射的目标语言关键词融入到摘要生成过程中.在构建的汉越跨语言摘要数据集上的实验结果表明,相比于直接的端到端的方法,融入关键词概率映射信息可以有效地提升低资源跨语言摘要的质量. 展开更多
关键词 低资源跨语言摘要 语言语义对齐 关键词 概率映射
在线阅读 下载PDF
跨语言摘要方法研究综述 被引量:1
9
作者 郑博飞 云静 +2 位作者 刘利民 焦磊 袁静姝 《计算机工程与应用》 CSCD 北大核心 2023年第13期49-60,共12页
随着互联网的发展,各种语言文章涌现。为了用户能快速地了解文章的主要内容,需要获取不同语言之间的文本主旨信息。跨语言摘要是利用计算机从多种语言文本中提炼出一种能反映文本主旨的方法。从跨语言摘要方法发展的角度切入,对跨语言... 随着互联网的发展,各种语言文章涌现。为了用户能快速地了解文章的主要内容,需要获取不同语言之间的文本主旨信息。跨语言摘要是利用计算机从多种语言文本中提炼出一种能反映文本主旨的方法。从跨语言摘要方法发展的角度切入,对跨语言摘要的研究工作进行了全面的调查,梳理了跨语言摘要方法的发展过程,定义了跨语言摘要的任务。对其关键技术进行讨论与分析,总结出这些方法的差异与不足,勾画出从最初的基于管道式方法到深度学习普及后出现的基于端到端的方法的研究主线,并对跨语言摘要数据集进行了分析总结。最后对跨语言摘要面临的挑战和未来研究趋势进行分析与展望。 展开更多
关键词 跨语言摘要 深度学习 管道式 端到端方法 自然语言处理
在线阅读 下载PDF
藏汉跨语言摘要数据集TiCLS
10
作者 欧阳新鹏 闫晓东 《中国科学数据(中英文网络版)》 2024年第4期68-75,共8页
是自然语言处理领域中的重要研究方向,旨在源语言的文本上生成目标语言的摘要,帮助人们更好地理解和传播不同语言之间的信息。近年来,随着深度学习和预训练技术的发展,跨语言摘要任务在高资源语言数据上取得了显著的进展。然而藏文等低... 是自然语言处理领域中的重要研究方向,旨在源语言的文本上生成目标语言的摘要,帮助人们更好地理解和传播不同语言之间的信息。近年来,随着深度学习和预训练技术的发展,跨语言摘要任务在高资源语言数据上取得了显著的进展。然而藏文等低资源语言由于可用的数据稀少,藏汉跨语言摘要研究还处于起步阶段。为了推动藏汉跨语言摘要的研究,本研究构建了可用于藏汉跨语言摘要生成任务的数据集,共包含8000个样本,格式为json文件。在每个json文件中有2个键,其中text对应藏文源语言新闻内容,summary对应中文目标语言新闻摘要。本数据集爬取自藏文新闻网站,为保证数据质量,在爬取数据时,去除了通讯社、图片、视频、图片、视频名称描述、报道记者等无关内容,只留下新闻的正文内容,然后借助现有的较成熟的藏汉翻译工具将藏文源语言新闻摘要翻译成中文目标语言摘要。同时为了进一步提高数据集的质量,本研究从摘要的事实一致性、充分性、流畅性等方面对数据集质量进行了评估,经筛选后得到了8000条质量较高的样本。本数据集的发布对推动藏汉跨语言摘要的发展具有重要价值。 展开更多
关键词 藏汉跨语言摘要 藏文 低资源 数据集
在线阅读 下载PDF
融合图像信息的越汉跨语言新闻文本摘要方法
11
作者 吴奇远 余正涛 +2 位作者 黄于欣 谭凯文 张勇丙 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期714-723,共10页
[目的]为了有效剔除冗余文本信息,提高摘要简洁性同时充分利用图像信息提高摘要准确性,对融合图像信息的越汉跨语言新闻文本摘要方法进行研究.[方法]首先利用文本编码器和图像编码器对越南语新闻文本和图像进行表征,其次利用图文对比损... [目的]为了有效剔除冗余文本信息,提高摘要简洁性同时充分利用图像信息提高摘要准确性,对融合图像信息的越汉跨语言新闻文本摘要方法进行研究.[方法]首先利用文本编码器和图像编码器对越南语新闻文本和图像进行表征,其次利用图文对比损失增强图像和文本表征的一致性,迫使越南语的表征空间趋近于与语言无关的图像表征空间,然后利用图文融合器进行图像和文本的有效融合,增强新闻文本的关键信息提取能力,最后利用摘要解码器生成中文摘要.[结果]在本文构建的越汉多模态跨语言摘要数据集上,相较于对比方法,本方法生成的摘要具备更高的ROUGE分数、信息量、简洁度和流畅度.[结论]引入图像信息有利于生成高质量的跨语言摘要;采用单任务直接学习两种语言的互动信息可以降低将跨语言摘要分解为多任务带来的误差累积. 展开更多
关键词 跨语言摘要 越汉语言新闻摘要 图文融合 图文对比损失
在线阅读 下载PDF
基于对比注意力机制的跨语言句子摘要系统 被引量:8
12
作者 殷明明 史小静 +1 位作者 俞鸿飞 段湘煜 《计算机工程》 CAS CSCD 北大核心 2020年第5期86-93,共8页
当今句子摘要研究主要针对单语,即源端句子和目标端摘要短语属于同种语言,然而单语句子摘要严重制约了不同语言文本信息的快速获取。为解决该问题,提出一种跨语言句子摘要系统。借鉴回译思想,将单语句子摘要平行语料中的源端通过神经机... 当今句子摘要研究主要针对单语,即源端句子和目标端摘要短语属于同种语言,然而单语句子摘要严重制约了不同语言文本信息的快速获取。为解决该问题,提出一种跨语言句子摘要系统。借鉴回译思想,将单语句子摘要平行语料中的源端通过神经机器翻译系统翻译成另一种语言,将其与句子摘要平行语料中目标端的摘要短语共同构成跨语言的伪平行语料。在此基础上,利用对比注意力机制,实现目标端与源端序列中不相关信息的获取,解决了传统注意力机制中源端和目标端句子长度不匹配的问题。实验结果表明,与基于管道方法的单语句子摘要系统相比,该跨语言系统生成的摘要短语更流畅且符合人类语言表述方式,可达到接近单语的句子摘要水平。 展开更多
关键词 语言句子摘要 平行语料 伪语料 对比注意力机制 管道方法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部