-
题名低资源场景下的汉语—传统蒙古语跨语言摘要方法研究
- 1
-
-
作者
班琪
云静
邓磊
-
机构
内蒙古工业大学数据科学与应用学院(网络空间安全学院)
内蒙古自治区基于大数据的软件服务工程技术研究中心
-
出处
《计算机工程与科学》
北大核心
2025年第5期931-939,共9页
-
基金
国家自然科学基金(62062055)
内蒙古高校青年科技英才项目(NJYT24061)
内蒙古自治区直属高校基本科研业务费(JY20220249)。
-
文摘
跨语言摘要任务旨在给定一种语言的源文档(如中文)生成目标语言(如传统蒙古文)的摘要。传统的多任务框架通常采用序列到序列的网络,应用多个专用于各特定任务的解码器。然而,在将文档从一种语言提炼为另一种具有不同形态和结构特性语言的摘要时,多任务框架无法有效捕捉和理解2种语言之间的关系和差异。特别是对于传统蒙古语,其形态变化繁杂、构词形式多样的特点,使得低资源下语言特征的学习和处理变得更加困难。为了解决这一问题,提出一种在多任务框架中引入一致性学习的跨语言摘要模型。通过计算源语言摘要和生成的目标语言摘要之间概率分布差异的距离度量进行一致性建模,在交叉熵损失和一致性损失的约束下优化跨语言摘要模型。此外,构建了一个中—蒙跨语言摘要数据集,在此数据集上获得了有竞争力的ROUGE分数,表明了所提模型在资源匮乏情况下的有效性。
-
关键词
中—蒙跨语言摘要
一致性学习
低资源
-
Keywords
Chinese—Mongolian cross-lingual summarization
consistency learning
low-resource
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-