-
题名基于多策略强化学习的低资源跨语言摘要方法研究
被引量:1
- 1
-
-
作者
冯雄波
黄于欣
赖华
高玉梦
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第2期68-77,共10页
-
基金
国家自然科学基金(U21B2027)
云南省重大科技专项项目(202202AD080003)
+1 种基金
云南省基础研究计划面上项目(202201AT070915,202201AT070768)
昆明理工大学“双一流”创建联合专项(202201BE070001-021)。
-
文摘
(CLS)旨在给定1个源语言文件(如越南语),生成目标语言(如中文)的摘要。端到端的CLS模型在大规模、高质量的标记数据基础上取得较优的性能,这些标记数据通常是利用机器翻译模型将单语摘要语料库翻译成CLS语料库而构建的。然而,由于低资源语言翻译模型的性能受限,因此翻译噪声会被引入到CLS语料库中,导致CLS模型性能降低。提出基于多策略的低资源跨语言摘要方法。利用多策略强化学习解决低资源噪声训练数据场景下的CLS模型训练问题,引入源语言摘要作为额外的监督信号来缓解翻译后的噪声目标摘要影响。通过计算源语言摘要和生成目标语言摘要之间的单词相关性和单词缺失程度来学习强化奖励,在交叉熵损失和强化奖励的约束下优化CLS模型。为验证所提模型的性能,构建1个有噪声的汉语-越南语CLS语料库。在汉语-越南语和越南语-汉语跨语言摘要数据集上的实验结果表明,所提模型ROUGE分数明显优于其他基线模型,相比NCLS基线模型,该模型ROUGE-1分别提升0.71和0.84,能够有效弱化噪声干扰,从而提高生成摘要的质量。
-
关键词
汉语-越南语跨语言摘要
低资源
噪声数据
噪声分析
多策略强化学习
-
Keywords
Chinese-Vietnamese Cross-Lingual Summarization(CLS)
low-resource
noise data
noise analysis
multi-strategy reinforcement learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-