-
题名探索低资源的迭代式复述生成增强方法
被引量:1
- 1
-
-
作者
张琳
刘明童
张玉洁
徐金安
陈钰枫
-
机构
北京交通大学计算机与信息技术学院
-
出处
《智能系统学报》
CSCD
北大核心
2022年第4期680-687,共8页
-
基金
国家自然科学基金项目(61876198,61976015,61976016).
-
文摘
复述生成旨在同一语言内将给定句子转换成语义一致表达不同的句子。目前,基于深度神经网络的复述生成模型的成功依赖于大规模的复述平行语料,当面向新的语言或新的领域时,模型性能急剧下降。面对这一困境,提出低资源的迭代式复述生成增强方法,最大化利用单语语料和小规模复述平行语料迭代式训练复述生成模型并生成复述伪数据,以此增强模型性能。此外,提出了句子流畅性、语义相近性和表达多样性为基准设计的伪数据筛选算法,选取高质量的复述伪数据参与每轮模型的迭代训练。在公开数据集Quora上的实验结果表明,提出的方法仅利用30%的复述语料在语义和多样性指标上均超过了基线模型,验证了所提方法的有效性。
-
关键词
低资源
迭代式
复述生成
数据增强
筛选算法
神经网络模型
编码–解码框架
注意力机制
-
Keywords
low-resource
iterative
paraphrase generation
data enhancement
screening algorithm
neural networks model
encoder-decoder
attention mechanism
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-