-
题名基于关键短语和主题的生成式文本摘要模型
- 1
-
-
作者
郭常江
赵铁军
-
机构
哈尔滨工业大学计算学部
-
出处
《中文信息学报》
北大核心
2025年第8期149-157,共9页
-
基金
国家重点研发计划(2020YFB1406902)
慧点-哈工大合作项目(WBXM202101009)。
-
文摘
序列到序列式的生成式文本摘要研究中一直存在噪声干扰,导致模型生成的摘要无法抓住重点信息,甚至会丢失信息;另一方面,模型又受到训练方式的影响,存在“曝光偏差”问题。经研究发现,在模型训练过程中引入文章关键短语和主题信息,可以有效帮助模型在生成摘要时获取文章的重要信息,基于此该文提出了一个基于关键短语和主题的生成式文本摘要模型。该模型在编码器端引入关键短语门控网络,在解码器端引入主题感知网络,同时加入强化学习方法,缓解传统有监督训练方式的缺陷。该模型在中文数据集LCSTS和英文数据集CNN/Daily Mail数据集上的ROUGE指标均优于前人的结果。进一步,通过消融实验验证各个组件的正向作用。
-
关键词
生成式文本摘要
关键短语门控
主题感知
强化学习
-
Keywords
abstractive summarization
key phrase gate
topic-aware
reinforcement learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-