-
题名基于视觉关联与上下文双注意力的图像描述生成方法
被引量:15
- 1
-
-
作者
刘茂福
施琦
聂礼强
-
机构
武汉科技大学计算机科学与技术学院
山东大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2022年第9期3210-3222,共13页
-
文摘
图像描述生成有着重要的理论意义与应用价值,在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法,在同一时刻融合当前词和视觉信息以生成目标词,忽略了视觉连贯性及上下文信息,导致生成描述与参考描述存在差异.针对这一问题,提出一种基于视觉关联与上下文双注意力机制的图像描述生成方法(visual relevance and context dual attention, VRCDA).视觉关联注意力在传统视觉注意力中增加前一时刻注意力向量以保证视觉连贯性,上下文注意力从全局上下文中获取更完整的语义信息,以充分利用上下文信息,进而指导生成最终的图像描述文本.在MSCOCO和Flickr30k两个标准数据集上进行了实验验证,结果表明所提出的VRCDA方法能够有效地生成图像语义描述,相比于主流的图像描述生成方法,在各项评价指标上均取得了较高的提升.
-
关键词
图像描述生成
双注意力机制
视觉关联注意力
上下文注意力
-
Keywords
image captioning
dual attention mechanism
visual relevance attention
context attention
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-