期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于视觉关联与上下文双注意力的图像描述生成方法 被引量:15
1
作者 刘茂福 施琦 聂礼强 《软件学报》 EI CSCD 北大核心 2022年第9期3210-3222,共13页
图像描述生成有着重要的理论意义与应用价值,在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法,在同一时刻融合当前词和视觉信息以生成目标词,忽略了视觉连贯性及上下文信息,导致生成描述与参考描述存... 图像描述生成有着重要的理论意义与应用价值,在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法,在同一时刻融合当前词和视觉信息以生成目标词,忽略了视觉连贯性及上下文信息,导致生成描述与参考描述存在差异.针对这一问题,提出一种基于视觉关联与上下文双注意力机制的图像描述生成方法(visual relevance and context dual attention, VRCDA).视觉关联注意力在传统视觉注意力中增加前一时刻注意力向量以保证视觉连贯性,上下文注意力从全局上下文中获取更完整的语义信息,以充分利用上下文信息,进而指导生成最终的图像描述文本.在MSCOCO和Flickr30k两个标准数据集上进行了实验验证,结果表明所提出的VRCDA方法能够有效地生成图像语义描述,相比于主流的图像描述生成方法,在各项评价指标上均取得了较高的提升. 展开更多
关键词 图像描述生成 注意力机制 视觉关联注意力 上下文注意力
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部