-
题名基于双注意模型的图像描述生成方法研究
被引量:6
- 1
-
-
作者
卓亚琦
魏家辉
李志欣
-
机构
桂林理工大学理学院
广西师范大学广西多源信息挖掘与安全重点实验室
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2022年第5期1123-1130,共8页
-
基金
国家自然科学基金(No.61966004,No.61866004)
广西自然科学基金(No.2019GXNSFDA245018)
广西研究生教育创新计划(No.XY-CBZ2021002)。
-
文摘
现有图像描述生成方法的注意模型通常采用单词级注意,从图像中提取局部特征作为生成当前单词的视觉信息输入,缺乏准确的图像全局信息指导.针对这个问题,提出基于语句级注意的图像描述生成方法,通过自注意机制从图像中提取语句级的注意信息,来表示生成语句所需的图像全局信息.在此基础上,结合语句级注意和单词级注意进一步提出了双注意模型,以此来生成更准确的图像描述.通过在模型的中间阶段实施监督和优化,以解决信息间的干扰问题.此外,将强化学习应用于两阶段的训练来优化模型的评估度量.通过在MSCOCO和Flickr30K两个基准数据集上的实验评估,结果表明本文提出的方法能够生成更加准确和丰富的描述语句,并且在各项评价指标上优于现有的多种基于注意机制的方法.
-
关键词
图像描述生成
编码器-解码器架构
单词级注意
语句级注意
双注意模型
强化学习
-
Keywords
image captioning
encoder-decoder architecture
word-level attention
sentence-level attention
double attention model
reinforcement learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-