期刊文献+

结合引导解码和视觉注意力的图像语义描述模型 被引量:2

Image semantic description model based on guided decoding and visual attention
在线阅读 下载PDF
导出
摘要 针对输入的图像视觉信息不能在每一步解码过程中动态调整,同时为了提高图像语义描述模型的精度和泛化能力,提出了一种结合引导解码和视觉注意力机制的双层长短时记忆(long short term memory,LSTM)网络的图像语义描述模型。将提取到的图像的视觉和目标特征通过一个引导网络建模后送入LSTM网络的每一时刻,实现端到端的训练过程;同时设计了基于图像通道特征的视觉注意力机制,提高了模型对图像细节部分的描述。利用MSCOCO和Flickr30k数据集对模型进行了训练和测试,结果显示模型性能在不同的评价指标上都得到了提升。 The visual information of the input image can not be dynamically adjusted in each step of the decoding process.In order to improve the accuracy and generalization ability of the image semantic description model,this paper developed an image semantic description model of a double-layer long short-term memory(LSTM)network combined with guided decoding and vi-sual attention mechanism.The guiding network modeled the visual and target features of the extracted image and sent it to each time step of the LSTM network to implement an end-to-end training process.At the same time,the visual attention mechanism based on the channel features of the image improved the description of the image details.It trained and tested the model by using the MSCOCO and Flickr30K datasets.The results show that the performance of the model has been improved on different evaluation indicators.
作者 马坤阳 林金朝 庞宇 Ma Kunyang;Lin Jinzhao;Pang Yu(Chongqing Key Laboratory of Photoelectronic Information Sensing&Transmitting Technology,Chongqing University of Posts&Telecommunications,Chongqing 400065,China)
出处 《计算机应用研究》 CSCD 北大核心 2020年第11期3504-3506,3515,共4页 Application Research of Computers
基金 国家自然科学基金资助项目(61471075,61671091) 重庆科委自然科学基金资助项目(cstc2016jcyjA0347) 重庆高校创新团队建设计划资助项目。
关键词 图像描述 多示例学习 引导解码 视觉注意力机制 image description multiple instance learning guide decoding visual attention mechanism
作者简介 通信作者:马坤阳(1994-),男,四川南充人,硕士,主要研究方向为机器视觉、深度学习(947135616@qq.com);林金朝(1966-),男,四川蓬溪人,教授,博导,博士,主要研究方向为图像处理、智慧医疗;庞宇(1978-),男,浙江宁波人,教授,博士,主要研究方向为信息检测、图像处理.
  • 相关文献

同被引文献13

引证文献2

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部