图像描述生成方法研究文献综述被引量：8

Research on image caption generation method based on deep learning:A literature review

在线阅读下载PDF

导出

摘要随着人工智能技术的兴起,图像特征提取技术和文本自动生成技术都得到了长足的进步,将两者结合的图像描述生成技术也越来越受到学术界和工业界的重视。图像到文本生成是一个综合性问题,涉及自然语言处理和计算机视觉等领域。本文介绍了图像描述生成技术的研究背景及国内外研究现状,概述了目前研究者评估生成图像描述质量的图像数据集,对现有模型进行了详细的分类概括:基于模板的图像描述生成方法、基于检索的图像描述生成方法、基于深度学习的图像描述生成方法。与此同时一并总结阐述了该领域面临的问题和挑战。 Image caption generation technology is used in many fields such as news communication,smart transportation,smart home and smart medical.Therefore,this technology has important academic and practical value.Image-to-text generation is a comprehensive problem involving areas such as natural language processing and computer vision.This paper introduces the research background of image caption generation technology and the research status at home and abroad,and summarizes the current image datasets that researchers evaluate to generate quality of the image caption.The existing models are classified and summarized in detail:template-based image caption generation method,retrieval-based image caption generation method and deep-learning-based image caption generation method.It also summarizes the problems and challenges which the field is facing.

作者张姣杨振宇 ZHANG Jiao;YANG Zhenyu(Qilu University of Technology(Shandong Academy of Sciences),Jinan 250353,China)

机构地区齐鲁工业大学(山东省科学院)

出处《智能计算机与应用》 2019年第5期45-49,共5页 Intelligent Computer and Applications

基金山东省自然科学基金(ZR2017LF021) 山东省重点研究发展计划(2017XCGC0605)

关键词图像描述文本生成特征提取计算机视觉 image caption text generation feature extraction computer vision

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

作者简介张姣(1993-),女,硕士研究生,主要研究方向:深度学习、大数据智能制造与分析;杨振宇(1980-),男,博士,副教授,主要研究方向:深度学习、强化学习、人工智能与大数据。

引文网络
相关文献

参考文献2

1郭乔进,丁轶,李宁.基于关键词的图像标注综述[J].计算机工程与应用,2011,47(30):155-158. 被引量：5
2陈龙杰,张钰,张玉梅,吴晓军.基于多注意力多尺度特征融合的图像描述生成算法[J].计算机应用,2019,39(2):354-359. 被引量：17

二级参考文献40

1Makadia A, Pavlovic V, Kttmar S.A New Baseline for Image Annotation[C]//Proceedings of European Conference on Com- puter Vision, 2008,5304 .. 316-329.
2Boll S.Share It,reveal It,reuse It,and push multimedia into a new decade[J].IEEE Multimedia,2007,14(4) : 14-19.
3Tsai C,Hung C.Automatically annotating images with keywords: a review of image annotation systems[J].Recent Patents on Com- puter Science, 2008,1 ( 1 ) : 55-68.
4Hanbury A.A survey of methods for image annotation[J].Joumal of Visual Languages and Computing,2008,19(5):617-627.
5Hare J, Lewis P, Enser P, et al.Mind the gap: another look at the problem of the semantic gap in image retrieval[C]//Proeeedings of SPIE,2006,6073:75-86.
6Russell B C, Torralba A, Murphy K P, et al.Labelme: a database and web-based tool for image annotation[J].International Journal of Computer Vision, 2008,77:157-173.
7yon Ahn L, Dabbish L.Labeling images with a computer game[C]// Proceedings of the SIGCHI Conference on Human factors in Com- puting Systems, 2004: 319-326.
8Jeon J, Lavrenko V, Manmatha R.Automatic image annotation and retrieval using cross-media relevance models[C]//Proceedings of ACM SIGIR Conference on Research and Development in In- formaion Retrieval,2003 : 119-126.
9Jeon L, Lavrenko V, Manmatha R, et al.A model for learning the semantics of pictures[C]//Annual Conference on Neural Informa- tion Processing Systems, 2003.
10Feng S L, Manmatha R, Lavrenko V.Multiple Bernoulli relevance models for image and video annotation[C]//Proceedings of IEEE Conference on Computer Vision and Pattem Recognition, 2004, 2 : 1002-1009.

共引文献20

1曹洁,罗菊香,李晓旭.改进Corr-LDA的图像标注概率主题模型[J].小型微型计算机系统,2017,38(3):615-619. 被引量：4
2黄友文,游亚东,赵朋.融合卷积注意力机制的图像描述生成模型[J].计算机应用,2020,40(1):23-27. 被引量：14
3蒋宁,方景龙,杨庆.基于单点多盒检测器的全局-局部层级的域适应目标检测[J].计算机应用,2021,41(2):517-522. 被引量：1
4李文惠,曾上游,王金金.基于改进注意力机制的图像描述生成算法[J].计算机应用,2021,41(5):1262-1267. 被引量：6
5陈庆林,谷雨,宋忠浩,聂圣东.融合检测与跟踪的半自动视频目标标注[J].计算机工程与应用,2021,57(14):223-230. 被引量：1
6韩志峰,白雪冰,蒋龙泉,黄云刚,冯瑞.音视频大数据样本库入库规范[J].微型电脑应用,2021,37(7):27-30. 被引量：1
7张宸嘉,朱磊,陈璞,俞璐.基于注意力机制的通信辐射源个体识别方法[J].通信技术,2021,54(7):1594-1600. 被引量：1
8李欣晔,张承强,周雄图,郭太良,张永爱.多场景融合的细粒度图像描述生成算法[J].计算机与现代化,2021(9):1-6. 被引量：1
9曹渝昆,魏健强,孙涛,徐越.基于IndRNN与BN的深层图像描述模型[J].计算机工程,2021,47(10):194-200. 被引量：1
10张宸嘉,朱磊,俞璐.卷积神经网络中的注意力机制综述[J].计算机工程与应用,2021,57(20):64-72. 被引量：122

同被引文献33

1魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁.从视觉到文本:图像描述生成的研究进展综述[J].中文信息学报,2020(7):19-29. 被引量：14
2姚顺宇,王志武(指导),颜国正.双层双向长短期记忆应用于云轨精确定位[J].光学精密工程,2020,28(1):166-173. 被引量：3
3张宁.基于内容的多媒体检索的研究现状和应用前景[J].上饶师范学院学报,2006,26(3):79-83. 被引量：2
4李熙利.数字档案馆多媒体检索系统实现分析[J].北京档案,2012(12):30-31. 被引量：2
5张明媛,曹志颖,赵雪峰,杨震.基于深度学习的建筑工人安全帽佩戴识别研究[J].安全与环境学报,2019,19(2):535-541. 被引量：68
6庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：483
7张凤,高航.自然语言处理技术在西方国家军事领域的应用现状[J].国防科技,2014,35(6):75-82. 被引量：2
8葛运东,陈洪梅,姚建民.自然语言处理的技术和产业应用现状与趋势分析[J].产业与科技论坛,2019,0(17):113-114. 被引量：6
9杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：443
10曹娟,龚隽鹏,张鹏洲.数据到文本生成研究综述[J].计算机技术与发展,2019,29(1):80-84. 被引量：12

引证文献8

1韦人予,蒙祖强.基于注意力特征自适应校正的图像描述模型[J].计算机应用,2020,40(S01):45-50. 被引量：4
2周自维,王朝阳,徐亮.基于融合门网络的图像理解算法设计与应用[J].光学精密工程,2021,29(4):906-915. 被引量：4
3李欣晔,张承强,周雄图,郭太良,张永爱.多场景融合的细粒度图像描述生成算法[J].计算机与现代化,2021(9):1-6. 被引量：1
4林椹尠,冯菲蓉.一种用于图像描述的高效编码方法[J].西安邮电大学学报,2022,27(3):77-83. 被引量：1
5武光利,郭振洲,李雷霆.融合自上而下和自下而上注意力的图像描述生成[J].科学技术与工程,2022,22(32):14313-14320. 被引量：4
6李公全,李智国,李卫星,高栋.自然语言生成技术及其在军事领域应用[J].中国电子科学研究院学报,2022,17(10):935-942. 被引量：3
7袁启旺,芦健秋,户传真,涂小雅,周志文.深度学习图像字幕应用于施工现场视觉管理研究[J].科技风,2023(29):1-3.
8胡泳霞,KIM Donghyun.基于扩散模型的文本生成图像研究综述[J].计算机应用文摘,2025,41(4):196-198.

二级引证文献17

1周宇辉,何志琴.基于改进注意力机制的图像描述算法[J].智能计算机与应用,2022,12(2):58-63. 被引量：1
2李康康,张静.基于注意力机制的多层次编码和解码的图像描述模型[J].计算机应用,2021,41(9):2504-2509. 被引量：3
3冯燕茹,王一斌.物理成像模型的分解合成循环细化去雾网络[J].光学精密工程,2021,29(11):2692-2702. 被引量：4
4申良喜,吴璇,张巍巍.基于多尺度迁移学习的雷达辐射源信号识别算法[J].信息化研究,2021,47(6):6-10. 被引量：1
5肖成勇,李擎,张德政,崔家瑞,陈岩.基于深度学习的计算机视觉创新实验平台设计与实现[J].实验室研究与探索,2022,41(4):94-98. 被引量：6
6李志欣,苏强.基于知识辅助的图像描述生成[J].广西师范大学学报（自然科学版）,2022,40(5):418-432.
7衡红军,范昱辰,王家亮.基于Transformer的多方面特征编码图像描述生成算法[J].计算机工程,2023,49(2):199-205. 被引量：4
8刘仲民,陈恒,胡文瑾.SENet生成对抗网络在图像语义描述中的应用[J].光学精密工程,2023,31(9):1379-1389. 被引量：2
9彭姣丽.基于深度学习的自动生成图像描述技术研究[J].中国新技术新产品,2023(7):12-14.
10张晨,王圣焘,武光利.基于递归长短期记忆网络和镜头序列注意网络的视频摘要生成[J].科学技术与工程,2023,23(18):7852-7860.

1杜一凡.我国“医疗+商业”模式综合体研究文献综述[J].现代商业,2019,0(25):19-20. 被引量：1
2吕敬宜.国外翻转课堂教学模式在高等教育背景下的研究文献综述[J].才智,2019,0(27):28-28. 被引量：2
3潘磊宇,王立军.数字贸易发展研究文献综述[J].经济与社会发展研究,2019,0(8):0132-0134.
4罗锋,隋爱娜.一种基于多级LSTM解码器的细粒度图像描述方法[J].软件导刊,2019,18(9):58-61.
5袁微,蔡敏.英语学科核心素养研究文献综述[J].新东方英语（中英文版）,2018(6):57-58.
6王炜洁,易重华.传承红色基因研究文献综述[J].海军工程大学学报（综合版）,2019,16(3):13-18. 被引量：2
7吴宇晗,朱峙成,王荣杰,刘佳玮,陈丽芳.基于深度学习的自适应游戏剧情生成系统研究[J].智能计算机与应用,2019,9(5):87-90.
8肖欣延,吕雅娟,吴甜.文本生成技术及其在百度产品中的应用[J].人工智能,2018,0(1):92-99. 被引量：1
9杨庆祥.无“解”之“解”——刘禾《六个字母的解法》的多重叙事[J].中国当代文学研究,2019,0(3):206-211.
10余利明,龚翠然,罗震,郑杨清,周照喜,许莹.纳米二氧化硅改性水性聚氨酯的研究进展[J].精细化工中间体,2019,49(4):5-9. 被引量：2

智能计算机与应用

2019年第5期

浏览历史

内容加载中请稍等...

图像描述生成方法研究文献综述被引量：8

参考文献2

二级参考文献40

共引文献20

同被引文献33

引证文献8

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

图像描述生成方法研究文献综述 被引量：8

参考文献2

二级参考文献40

共引文献20

同被引文献33

引证文献8

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

图像描述生成方法研究文献综述被引量：8