基于注意力网络推理图的细粒度图像分类被引量：2

Fine-Grained Image Classification Based on Inference Graph of Attention Network

在线阅读下载PDF

导出

摘要针对场景图像的细粒度分类任务,结合图像视觉和文本的多模态信息提出了一种基于注意力网络推理图的细粒度图像分类方法。首先提取场景图像的全局视觉特征、局部视觉特征和文本特征,把位置信息分别嵌入局部视觉特征和文本特征后拼接成新的特征,再将这个新的特征作为图结构的节点生成一个异构图;然后设计两条元路径将异构图分解成两个同构图,并将其分别放入设计有节点级注意和语义级注意的两级注意力网络推理图;最后将输出的节点特征与全局视觉特征进行多模态融合操作,获得更丰富的细粒度特征表达。所提出的模型实现了多模态融合与图注意力网络的有效结合,且在Con-Text和Drink Bottle两个场景文本细粒度图像数据集上与目前主流先进方法相比具有较强的竞争力。 Aiming at the task of fine-grained classification of scene images,this paper proposes a fine-grained image classification method based on the attention network inference graph by integrating the multimodal information of image visual and textual features.First,we extract the global visual feature,local visual features and text features of the scene image,and form a new splicing feature by embedding the position information into the local visual features and textual features respectively.The feature is accordingly used as a node of the graph structure to generate a heterogeneous graph.Then,we design two meta-paths to decompose the heterogeneous graph into two isomorphic graphs,and put them into a two-level attention network inference graph with node-level attention and semantic-level attention.Finally,richer fine-grained feature expression can be obtained by multimodal fusion operations with the output node features and global visual feature.The proposed model enables effective combination of multimodal fusion and graph attention network,and performs strong competitiveness comparing with the current advanced mainstream methods on the two scene text fine-grained image datasets of Con-Text and Drink Bottle.

作者郑智文甘健侯周菊香欧阳昭相鹿泽光 ZHENG Zhiwen;GAN Jianhou;ZHOU Juxiang;OUYANG Zhaoxiang;LU Zeguang(Key Laboratory of Education Informatization for Nationalities,Ministry of Education,Yunnan Normal University,Kunming 650500,Yunnan,China;Yunnan Key Laboratory of Smart Education,Yunnan Normal University,Kunming 650500,Yunnan,China;School of Information,Dehong Teacher’s College,Dehong 678400,Yunnan,China;National Academy of Guoding Institute of Data Science,Beijing 100010,China)

机构地区云南师范大学民族教育信息化教育部重点实验室云南师范大学云南省智慧教育重点实验室德宏师范高等专科学校信息学院中科国鼎数据科学研究院

出处《应用科学学报》 CAS CSCD 北大核心 2022年第1期36-46,共11页 Journal of Applied Sciences

基金国家自然科学基金(No.62166050)资助

关键词场景图像多模态图注意力网络节点级注意力语义级注意力 scene image multimodal graph attention network node-level attention semantic-level attention

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

作者简介通信作者:周菊香,博士生,副研究员,研究方向为计算机视觉、机器学习。E-mail:zjuxiang@ynnu.edu.cn

引文网络
相关文献

参考文献5

1金志威,曹娟,王博,王蕊,张勇东.融合多模态特征的社会多媒体谣言检测技术研究[J].南京信息工程大学学报（自然科学版）,2017,9(6):583-592. 被引量：10
2何云飞,张以文,吕智慧,颜登程,何强.异质信息网络中元路径感知的评分协同过滤[J].计算机学报,2020,43(12):2385-2397. 被引量：7
3孙鑫,刘学军,李斌,梁珂.基于图神经网络和时间注意力的会话序列推荐[J].计算机工程与设计,2020,41(10):2913-2920. 被引量：12
4郭戈,平西建,张涛.基于概念选择和重要性度量的多模态语义融合[J].应用科学学报,2010,28(3):266-270. 被引量：1
5张晓龙,王庆伟,李尚滨.基于强化学习的多模态场景人体危险行为识别方法[J].应用科学学报,2021,39(4):605-614. 被引量：11

二级参考文献33

1韩冰,高新波,姬红兵.一种基于选择性集成SVM的新闻音频自动分类方法[J].模式识别与人工智能,2006,19(5):634-639. 被引量：5
2魏维,李千目,刘凤玉,许满武.视频语义分析两级多模式融合算法[J].中国图象图形学报,2007,12(5):893-898. 被引量：1
3ZHU Yingying,ZHOU Dongru.Video browsing and retrieval based on multimodal integration[C]//Proceedings of IEEE/WIC International Conference on Web Intelligence.2003:650-653.
4GANONG W F.Review of medical physiology[M].New York:McGraw-Hill publishing Company,1999.
5BEYER K,GOLDSTEIN J,R.AMAKRISHNAN R,SHAFT U.When is'nearest neighbor'meaningful?[C]//Proceedings of International Conference on Database Theory.1998:217-235.
6WU Yi,CHANG E Y,CHANG K C C,SMITH J R.Optimal multimodal fusion for multimedia data analysis[C]//Proceedings of 12th ACM International Conference on Multimedia.2004:572-579.
7ZHANG Shile,FAN Jianping,Lu Hong,XUE Xiangyang.Salient object detection on large-scale video data[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2007:1-6.
8QI Guojun,HUA Xiansheng,RUI Yong,ZHANG Hongjiang.Correlative multi-label video annotation[J].Proceedings of the 15th International Conference on Multimedia.2007:17-26.
9BROWN P.word sense disambigalation using tactical methods[C]//Proceedings of the 29th Meeting of the Association for Computational Linguistics(ACL-91),1991.
10郎丛妍,须德,李兵.一种基于模糊信息粒化的视频时空显著单元提取方法[J].电子学报,2007,35(10):2023-2028. 被引量：3

共引文献36

1张守甲.基于改进SSD的建筑工程施工现场危险行为识别[J].中国建筑装饰装修,2024(6):163-165.
2夏鑫林,许亮.基于注意力机制的谣言检测算法研究[J].现代计算机,2020,26(8):47-51. 被引量：2
3罗嘉,王乐豪,涂姗姗,宋鸽,韩莹.基于LSTM-BLS的突发气象灾害事件中公众情感倾向分析[J].南京信息工程大学学报（自然科学版）,2021,13(4):477-483. 被引量：9
4张国标,李洁,胡潇戈.基于多模态特征融合的社交媒体虚假新闻检测[J].情报科学,2021,39(10):126-132. 被引量：9
5朱玉敏.基于社交媒体的谣言检测模型研究综述[J].长江信息通信,2022,35(3):59-62. 被引量：1
6孔亚钰,卢玉洁,孙中天,肖敬先,侯昊辰,陈廷伟.面向强化当前兴趣的图神经网络推荐算法研究[J].广西师范大学学报（自然科学版）,2022,40(3):151-160. 被引量：2
7唐樾,马静.基于增强对抗网络和多模态融合的谣言检测方法[J].情报科学,2022,40(6):108-114. 被引量：8
8林广朋.基于贝叶斯算法的网络信息安全过滤系统设计[J].长江信息通信,2022,35(6):54-56. 被引量：2
9党伟超,姚志宇,白尚旺,高改梅,刘春霞.基于图神经网络和注意力机制的会话推荐[J].计算机工程与设计,2022,43(10):2953-2958. 被引量：7
10党伟超,姚志宇,白尚旺,高改梅,刘春霞.基于图模型和注意力模型的会话推荐方法[J].计算机应用,2022,42(11):3610-3616. 被引量：5

同被引文献25

1赵鹏,汪纯燕,张思颖,刘政怡.一种基于融合重构的子空间学习的零样本图像分类方法[J].计算机学报,2021,44(2):409-421. 被引量：21
2贺潇,苏彩红,詹宁宙,林军帆,梁智宇.基于Halcon的圆形陶瓷片表面缺陷检测方法[J].佛山科学技术学院学报（自然科学版）,2021,39(2):28-32. 被引量：7
3朱大力,朱桦,陈志寰.基于多模态融合的活体检测研究[J].武汉理工大学学报（信息与管理工程版）,2021,43(3):264-267. 被引量：2
4吕露露,黄毅,高君宇,杨小汕,徐常胜.多模态零样本人体动作识别[J].中国图象图形学报,2021,26(7):1658-1667. 被引量：5
5张玲,吴发辉.基于多模态融合的加权网络重叠社区划分算法[J].黑龙江工业学院学报（综合版）,2021,21(8):98-103. 被引量：3
6韩旭,赵春江,吴华瑞,朱华吉,张燕.基于注意力机制及多尺度特征融合的番茄叶片缺素图像分类方法[J].农业工程学报,2021,37(17):177-188. 被引量：22
7王传昱,李为相,陈震环.基于语音和视频图像的多模态情感识别研究[J].计算机工程与应用,2021,57(23):163-170. 被引量：7
8程腾,孙磊,侯登超,石琴,张峻宁,陈炯,黄鹤.基于特征融合的多层次多模态目标检测[J].汽车工程,2021,43(11):1602-1610. 被引量：10
9张晓旭,高振涛,吴磊,李鑫,卢明静.基于混合量子-经典神经网络模型的股价预测[J].电子科技大学学报,2022,51(1):16-23. 被引量：6
10冯晓静,白静,薛珮芸,戎如意.基于双模态融合特征的模糊语音识别研究[J].电子设计工程,2022,30(2):43-48. 被引量：3

引证文献2

1徐端倪,胡智林.基于多模态融合的心理测试仪自动评估系统检测研究[J].自动化与仪器仪表,2022(9):156-160. 被引量：4
2黄矽琳,洪岚.基于混合网络模型的多模态图像分类研究[J].佛山科学技术学院学报（自然科学版）,2024,42(6):38-45.

二级引证文献4

1吴石松,董召杰.基于RoBERTa改进的多模态情绪识别关键技术研究[J].电子设计工程,2023,31(9):54-58. 被引量：1
2杜娟.基于改进CNN嵌入注意力的多因素心理问题智能化评估系统设计[J].自动化与仪器仪表,2023(10):131-134.
3童欢欢.基于XGBoost算法的多参数心理测试仪优化研究[J].自动化与仪器仪表,2023(10):218-222.
4张潇文,班理,马博,马倩如,孔琪迪.基于振动信号检测的STM心理测试系统设计[J].自动化与仪器仪表,2023(12):51-55.

1邹宇萌.蓝瓶咖啡首席执行官KARL STROVINK[J].商业周刊（中文版）,2022(12):13-13.
2Michael Josephson.内心的礼物[J].疯狂英语（新悦读）,2022(7):41-41.
3于会萍,宛玲.科学数据存储库的发展态势与推进策略[J].图书情报工作,2022,66(15):107-115. 被引量：4
4Abele Bianchi,Giovanni Guido.From the Dark Neutron to the Neutron Decay Anomaly and Lithium Cosmologic Problem[J].Journal of High Energy Physics, Gravitation and Cosmology,2022,8(3):494-516. 被引量：1
5Zhichao Liu,Kaixuan Ding,Qingyang Xu,Yong Song,Xianfeng Yuan,Yibin Li.Scene images and text information‐based object location of robot grasping[J].IET Cyber-Systems and Robotics,2022,4(2):116-130.
6Jing-hui Zhang,Yong-gang Yu,Xin-wei Zhang.Numerical investigation of a muzzle multiphase flow field using two underwater launch methods[J].Defence Technology（防务技术）,2022,18(8):1454-1469.

应用科学学报

2022年第1期

浏览历史

内容加载中请稍等...

基于注意力网络推理图的细粒度图像分类被引量：2

参考文献5

二级参考文献33

共引文献36

同被引文献25

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于注意力网络推理图的细粒度图像分类 被引量：2

参考文献5

二级参考文献33

共引文献36

同被引文献25

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于注意力网络推理图的细粒度图像分类被引量：2