-
题名融合视觉常识特征和门控计数方法的视觉问答
- 1
-
-
作者
徐钰涛
汤守国
-
机构
昆明理工大学信息工程与自动化学院
云南省计算机技术应用重点实验室
-
出处
《计算机科学》
北大核心
2025年第S1期421-427,共7页
-
基金
云南省基础研究专项(202201AS070029)
云南省重大专项计划(202302AD080002)。
-
文摘
为了更好地探索图像中的潜在常识信息,引入了一种创新的视觉常识特征用于视觉问答(Visual Question Answering,VQA)任务,并通过视觉特征融合模块有效地整合了自底向上特征和视觉常识特征,从而实现了丰富的视觉特征表示。其中引导式注意力融合方法,通过将自底向上特征与视觉常识特征共同输入信息交互模块,使注意力机制能够捕捉到与问题文本更为相关的图片内容。在此基础上,设计并引入了一种门控计数模块(Gated Counting Module,GCM),旨在保留图像特征中实体的数量信息。这一模块在计数问题上显著提升了模型性能,同时保持了信息的完整性和相关性。与传统方法相比,GCM能够更准确地处理涉及数量的视觉问题,从而增强了整体VQA任务的准确性。最后,在广泛使用的数据集VQA v2.0上进行了大量实验,所提方法取得了较好的结果。
-
关键词
视觉问答
视觉常识特征
特征融合
视觉特征
Faster
R-CNN
门控计数模块
-
Keywords
visual question answering
visual common sense feature
Feature fusion
visual feature
Faster R-CNN
Gate counting module
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向遥感视觉问答的尺度引导融合推理网络
被引量:1
- 2
-
-
作者
赵恩源
宋宁
聂婕
王鑫
郑程予
魏志强
-
机构
中国海洋大学信息科学与工程学部
清华大学计算机科学与技术系
青岛海洋科技中心
-
出处
《软件学报》
EI
CSCD
北大核心
2024年第5期2133-2149,共17页
-
基金
国家重点研发计划(2021YFF0704000)
国家自然科学基金(62172376)
+1 种基金
国家自然科学基金区域创新发展联合基金(U22A2068)
中央引导地方科技发展专项资金(YDZX2022028)。
-
文摘
遥感视觉问答(remote sensing visual question answering,RSVQA)旨在从遥感图像中抽取科学知识.近年来,为了弥合遥感视觉信息与自然语言之间的语义鸿沟,涌现出许多方法.但目前方法仅考虑多模态信息的对齐和融合,既忽略了对遥感图像目标中的多尺度特征及其空间位置信息的深度挖掘,又缺乏对尺度特征的建模和推理的研究,导致答案预测不够全面和准确.针对以上问题,提出一种多尺度引导的融合推理网络(multi-scale guided fusion inference network,MGFIN),旨在增强RSVQA系统的视觉空间推理能力.首先,设计基于Swin Transformer的多尺度视觉表征模块,对嵌入空间位置信息的多尺度视觉特征进行编码;其次,在语言线索的引导下,使用多尺度关系推理模块以尺度空间为线索学习跨多个尺度的高阶群内对象关系,并进行空间层次推理;最后,设计基于推理的融合模块来弥合多模态语义鸿沟,在交叉注意力基础上,通过自监督范式、对比学习方法、图文匹配机制等训练目标来自适应地对齐融合多模态特征,并辅助预测最终答案.实验结果表明,所提模型在两个公共RSVQA数据集上具有显著优势.
-
关键词
遥感视觉问答
多模态智能融合
多模态推理
多尺度表征
-
Keywords
remote sensing visual question answering(rsvqa)
multimodal intelligent fusion
multimodal reasoning
multiscale representation
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-