期刊文献+
共找到63篇文章
< 1 2 4 >
每页显示 20 50 100
基于多语义关联与融合的视觉问答模型
1
作者 周浩 王超 +1 位作者 崔国恒 罗廷金 《计算机应用》 北大核心 2025年第3期739-745,共7页
弥合视觉图像和文本问题之间的语义差异是提高视觉问答(VQA)模型推理准确性的重要方法之一。然而现有的相关模型大多数基于低层图像特征的提取并利用注意力机制推理问题的答案,忽略了高层图像语义特征如关系和属性特征等在视觉推理中的... 弥合视觉图像和文本问题之间的语义差异是提高视觉问答(VQA)模型推理准确性的重要方法之一。然而现有的相关模型大多数基于低层图像特征的提取并利用注意力机制推理问题的答案,忽略了高层图像语义特征如关系和属性特征等在视觉推理中的作用。为解决上述问题,提出一种基于多语义关联与融合的VQA模型以建立问题与图像之间的语义联系。首先,基于场景图生成框架提取图像中的多种语义并把它们进行特征精炼后作为VQA模型的特征输入,从而充分挖掘图像场景中的信息;其次,为提高图像特征的语义价值,设计一个信息过滤器过滤图像特征中的噪声和冗余信息;最后,设计多层注意力融合和推理模块将多种图像语义分别与问题特征进行语义融合,以强化视觉图像重点区域与文本问题之间的语义关联。与BAN(Bilinear Attention Network)和CFR(Coarse-to-Fine Reasoning)模型的对比实验结果表明,所提模型在VQA2.0测试集上的准确率分别提高了2.9和0.4个百分点,在GQA测试集上的准确率分别提高了17.2和0.3个百分点。这表明所提模型能够更好地理解图像场景中的语义并回答组合式视觉问题。 展开更多
关键词 多语义特征融合 视觉问答 场景图 属性注意力 关系注意力
在线阅读 下载PDF
跨模态自适应特征融合的视觉问答方法
2
作者 陈巧红 项深祥 +1 位作者 方贤 孙麒 《哈尔滨工业大学学报》 北大核心 2025年第4期94-104,共11页
为提高视觉问答(VQA)中跨模态融合与交互的精确度,减少多模态特征信息的丢失,提出了一种新颖的基于跨模态自适应特征融合的视觉问答方法。首先,该方法设计了卷积自注意力单元,包含自注意力层和空洞卷积层,前者用于捕捉全局特征信息,后... 为提高视觉问答(VQA)中跨模态融合与交互的精确度,减少多模态特征信息的丢失,提出了一种新颖的基于跨模态自适应特征融合的视觉问答方法。首先,该方法设计了卷积自注意力单元,包含自注意力层和空洞卷积层,前者用于捕捉全局特征信息,后者用于捕捉视觉对象间的空间关系。其次,通过自适应特征融合层,将全局关系与空间关系进行有效结合,使模型在处理图像特征时能够同时考虑全局关系和视觉对象之间的关联性,从而克服了传统注意力机制忽视空间关系的问题。最后,基于不同模态特征在答案预测中贡献程度的差异,该方法还构建了多模态门控融合模块,根据多模态特征间的重要程度自适应地融合特征,减少多模态信息的丢失,同时不会带来额外的计算资源开销。研究结果表明,该方法在未使用额外数据集预训练的情况下,在VQA2.0的测试-开发集、测试-标准集和GQA数据集上的整体准确率分别达到71.58%、72.00%、58.14%,显著优于传统自注意力方法,该研究成果可为跨模态特征融合领域提供了重要的参考和借鉴。 展开更多
关键词 视觉问答(VQA) 特征融合 多模态 注意力机制 门控机制
在线阅读 下载PDF
基于语义信息一致性校验的医学视觉问答方法
3
作者 孔凡彦 刘利军 +3 位作者 张云峰 黄青松 刘骊 付晓东 《中文信息学报》 北大核心 2025年第10期143-155,共13页
医学视觉问答(Med-VQA)模型能够根据医学影像内容回答有关临床问题,引导患者及时了解重要的临床诊断信息。现有的方法通常利用注意力机制自适应地选择图像中重要特征,但由于医学影像病变区域较小、噪声信息较多,模型无法精准地捕获问题... 医学视觉问答(Med-VQA)模型能够根据医学影像内容回答有关临床问题,引导患者及时了解重要的临床诊断信息。现有的方法通常利用注意力机制自适应地选择图像中重要特征,但由于医学影像病变区域较小、噪声信息较多,模型无法精准地捕获问题与重要影像特征之间的依赖关系。针对该问题,该文提出了一种基于答案信息引导的语义信息一致性校验方法。该方法通过引入答案信息来校验图像特征与答案信息之间的语义一致性,引导模型关注与问题答案相关的视觉特征,增强问题与影像中重要特征之间的语义依赖关系,提升模型回答问题的准确度。实验表明该方法在公开数据集VQA-RAD上准确率达到了74.3%,优于目前主流模型。 展开更多
关键词 医学视觉问答 注意力机制 语义信息一致性
在线阅读 下载PDF
基于交叉模态注意力特征增强的医学视觉问答
4
作者 刘凯 任洪逸 +2 位作者 李蓥 季怡 刘纯平 《计算机工程》 北大核心 2025年第6期49-56,共8页
医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像... 医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像的局部特征所包含的医学信息与跨模态间的交互作用,从而限制了图像内容理解。针对以上问题,提出一种交叉模态注意力特征增强的Med-VQA模型(CMAG-MVQA)。基于U-Net编码有效增强图像局部特征,从交叉模态协同角度提出选择引导注意力方法,为单模态表征引入其他模态的交互信息,同时利用自注意力机制进一步增强选择引导注意力的图像表征。在VQA-RAD医学问答数据集上的消融与对比实验表明,所提方法在Med-VQA任务上有良好的表现,相比于现有同类方法,其在特征表征上性能得到较好改善。 展开更多
关键词 跨模态交互 注意力机制 医学视觉问答 特征融合 特征增强
在线阅读 下载PDF
医学视觉问答中的问题类型与答案一致性校验
5
作者 戴舒婷 刘利军 +2 位作者 杨小兵 黄青松 袁钰博 《小型微型计算机系统》 北大核心 2025年第4期922-931,共10页
医学视觉问答(Med-VQA)旨在根据医学影像内容准确回答临床问题,具有巨大应用潜力.现有Med-VQA方法大都统一处理开放式问题和封闭式问题,忽略了问题的复杂多变性,导致模型准确率较低.同时,受语言先验影响,模型容易利用数据集中问答对的... 医学视觉问答(Med-VQA)旨在根据医学影像内容准确回答临床问题,具有巨大应用潜力.现有Med-VQA方法大都统一处理开放式问题和封闭式问题,忽略了问题的复杂多变性,导致模型准确率较低.同时,受语言先验影响,模型容易利用数据集中问答对的分布规律,削弱了问题与答案的深层关系,导致出现答非所问现象.针对以上问题,本文提出一种即插即用的细粒度问题类型与答案一致性校验方法.首先,识别输入问题为开放式或封闭式类型以实现参数不共享的独立推理;然后,对开放式问题细粒度分类以进一步捕获复杂开放式问题对答案的约束关系;最后,根据问题类型生成答案掩码掩盖无关答案,实现问题类型与答案的一致性校验,进而缓解答非所问现象.在公共数据集SLAKE和VQA-RAD上的实验结果表明,本文方法能有效提高Med-VQA准确率. 展开更多
关键词 医学视觉问答 细粒度问题类型 答案掩码 一致性校验
在线阅读 下载PDF
融合多模态知识与有监督检索的视觉问答模型
6
作者 葛依琳 孙海春 袁得嵛 《计算机科学与探索》 北大核心 2025年第8期2203-2218,共16页
视觉问答任务旨在通过理解图像内容回答问题,具有广泛的应用前景。然而,传统模型仍存在以下问题:依赖基础视觉特征,难以充分捕捉图像中的复杂信息,在图像语义理解和外部知识融合上存在不足;引入的外部知识常伴随噪声,影响检索和答案生... 视觉问答任务旨在通过理解图像内容回答问题,具有广泛的应用前景。然而,传统模型仍存在以下问题:依赖基础视觉特征,难以充分捕捉图像中的复杂信息,在图像语义理解和外部知识融合上存在不足;引入的外部知识常伴随噪声,影响检索和答案生成的准确性;缺乏有效的监督机制,有益知识难以得到充分利用,从而降低整体问答性能。针对以上问题,提出了一种融合多模态知识与有监督检索的视觉问答模型。该模型由多模态特征提取、基于多模态语义推理的知识检索和基于BLIP的阅读推理模块构成。其中,多模态特征提取模块通过融合图像语义特征、图像基础视觉特征、问题语义特征及知识特征,实现对“问题-图像”的全面理解。基于多模态语义推理的知识检索模块采用多层注意力机制,实现对“问题-图像”相关知识的精准检索。BLIP阅读推理模块则利用预训练的BLIP模型进行答案推理,提升答案生成的准确性。此外,结合有监督训练优化检索过程,减少噪声干扰。实验在OKVQA、FVQA和VQA2.0等多个基准数据集上均表现优异,通过消融实验进一步验证了模型中各组件的有效性。为融合知识的视觉问答领域提供了新的解决方案,展示了多模态知识融合与有监督检索在提升视觉问答模型性能方面的潜力。 展开更多
关键词 视觉问答 知识检索 跨模态 外部知识
在线阅读 下载PDF
融合视觉常识特征和门控计数方法的视觉问答
7
作者 徐钰涛 汤守国 《计算机科学》 北大核心 2025年第S1期421-427,共7页
为了更好地探索图像中的潜在常识信息,引入了一种创新的视觉常识特征用于视觉问答(Visual Question Answering,VQA)任务,并通过视觉特征融合模块有效地整合了自底向上特征和视觉常识特征,从而实现了丰富的视觉特征表示。其中引导式注意... 为了更好地探索图像中的潜在常识信息,引入了一种创新的视觉常识特征用于视觉问答(Visual Question Answering,VQA)任务,并通过视觉特征融合模块有效地整合了自底向上特征和视觉常识特征,从而实现了丰富的视觉特征表示。其中引导式注意力融合方法,通过将自底向上特征与视觉常识特征共同输入信息交互模块,使注意力机制能够捕捉到与问题文本更为相关的图片内容。在此基础上,设计并引入了一种门控计数模块(Gated Counting Module,GCM),旨在保留图像特征中实体的数量信息。这一模块在计数问题上显著提升了模型性能,同时保持了信息的完整性和相关性。与传统方法相比,GCM能够更准确地处理涉及数量的视觉问题,从而增强了整体VQA任务的准确性。最后,在广泛使用的数据集VQA v2.0上进行了大量实验,所提方法取得了较好的结果。 展开更多
关键词 视觉问答 视觉常识特征 特征融合 视觉特征 Faster R-CNN 门控计数模块
在线阅读 下载PDF
基于外部知识查询的视觉问答
8
作者 徐钰涛 汤守国 《计算机科学》 北大核心 2025年第S1期247-254,共8页
为了有效解决现阶段视觉问答(Visual Question Answering,VQA)模型难以处理需要额外知识才能解答的问题,文中提出了一种问题引导的外部知识查询机制(Question-Guided Mechanism for Querying External Knowledge,QGK),旨在集成关键知识... 为了有效解决现阶段视觉问答(Visual Question Answering,VQA)模型难以处理需要额外知识才能解答的问题,文中提出了一种问题引导的外部知识查询机制(Question-Guided Mechanism for Querying External Knowledge,QGK),旨在集成关键知识以丰富问题文本,从而提高VQA模型的准确率。首先,开发了一种问题引导的外部知识查询机制(QGK),以扩充模型内的文本特征表示并增强其处理复杂问题的能力。其中包含了多阶段处理流程,包括关键词提取、查询构造、知识筛选和提炼步骤。其次,还引入了视觉常识特征以验证所提方法的有效性。实验结果表明,所提出的查询机制能够有效提供重要的外部知识,显著提升模型在VQA v2.0数据集上的准确率。当将查询机制单独加入基线模型时,准确率提升至71.05%;而将视觉常识特征与外部知识查询机制相结合时,模型的准确率进一步提高至71.38%。这些结果验证了所提方法对于提升VQA模型性能的显著效果。 展开更多
关键词 视觉问答 外部知识库 查询机制 长短时记忆网络 文本特征
在线阅读 下载PDF
视觉问答任务驱动的遥感影像零样本场景分类方法
9
作者 郑明琪 刘冰 +1 位作者 陈晓慧 陈畅 《遥感信息》 北大核心 2025年第5期129-137,共9页
针对遥感影像场景分类任务中面临的零样本问题,提出将遥感影像场景分类问题转化为遥感影像文本问答问题,从而利用预训练多模态大模型强大的泛化能力来实现遥感影像零样本场景分类。首先,根据待分类场景类别构建提问模版,然后将提问模版... 针对遥感影像场景分类任务中面临的零样本问题,提出将遥感影像场景分类问题转化为遥感影像文本问答问题,从而利用预训练多模态大模型强大的泛化能力来实现遥感影像零样本场景分类。首先,根据待分类场景类别构建提问模版,然后将提问模版输入到预训练的多模态大模型中,最后根据多模态大模型对问题的回答确定该场景的类别。为了验证所提出方法的有效性,选取了使用最为广泛的开源多模态大模型MiniGPT-4作为基础模型,然后在AID、NWPU和UCM 3个数据集上进行大量的零样本场景分类实验。实验结果表明,该方法能够获得比现有零样本场景分类方法更高的分类精度,且无需任何训练,应用更加便捷。 展开更多
关键词 场景分类 零样本分类 多模态大模型 视觉问答 任务驱动
在线阅读 下载PDF
基于语码转换的低资源语言视觉问答方法研究
10
作者 刘征 董俊 +3 位作者 嘉乐东珠 超木日力格 刘轩 翁彧 《北京师范大学学报(自然科学版)》 北大核心 2025年第3期277-284,共8页
为解决视觉语言模型面对低资源场景缺乏大规模标注数据和有效迁移方法的困境,提出了基于语码转换的中国民族语言预训练模型视觉问答(CCMPLM-VQA)方法.通过语码转换跨语言掩码建模方法,降低了模型对标注训练数据的依赖,同时引入全新结构... 为解决视觉语言模型面对低资源场景缺乏大规模标注数据和有效迁移方法的困境,提出了基于语码转换的中国民族语言预训练模型视觉问答(CCMPLM-VQA)方法.通过语码转换跨语言掩码建模方法,降低了模型对标注训练数据的依赖,同时引入全新结构的语言适配器(language adapter,LA),有效提升了CCMPLM-VQA多模态对齐效果;验证了所提方法的有效性.结果表明:相较最佳基准模型,CCMPLM-VQA在现实世界通用视觉推理数据集上的零样本性能提升了约12%;在跨语言现实世界通用视觉推理数据集上的零样本性能优于现有类似方法约1%. 展开更多
关键词 低资源语言 视觉问答 语码转换 知识蒸馏 跨模态语义对齐
在线阅读 下载PDF
基于空天资源信息的视觉问答在战场指挥中的应用
11
作者 苏月怡 邸亮 《火力与指挥控制》 北大核心 2025年第2期188-196,共9页
随着视觉问答技术的快速发展和广泛应用,视觉问答技术逐渐成熟,将视觉问答引入作战指挥系统的侦察影像情报处理,可利用视觉问答场景图建立,图像中目标之间关联关系建立,自然语言语义对应,答案文本生成等技术,使侦察影像情报资源由单一... 随着视觉问答技术的快速发展和广泛应用,视觉问答技术逐渐成熟,将视觉问答引入作战指挥系统的侦察影像情报处理,可利用视觉问答场景图建立,图像中目标之间关联关系建立,自然语言语义对应,答案文本生成等技术,使侦察影像情报资源由单一目标检测识别向战场目标识别、分类,目标间关联关系建立,战场环境理解等方面的能力提升;以视觉问答的方式辅助指挥人员更方便、更快速、更全面地调取和理解侦察影像的情报信息,提高基于空天资源情报信息的使用效率和效果。就提出的一种预训练的视觉-语言理解和生成模型BLIP在军事指挥与辅助决策领域的应用进行了可行性分析,并就视觉问答在军事指挥应用中存在的问题和发展前景进行了探讨。 展开更多
关键词 视觉问答 指挥决策 空天资源信息 BLIP模型
在线阅读 下载PDF
利用可交谈多头共注意力机制的视觉问答 被引量:1
12
作者 杨旭华 庞宇超 叶蕾 《小型微型计算机系统》 CSCD 北大核心 2024年第8期1901-1907,共7页
视觉问答可以对图像信息和自然语言问题这两种不同模态的信息进行分析处理并预测答案,是一项跨模态学习任务.当前注意力机制因为其良好的关键信息提取效果被广泛地用以捕捉视觉图像、文本和两种模态间的关系.但是,传统的注意力机制容易... 视觉问答可以对图像信息和自然语言问题这两种不同模态的信息进行分析处理并预测答案,是一项跨模态学习任务.当前注意力机制因为其良好的关键信息提取效果被广泛地用以捕捉视觉图像、文本和两种模态间的关系.但是,传统的注意力机制容易忽略图像和文本的自相关信息,而且不能较好的利用图像和文本的信息差异性.因此,在本文中,我们提出了可交谈的多头共注意力网络框架来处理注意力机制的上述问题.首先,本文提出了可交谈多头注意力机制来捕捉不同注意力头之间隐藏的关系,得到增强的注意力信息.本文设计了前后不同的交谈策略去处理归一化前后注意力头之间的信息,在引入先验信息的同时减少了过拟合的风险.本文提出了交谈自注意力单元和交谈引导注意力单元,并使用编码器-解码器方式有效地组合它们来丰富视觉和文本表征.该框架针对自注意力层增加了位置编码,弥补了交谈自注意力无法捕获位置的问题,此框架使用不同的注意力策略去分别得到图像和文本向量,并使用新的多模态融合模块来更好的融合图像和文本信息,降低了对单个信息的依赖性.该模型在VQA-v2数据集上和多个知名算法进行比较,数值仿真实验表明提出的算法具有明显的优越性. 展开更多
关键词 视觉问答 特征提取 交谈注意力 多模态特征融合
在线阅读 下载PDF
结合对比学习的图像指导增强视觉问答模型
13
作者 杨有 姚露 《计算机工程与应用》 CSCD 北大核心 2024年第7期157-166,共10页
针对现有的注意力编解码视觉问答模型存在两个问题:单一形态图像特征包含视觉信息不完整,以及对问题指导过度依赖,提出结合对比学习的图像指导增强视觉问答模型。所提模型包含一种双特征视觉解码器,它基于Transformer语言编码器实现,将... 针对现有的注意力编解码视觉问答模型存在两个问题:单一形态图像特征包含视觉信息不完整,以及对问题指导过度依赖,提出结合对比学习的图像指导增强视觉问答模型。所提模型包含一种双特征视觉解码器,它基于Transformer语言编码器实现,将单一的图像特征扩展为区域和网格两种形态,根据不同形态特征的相对位置构建互补的空间关系,以解决第一问题。所提模型包含一种视觉引导的语言解码器,将视觉解码的两种图像特征与问题特征二次匹配,通过平行门控引导注意力,自适应地修正不同视觉信息对问题的引导比例,以解决第二问题。所提模型,在训练过程中,引入对比学习损失函数,通过对比模型推理时不同模态特征在隐空间内的相似度,获取更相近的互信息。所提模型,在VQA 2.0、COCO-QA和GQA数据集上分别取得73.82%、72.49%和57.44%的总体准确率,较MCAN模型分别提高2.92个百分点、4.41个百分点和0.8个百分点。大量消融实验和可视化分析证明了模型的有效性。实验结果表明,所提模型能够获取更相关的语言-视觉信息,并且对不同类型的问题样本具有更强的泛化能力。 展开更多
关键词 视觉问答 注意力机制 相对位置 门控机制 对比学习
在线阅读 下载PDF
一种基于多模态特征提取的医学视觉问答方法 被引量:3
14
作者 吴松泽 刘利军 +3 位作者 黄青松 孔凡彦 刘骊 付晓东 《小型微型计算机系统》 CSCD 北大核心 2024年第3期676-683,共8页
随着深度学习在医疗领域的快速发展,医学视觉问答(Med-VQA)吸引了研究人员的广泛关注.现有的Med-VQA方法大都使用权重参数共享的同一特征提取网络对多模态医学影像进行特征提取,在一定程度上忽略了不同模态医学影像的差异性特征,导致对... 随着深度学习在医疗领域的快速发展,医学视觉问答(Med-VQA)吸引了研究人员的广泛关注.现有的Med-VQA方法大都使用权重参数共享的同一特征提取网络对多模态医学影像进行特征提取,在一定程度上忽略了不同模态医学影像的差异性特征,导致对特定模态特征提取时引入其它模态的噪声特征,使得模型难以关注到不同模态医学影像中的关键特征.针对上述问题,本文提出一种基于多模态特征提取的医学视觉问答方法.首先,对医学影像进行模态识别,根据模态标签指导输入参数不共享的特征提取网络以获得不同模态影像的差异性特征;然后,设计了一种面向Med-VQA的卷积降噪模块以降低医学影像不同模态特征的噪声信息;最后,采用空间与通道注意力模块进一步增强不同模态差异性特征的关注度.在Med-VQA公共数据集Slake上得到的实验结果表明,本文提出方法能有效提高Med-VQA的准确率. 展开更多
关键词 医学视觉问答 多模态特征提取 卷积神经网络 注意力机制
在线阅读 下载PDF
一种消减多模态偏见的鲁棒视觉问答方法 被引量:2
15
作者 张丰硕 李豫 +2 位作者 李向前 徐金安 陈钰枫 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期23-33,共11页
为了增强视觉问答模型的鲁棒性,提出一种偏见消减方法,并在此基础上探究语言与视觉信息对偏见的影响。进一步地,构造两个偏见学习分支来分别捕获语言偏见以及语言和图片共同导致的偏见,利用偏见消减方法,得到鲁棒性更强的预测结果。最后... 为了增强视觉问答模型的鲁棒性,提出一种偏见消减方法,并在此基础上探究语言与视觉信息对偏见的影响。进一步地,构造两个偏见学习分支来分别捕获语言偏见以及语言和图片共同导致的偏见,利用偏见消减方法,得到鲁棒性更强的预测结果。最后,依据标准视觉问答与偏见分支之间的预测概率差异,对样本进行动态赋权,使模型针对不同偏见程度的样本动态地调节学习程度。在VQA-CP v2.0等数据集上的实验结果证明了所提方法的有效性,缓解了偏见对模型的影响。 展开更多
关键词 视觉问答 数据集偏差 语言偏见 深度学习
在线阅读 下载PDF
基于跨模态信息过滤的视觉问答网络 被引量:2
16
作者 何世阳 王朝晖 +1 位作者 龚声蓉 钟珊 《计算机科学》 CSCD 北大核心 2024年第5期85-91,共7页
视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注... 视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注意力计算,忽略了图像特征中含有噪声和不正确的信息这一问题,且多数方法局限于模态间的浅层交互,未曾考虑模态间的深层语义信息。为解决这一问题,提出了一个跨模态信息过滤网络,即首先以问题特征为监督信号,通过设计的信息过滤模块来过滤图像特征信息,使之更好地契合问题表征;随后将图像特征和问题特征送入跨模态交互层,在自注意力和引导注意力的作用下分别建模模态内和模态间的关系,以获取更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验,实验结果表明,信息过滤模块的引入有效提升了模型准确率,在test-std上的整体精度达到了71.51%,相比大多数先进的方法具有良好的性能。 展开更多
关键词 视觉问答 深度学习 注意力机制 多模态融合 信息过滤
在线阅读 下载PDF
面向遥感视觉问答的尺度引导融合推理网络 被引量:1
17
作者 赵恩源 宋宁 +3 位作者 聂婕 王鑫 郑程予 魏志强 《软件学报》 EI CSCD 北大核心 2024年第5期2133-2149,共17页
遥感视觉问答(remote sensing visual question answering,RSVQA)旨在从遥感图像中抽取科学知识.近年来,为了弥合遥感视觉信息与自然语言之间的语义鸿沟,涌现出许多方法.但目前方法仅考虑多模态信息的对齐和融合,既忽略了对遥感图像目... 遥感视觉问答(remote sensing visual question answering,RSVQA)旨在从遥感图像中抽取科学知识.近年来,为了弥合遥感视觉信息与自然语言之间的语义鸿沟,涌现出许多方法.但目前方法仅考虑多模态信息的对齐和融合,既忽略了对遥感图像目标中的多尺度特征及其空间位置信息的深度挖掘,又缺乏对尺度特征的建模和推理的研究,导致答案预测不够全面和准确.针对以上问题,提出一种多尺度引导的融合推理网络(multi-scale guided fusion inference network,MGFIN),旨在增强RSVQA系统的视觉空间推理能力.首先,设计基于Swin Transformer的多尺度视觉表征模块,对嵌入空间位置信息的多尺度视觉特征进行编码;其次,在语言线索的引导下,使用多尺度关系推理模块以尺度空间为线索学习跨多个尺度的高阶群内对象关系,并进行空间层次推理;最后,设计基于推理的融合模块来弥合多模态语义鸿沟,在交叉注意力基础上,通过自监督范式、对比学习方法、图文匹配机制等训练目标来自适应地对齐融合多模态特征,并辅助预测最终答案.实验结果表明,所提模型在两个公共RSVQA数据集上具有显著优势. 展开更多
关键词 遥感视觉问答 多模态智能融合 多模态推理 多尺度表征
在线阅读 下载PDF
面向视觉问答的上下文感知多模态交互网络 被引量:1
18
作者 颜洪 黄青松 刘利军 《中文信息学报》 CSCD 北大核心 2024年第7期106-114,共9页
近年来,视觉问答已经引起研究人员的广泛关注。现有的方法通过视觉与语言模态之间的密集交互以捕捉两种模态之间的高层语义信息,然而这些方法仅单独考虑单个词与视觉区域之间的关系,忽略了上下文信息来计算模态之间的依存关系。针对此问... 近年来,视觉问答已经引起研究人员的广泛关注。现有的方法通过视觉与语言模态之间的密集交互以捕捉两种模态之间的高层语义信息,然而这些方法仅单独考虑单个词与视觉区域之间的关系,忽略了上下文信息来计算模态之间的依存关系。针对此问题,该文提出了一种上下文感知的多模态交互网络,通过融合上下文信息增强模态内与模态间的信息交互,提高视觉问答的推理能力。该文在大规模基准数据集VQA v2.0上进行了一系列对比实验与消融实验,实验结果表明,该方法在视觉问答任务上能够取得比当前主流的方法更高的准确率。 展开更多
关键词 视觉问答 注意力机制 多模态交互网络
在线阅读 下载PDF
文本视觉问答综述 被引量:1
19
作者 朱贵德 黄海 《计算机工程》 CAS CSCD 北大核心 2024年第2期1-14,共14页
传统视觉问答(VQA)大多只关注图像中的视觉对象信息,忽略了对图像中文本信息的关注。文本视觉问答(TextVQA)除了视觉信息外还关注了图像中的文本信息,能够更加准确并高效地回答问题。近年来,TextVQA已经成为多模态领域的研究热点,在自... 传统视觉问答(VQA)大多只关注图像中的视觉对象信息,忽略了对图像中文本信息的关注。文本视觉问答(TextVQA)除了视觉信息外还关注了图像中的文本信息,能够更加准确并高效地回答问题。近年来,TextVQA已经成为多模态领域的研究热点,在自动驾驶、场景理解等包含文本信息的场景中有重要的应用前景。阐述TextVQA的概念以及存在的问题与挑战,从方法、数据集、未来研究方向等方面对TextVQA任务进行系统性的分析。总结现有的TextVQA研究方法,并将其归纳为3个阶段,分别为特征提取阶段、特征融合阶段和答案预测阶段。根据融合阶段使用方法的不同,从简单注意力方法、基于Transformer方法和基于预训练方法这3个方面对TextVQA方法进行阐述,分析对比不同方法的特点以及在公开数据集中的表现。介绍TextVQA领域4种常用的公共数据集,并对它们的特点和评价指标进行分析。在此基础上,探讨当前TextVQA任务中存在的问题与挑战,并对该领域未来的研究方向进行展望。 展开更多
关键词 文本视觉问答 文本信息 自然语言处理 计算机视觉 多模态融合
在线阅读 下载PDF
可解释的视觉问答研究进展 被引量:2
20
作者 张一飞 孟春运 +2 位作者 蒋洲 栾力 Ernest Domanaanmwi Ganaa 《计算机应用研究》 CSCD 北大核心 2024年第1期10-20,共11页
在视觉问答(VQA)任务中,“可解释”是指在特定的任务中通过各种方法去解释模型为什么有效。现有的一些VQA模型因为缺乏可解释性导致模型无法保证在生活中能安全使用,特别是自动驾驶和医疗相关的领域,将会引起一些伦理道德问题,导致无法... 在视觉问答(VQA)任务中,“可解释”是指在特定的任务中通过各种方法去解释模型为什么有效。现有的一些VQA模型因为缺乏可解释性导致模型无法保证在生活中能安全使用,特别是自动驾驶和医疗相关的领域,将会引起一些伦理道德问题,导致无法在工业界落地。主要介绍视觉问答任务中的各种可解释性实现方式,并分为了图像解释、文本解释、多模态解释、模块化解释和图解释五类,讨论了各种方法的特点并对其中的一些方法进行了细分。除此之外,还介绍了一些可以增强可解释性的视觉问答数据集,这些数据集主要通过结合外部知识库、标注图片信息等方法来增强可解释性。对现有常用的视觉问答可解释方法进行了总结,最后根据现有视觉问答任务中可解释性方法的不足提出了未来的研究方向。 展开更多
关键词 视觉问答 视觉推理 可解释性 人工智能 自然语言处理 计算机视觉
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部