期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
融合跨模态Transformer的外部知识型VQA
1
作者 王虞 李明锋 孙海春 《科学技术与工程》 北大核心 2024年第20期8577-8586,共10页
针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型... 针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型借助双向交叉注意力机制提升文本问题、图像、外接知识的语义交互融合能力,用于优化VQA模型在面对外部知识时普遍存在的推理能力不足的问题。结果表明:与基线模型LXMERT相比,在OK VQA数据集上,本文模型整体性能指标overall提升了15.01%。同时,与已有最新模型相比,在OK VQA数据集上,本文模型整体性能指标overall提升了4.46%。可见本文模型在改进外部知识型VQA任务性能方面有所提升。 展开更多
关键词 视觉问答(vqa) 外部知识 跨模态 知识图谱
在线阅读 下载PDF
基于多语义关联与融合的视觉问答模型
2
作者 周浩 王超 +1 位作者 崔国恒 罗廷金 《计算机应用》 北大核心 2025年第3期739-745,共7页
弥合视觉图像和文本问题之间的语义差异是提高视觉问答(VQA)模型推理准确性的重要方法之一。然而现有的相关模型大多数基于低层图像特征的提取并利用注意力机制推理问题的答案,忽略了高层图像语义特征如关系和属性特征等在视觉推理中的... 弥合视觉图像和文本问题之间的语义差异是提高视觉问答(VQA)模型推理准确性的重要方法之一。然而现有的相关模型大多数基于低层图像特征的提取并利用注意力机制推理问题的答案,忽略了高层图像语义特征如关系和属性特征等在视觉推理中的作用。为解决上述问题,提出一种基于多语义关联与融合的VQA模型以建立问题与图像之间的语义联系。首先,基于场景图生成框架提取图像中的多种语义并把它们进行特征精炼后作为VQA模型的特征输入,从而充分挖掘图像场景中的信息;其次,为提高图像特征的语义价值,设计一个信息过滤器过滤图像特征中的噪声和冗余信息;最后,设计多层注意力融合和推理模块将多种图像语义分别与问题特征进行语义融合,以强化视觉图像重点区域与文本问题之间的语义关联。与BAN(Bilinear Attention Network)和CFR(Coarse-to-Fine Reasoning)模型的对比实验结果表明,所提模型在VQA2.0测试集上的准确率分别提高了2.9和0.4个百分点,在GQA测试集上的准确率分别提高了17.2和0.3个百分点。这表明所提模型能够更好地理解图像场景中的语义并回答组合式视觉问题。 展开更多
关键词 多语义特征融合 视觉问答 场景图 属性注意力 关系注意力
在线阅读 下载PDF
跨模态自适应特征融合的视觉问答方法
3
作者 陈巧红 项深祥 +1 位作者 方贤 孙麒 《哈尔滨工业大学学报》 北大核心 2025年第4期94-104,共11页
为提高视觉问答(VQA)中跨模态融合与交互的精确度,减少多模态特征信息的丢失,提出了一种新颖的基于跨模态自适应特征融合的视觉问答方法。首先,该方法设计了卷积自注意力单元,包含自注意力层和空洞卷积层,前者用于捕捉全局特征信息,后... 为提高视觉问答(VQA)中跨模态融合与交互的精确度,减少多模态特征信息的丢失,提出了一种新颖的基于跨模态自适应特征融合的视觉问答方法。首先,该方法设计了卷积自注意力单元,包含自注意力层和空洞卷积层,前者用于捕捉全局特征信息,后者用于捕捉视觉对象间的空间关系。其次,通过自适应特征融合层,将全局关系与空间关系进行有效结合,使模型在处理图像特征时能够同时考虑全局关系和视觉对象之间的关联性,从而克服了传统注意力机制忽视空间关系的问题。最后,基于不同模态特征在答案预测中贡献程度的差异,该方法还构建了多模态门控融合模块,根据多模态特征间的重要程度自适应地融合特征,减少多模态信息的丢失,同时不会带来额外的计算资源开销。研究结果表明,该方法在未使用额外数据集预训练的情况下,在VQA2.0的测试-开发集、测试-标准集和GQA数据集上的整体准确率分别达到71.58%、72.00%、58.14%,显著优于传统自注意力方法,该研究成果可为跨模态特征融合领域提供了重要的参考和借鉴。 展开更多
关键词 视觉问答(vqa) 特征融合 多模态 注意力机制 门控机制
在线阅读 下载PDF
基于交叉模态注意力特征增强的医学视觉问答
4
作者 刘凯 任洪逸 +2 位作者 李蓥 季怡 刘纯平 《计算机工程》 北大核心 2025年第6期49-56,共8页
医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像... 医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像的局部特征所包含的医学信息与跨模态间的交互作用,从而限制了图像内容理解。针对以上问题,提出一种交叉模态注意力特征增强的Med-VQA模型(CMAG-MVQA)。基于U-Net编码有效增强图像局部特征,从交叉模态协同角度提出选择引导注意力方法,为单模态表征引入其他模态的交互信息,同时利用自注意力机制进一步增强选择引导注意力的图像表征。在VQA-RAD医学问答数据集上的消融与对比实验表明,所提方法在Med-VQA任务上有良好的表现,相比于现有同类方法,其在特征表征上性能得到较好改善。 展开更多
关键词 跨模态交互 注意力机制 医学视觉问答 特征融合 特征增强
在线阅读 下载PDF
面向智能交互的图像识别技术综述与展望 被引量:100
5
作者 蒋树强 闵巍庆 王树徽 《计算机研究与发展》 EI CSCD 北大核心 2016年第1期113-122,共10页
视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题... 视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题不断被提出,面向智能交互的应用呈现出一些新的动态,正在不断刷新人们对此领域的原有认识.从视觉识别、视觉描述和视觉问答3个角度对图像识别技术进行综述,对基于深度学习的图像识别以及场景分类技术进行了具体介绍,对视觉描述和问答技术的最新技术进行了分析和讨论,同时对面向移动终端和机器人的视觉识别和交互应用进行了介绍,最后对该领域的未来研究趋势进行了分析. 展开更多
关键词 图像识别 智能的视觉识别 智能交互 视觉描述 视觉问答 深度学习
在线阅读 下载PDF
基于深度神经网络的图像碎片化信息问答算法 被引量:4
6
作者 王一蕾 卓一帆 +1 位作者 吴英杰 陈铭钦 《计算机研究与发展》 EI CSCD 北大核心 2018年第12期2600-2610,共11页
大量结构无序、内容片面的碎片化信息以文本、图像、视频、网页等不同模态的形式,高度分散存储在不同数据源中,现有的研究通过构建视觉问答系统(visual question answering,VQA),实现对多模态碎片化信息的提取、表达和理解.视觉问答任... 大量结构无序、内容片面的碎片化信息以文本、图像、视频、网页等不同模态的形式,高度分散存储在不同数据源中,现有的研究通过构建视觉问答系统(visual question answering,VQA),实现对多模态碎片化信息的提取、表达和理解.视觉问答任务给定与图像相关的一个问题,推理相应的答案.在视觉问答任务的基本背景下,以设计出完备的图像碎片化信息问答的框架与算法为目标,重点研究包括图像特征提取、问题文本特征提取、多模态特征融合和答案推理的模型与算法.构建深度神经网络模型提取用于表示图像与问题信息的特征,结合注意力机制与变分推断方法关联图像与问题2种模态特征并推理答案.实验结果表明:该模型能够有效提取和理解多模态碎片化信息,并提高视觉问答任务的准确率. 展开更多
关键词 人工智能 碎片化信息 神经网络 深度学习 视觉问答
在线阅读 下载PDF
视觉问答技术研究 被引量:24
7
作者 俞俊 汪亮 余宙 《计算机研究与发展》 EI CSCD 北大核心 2018年第9期1946-1958,共13页
随着深度学习在计算机视觉、自然语言处理领域取得的长足进展,现有方法已经能准确理解视觉对象和自然语言的语义,并在此基础上开展跨媒体数据表达与交互研究.近年来,视觉问答(visual question answering,VQA)是跨媒体表达与交互方向上... 随着深度学习在计算机视觉、自然语言处理领域取得的长足进展,现有方法已经能准确理解视觉对象和自然语言的语义,并在此基础上开展跨媒体数据表达与交互研究.近年来,视觉问答(visual question answering,VQA)是跨媒体表达与交互方向上的研究热点问题.视觉问答旨在让计算机理解图像内容后根据自然语言输入的查询进行自动回答.围绕视觉问答问题,从概念、模型、数据集等方面对近年来的研究进展进行综述,同时探讨现有工作存在的不足;最后从方法论、应用和平台等多方面对视觉问答未来的研究方向进行了展望. 展开更多
关键词 视觉问答 见觉推理 见频问答 深度学习 知识网络
在线阅读 下载PDF
面向视觉问答的多模块协同注意模型 被引量:8
8
作者 邹品荣 肖锋 +2 位作者 张文娟 张万玉 王晨阳 《计算机工程》 CAS CSCD 北大核心 2022年第2期250-260,共11页
视觉问答(VQA)是计算机视觉和自然语言处理领域中典型的多模态问题,然而传统VQA模型忽略了双模态中语义信息的动态关系和不同区域间丰富的空间结构。提出一种新的多模块协同注意力模型,对视觉场景中对象间关系的动态交互和文本上下文表... 视觉问答(VQA)是计算机视觉和自然语言处理领域中典型的多模态问题,然而传统VQA模型忽略了双模态中语义信息的动态关系和不同区域间丰富的空间结构。提出一种新的多模块协同注意力模型,对视觉场景中对象间关系的动态交互和文本上下文表示进行充分理解,根据图注意力机制建模不同类型对象间关系,学习问题的自适应关系表示,将问题特征和带关系属性的视觉关系通过协同注意编码,加强问题词与对应图像区域间的依赖性,通过注意力增强模块提升模型的拟合能力。在开放数据集VQA 2.0和VQA-CP v2上的实验结果表明,该模型在"总体"、"是/否"、"计数"和"其他"类别问题上的精确度明显优于DA-NTN、ReGAT和ODA-GCN等对比方法,可有效提升视觉问答的准确率。 展开更多
关键词 视觉问答 注意力机制 图注意网络 关系推理 多模态学习 特征融合
在线阅读 下载PDF
基于空间注意力推理机制的视觉问答算法研究 被引量:1
9
作者 李智涛 周之平 叶琴 《计算机应用研究》 CSCD 北大核心 2021年第3期952-955,共4页
针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning atten... 针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出。相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区域。模型在VQAv2数据集上进行训练和验证,并在VQAv2数据集上达到了64.01%的准确率。 展开更多
关键词 视觉问答 注意力机制 多模态学习 自注意力 空间推理注意力
在线阅读 下载PDF
视觉问答技术研究综述 被引量:4
10
作者 王虞 孙海春 《计算机科学与探索》 CSCD 北大核心 2023年第7期1487-1505,共19页
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析... 视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。 展开更多
关键词 视觉问答(vqa) 模态融合 视觉对话 智能问答 跨模态技术
在线阅读 下载PDF
面向跨模态数据协同分析的视觉问答方法综述 被引量:1
11
作者 崔政 胡永利 +1 位作者 孙艳丰 尹宝才 《北京工业大学学报》 CAS CSCD 北大核心 2022年第10期1088-1099,共12页
协同分析和处理跨模态数据一直是现代人工智能领域的难点和热点,其主要挑战是跨模态数据具有语义和异构鸿沟.近年来,随着深度学习理论和技术的快速发展,基于深度学习的算法在图像和文本处理领域取得了极大的进步,进而产生了视觉问答(vis... 协同分析和处理跨模态数据一直是现代人工智能领域的难点和热点,其主要挑战是跨模态数据具有语义和异构鸿沟.近年来,随着深度学习理论和技术的快速发展,基于深度学习的算法在图像和文本处理领域取得了极大的进步,进而产生了视觉问答(visual question answering,VQA)这一课题.VQA系统利用视觉信息和文本形式的问题作为输入,得出对应的答案,核心在于协同理解和处理视觉、文本信息.因此,对VQA方法进行了详细综述,按照方法原理将现有的VQA方法分为数据融合、跨模态注意力和知识推理3类方法,全面总结分析了VQA方法的最新进展,介绍了常用的VQA数据集,并对未来的研究方向进行了展望. 展开更多
关键词 跨模态数据 深度学习 视觉问答 数据融合 跨模态注意力 知识推理
在线阅读 下载PDF
基于关系推理与门控机制的视觉问答方法
12
作者 王鑫 陈巧红 +1 位作者 孙麒 贾宇波 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第1期36-46,共11页
针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关... 针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关系推理加强视觉区域间的联系.将分别得到的视觉注意力特征与视觉关系特征输入到自适应门控中,动态控制2种特征对预测答案的贡献.在VQA1.0及VQA2.0数据集上的实验结果表明:该模型与DCN、MFB、MFH及MCB等先进模型相比,在总体精度上均有约2%的提升;利用基于关系推理与门控机制的模型能够更好地理解图像内容,有效地提升视觉问答的准确率. 展开更多
关键词 视觉问答(vqa) 注意力机制 视觉区域 关系推理 自适应门控
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部