检索结果-维普期刊中文期刊服务平台

跨模态自适应特征融合的视觉问答方法: 1; 作者陈巧红项深祥 +1 位作者方贤孙麒《哈尔滨工业大学学报》北大核心 2025年第4期94-104,共11页; 为提高视觉问答(VQA)中跨模态融合与交互的精确度,减少多模态特征信息的丢失,提出了一种新颖的基于跨模态自适应特征融合的视觉问答方法。首先,该方法设计了卷积自注意力单元,包含自注意力层和空洞卷积层,前者用于捕捉全局特征信息,后... 展开更多; 关键词视觉问答(vqa) 特征融合多模态注意力机制门控机制; 在线阅读下载PDF 职称材料

视觉问答技术研究综述被引量：2: 2; 作者王虞孙海春《计算机科学与探索》 CSCD 北大核心 2023年第7期1487-1505,共19页; 视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析... 展开更多; 关键词视觉问答(vqa) 模态融合视觉对话智能问答跨模态技术; 在线阅读下载PDF 职称材料

基于关系推理与门控机制的视觉问答方法: 3; 作者王鑫陈巧红 +1 位作者孙麒贾宇波《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2022年第1期36-46,共11页; 针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关... 展开更多; 关键词视觉问答(vqa) 注意力机制视觉区域关系推理自适应门控; 在线阅读下载PDF 职称材料

融合跨模态Transformer的外部知识型VQA: 4; 作者王虞李明锋孙海春《科学技术与工程》北大核心 2024年第20期8577-8586,共10页; 针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型... 展开更多; 关键词视觉问答(vqa) 外部知识跨模态知识图谱; 在线阅读下载PDF 职称材料

题名跨模态自适应特征融合的视觉问答方法: 1; 作者陈巧红项深祥方贤孙麒; 机构浙江理工大学计算机科学与技术学院; 出处《哈尔滨工业大学学报》北大核心 2025年第4期94-104,共11页; 基金浙江省自然科学基金(LQ23F020021)。; 文摘为提高视觉问答(VQA)中跨模态融合与交互的精确度,减少多模态特征信息的丢失,提出了一种新颖的基于跨模态自适应特征融合的视觉问答方法。首先,该方法设计了卷积自注意力单元,包含自注意力层和空洞卷积层,前者用于捕捉全局特征信息,后者用于捕捉视觉对象间的空间关系。其次,通过自适应特征融合层,将全局关系与空间关系进行有效结合,使模型在处理图像特征时能够同时考虑全局关系和视觉对象之间的关联性,从而克服了传统注意力机制忽视空间关系的问题。最后,基于不同模态特征在答案预测中贡献程度的差异,该方法还构建了多模态门控融合模块,根据多模态特征间的重要程度自适应地融合特征,减少多模态信息的丢失,同时不会带来额外的计算资源开销。研究结果表明,该方法在未使用额外数据集预训练的情况下,在VQA2.0的测试-开发集、测试-标准集和GQA数据集上的整体准确率分别达到71.58%、72.00%、58.14%,显著优于传统自注意力方法,该研究成果可为跨模态特征融合领域提供了重要的参考和借鉴。; 关键词视觉问答(vqa) 特征融合多模态注意力机制门控机制; Keywords visual question answering(vqa) feature fusion multimodal attentional mechanisms gating mechanisms; 分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名视觉问答技术研究综述被引量：2: 2; 作者王虞孙海春; 机构中国人民公安大学信息网络安全学院安全防范技术与风险评估公安部重点实验室; 出处《计算机科学与探索》 CSCD 北大核心 2023年第7期1487-1505,共19页; 基金公安部技术研究计划项目(2020JSYJC22) 北京市自然科学基金(4184099)。; 文摘视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。; 关键词视觉问答(vqa) 模态融合视觉对话智能问答跨模态技术; Keywords visual question answering(vqa) modal fusion visual dialogue intelligent question answering crossmodal technology; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于关系推理与门控机制的视觉问答方法: 3; 作者王鑫陈巧红孙麒贾宇波; 机构浙江理工大学信息学院; 出处《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2022年第1期36-46,共11页; 基金浙江省自然科学基金资助项目(LY17E050028)。; 文摘针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关系推理加强视觉区域间的联系.将分别得到的视觉注意力特征与视觉关系特征输入到自适应门控中,动态控制2种特征对预测答案的贡献.在VQA1.0及VQA2.0数据集上的实验结果表明:该模型与DCN、MFB、MFH及MCB等先进模型相比,在总体精度上均有约2%的提升;利用基于关系推理与门控机制的模型能够更好地理解图像内容,有效地提升视觉问答的准确率.; 关键词视觉问答(vqa) 注意力机制视觉区域关系推理自适应门控; Keywords visual question answering(vqa) attention mechanism visual region relational reasoning adaptive gating; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名融合跨模态Transformer的外部知识型VQA: 4; 作者王虞李明锋孙海春; 机构中国人民公安大学信息网络安全学院安全防范技术与风险评估公安部重点实验室; 出处《科学技术与工程》北大核心 2024年第20期8577-8586,共10页; 基金公安部技术研究计划项目(2020JSYJC22) 中央高校基本科研业务费专项资金(2022JKF02015)。; 文摘针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型借助双向交叉注意力机制提升文本问题、图像、外接知识的语义交互融合能力,用于优化VQA模型在面对外部知识时普遍存在的推理能力不足的问题。结果表明:与基线模型LXMERT相比,在OK VQA数据集上,本文模型整体性能指标overall提升了15.01%。同时,与已有最新模型相比,在OK VQA数据集上,本文模型整体性能指标overall提升了4.46%。可见本文模型在改进外部知识型VQA任务性能方面有所提升。; 关键词视觉问答(vqa) 外部知识跨模态知识图谱; Keywords visual question answering(vqa) external knowledge cross modal knowledge graph; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	跨模态自适应特征融合的视觉问答方法	陈巧红项深祥方贤孙麒	《哈尔滨工业大学学报》北大核心	2025	0	在线阅读下载PDF 职称材料
2	视觉问答技术研究综述	王虞孙海春	《计算机科学与探索》 CSCD 北大核心	2023	2	在线阅读下载PDF 职称材料
3	基于关系推理与门控机制的视觉问答方法	王鑫陈巧红孙麒贾宇波	《浙江大学学报（工学版）》 EI CAS CSCD 北大核心	2022	0	在线阅读下载PDF 职称材料
4	融合跨模态Transformer的外部知识型VQA	王虞李明锋孙海春	《科学技术与工程》北大核心	2024	0	在线阅读下载PDF 职称材料