期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
融合视觉常识特征和门控计数方法的视觉问答
1
作者 徐钰涛 汤守国 《计算机科学》 北大核心 2025年第S1期421-427,共7页
为了更好地探索图像中的潜在常识信息,引入了一种创新的视觉常识特征用于视觉问答(Visual Question Answering,VQA)任务,并通过视觉特征融合模块有效地整合了自底向上特征和视觉常识特征,从而实现了丰富的视觉特征表示。其中引导式注意... 为了更好地探索图像中的潜在常识信息,引入了一种创新的视觉常识特征用于视觉问答(Visual Question Answering,VQA)任务,并通过视觉特征融合模块有效地整合了自底向上特征和视觉常识特征,从而实现了丰富的视觉特征表示。其中引导式注意力融合方法,通过将自底向上特征与视觉常识特征共同输入信息交互模块,使注意力机制能够捕捉到与问题文本更为相关的图片内容。在此基础上,设计并引入了一种门控计数模块(Gated Counting Module,GCM),旨在保留图像特征中实体的数量信息。这一模块在计数问题上显著提升了模型性能,同时保持了信息的完整性和相关性。与传统方法相比,GCM能够更准确地处理涉及数量的视觉问题,从而增强了整体VQA任务的准确性。最后,在广泛使用的数据集VQA v2.0上进行了大量实验,所提方法取得了较好的结果。 展开更多
关键词 视觉问答 视觉常识特征 特征融合 视觉特征 Faster R-CNN 门控计数模块
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部