-
题名基于图结构的级联注意力视觉问答模型
被引量:1
- 1
-
-
作者
张昊雨
张德
-
机构
北京建筑大学电气与信息工程学院&建筑大数据智能处理方法研究北京市重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2023年第6期155-161,共7页
-
基金
国家自然科学基金(61871020)。
-
文摘
视觉问答是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用双流方式,先分别计算图像和问题特征,然后再采取不同的技术和策略进行融合。目前,尚缺乏能够直接捕获问题语义和图像空间关系的更高层次的表示方法。提出一种基于图结构的级联注意力学习模型,该模型结合了图学习模块(学习输入图像问题的特定图表示)、图卷积层和级联注意力层,目的是捕捉不同候选框区域图像的空间信息,以及其与问题之间的更高层次的关系。在大规模数据集VQA v2.0上进行了实验,结果表明,跟主流算法相比较,是/否、计数和其他类型问题的回答准确率均有明显提升,总体准确率达到了68.34%,从而验证了提出模型的有效性。
-
关键词
视觉问答
注意力机制
图卷积神经网络
特征融合
-
Keywords
visual question answering
attention mechanism
graph convolutional network
feature fusion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-