-
题名面向视觉问答的上下文感知多模态交互网络
被引量:1
- 1
-
-
作者
颜洪
黄青松
刘利军
-
机构
昆明理工大学信息工程与自动化学院
云南大学信息学院
云南省计算机技术应用重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2024年第7期106-114,共9页
-
基金
国家自然科学基金(81860318,81560296)。
-
文摘
近年来,视觉问答已经引起研究人员的广泛关注。现有的方法通过视觉与语言模态之间的密集交互以捕捉两种模态之间的高层语义信息,然而这些方法仅单独考虑单个词与视觉区域之间的关系,忽略了上下文信息来计算模态之间的依存关系。针对此问题,该文提出了一种上下文感知的多模态交互网络,通过融合上下文信息增强模态内与模态间的信息交互,提高视觉问答的推理能力。该文在大规模基准数据集VQA v2.0上进行了一系列对比实验与消融实验,实验结果表明,该方法在视觉问答任务上能够取得比当前主流的方法更高的准确率。
-
关键词
视觉问答
注意力机制
多模态交互网络
-
Keywords
visual question answering
attention mechanism
multi-modality interactive network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-