-
题名跨模态视觉问答与推理研究进展
- 1
-
-
作者
张飞飞
张建庆
屈思佳
周琬婷
-
机构
天津理工大学计算机科学与工程学院
北京邮电大学人工智能学院
-
出处
《数据采集与处理》
CSCD
北大核心
2023年第1期1-20,共20页
-
基金
国家重点研发计划(2018AAA0102200)
国家自然科学基金(62036012,62002355,61832002,62072455,62102415,62106262,62006227)
北京自然科学基金(L201001)。
-
文摘
随着社交媒体和人机交互技术的快速发展,视频、图像以及文本等多模态数据在互联网中呈爆炸式增长,因此多模态智能研究受到关注。其中,视觉问答与推理任务是跨模态智能研究的一个重要组成部分,也是人类实现人工智能的重要基础,已成功应用于人机交互、智能医疗以及无人驾驶等领域。本文对视觉问答与推理的相关算法进行了全面概括和归类分析。首先,介绍了视觉问答与推理的定义,并简述了当前该任务面临的挑战;其次,从基于注意力机制、基于图网络、基于预训练、基于外部知识库和基于可解释推理机制5个方面对现有方法进行总结和归纳;然后,全面介绍了视觉问答与推理常用公开数据集,并对相关数据集上的已有算法进行详细分析;最后,对视觉问答与推理任务的未来方向进行了展望。
-
关键词
视觉问答
视觉常识推理
可解释推理
语义对齐
-
Keywords
visual question answering
visual commonsense reasoning
explainable reasoning
semantic alignment
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-