-
题名文本视觉问答综述
被引量:1
- 1
-
-
作者
朱贵德
黄海
-
机构
浙江理工大学计算机科学与技术学院(人工智能学院)
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第2期1-14,共14页
-
基金
国家自然科学基金面上项目(62272416)。
-
文摘
传统视觉问答(VQA)大多只关注图像中的视觉对象信息,忽略了对图像中文本信息的关注。文本视觉问答(TextVQA)除了视觉信息外还关注了图像中的文本信息,能够更加准确并高效地回答问题。近年来,TextVQA已经成为多模态领域的研究热点,在自动驾驶、场景理解等包含文本信息的场景中有重要的应用前景。阐述TextVQA的概念以及存在的问题与挑战,从方法、数据集、未来研究方向等方面对TextVQA任务进行系统性的分析。总结现有的TextVQA研究方法,并将其归纳为3个阶段,分别为特征提取阶段、特征融合阶段和答案预测阶段。根据融合阶段使用方法的不同,从简单注意力方法、基于Transformer方法和基于预训练方法这3个方面对TextVQA方法进行阐述,分析对比不同方法的特点以及在公开数据集中的表现。介绍TextVQA领域4种常用的公共数据集,并对它们的特点和评价指标进行分析。在此基础上,探讨当前TextVQA任务中存在的问题与挑战,并对该领域未来的研究方向进行展望。
-
关键词
文本视觉问答
文本信息
自然语言处理
计算机视觉
多模态融合
-
Keywords
text-based visual question answering(textvqa)
text information
natural language processing
computer vision
multimodal fusion
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-