-
题名视觉提示学习综述
被引量:5
- 1
-
-
作者
廖宁
曹敏
严骏驰
-
机构
上海交通大学人工智能教育部重点实验室
苏州大学计算机科学与技术学院
-
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2024年第4期790-820,共31页
-
基金
国家自然科学基金优秀青年科学基金项目(No.62222607)
上海市级科技重大专项(No.2021SHZDZX0102)
国家自然科学基金(No.62002252)资助。
-
文摘
近年来,随着提示学习方法在自然语言处理领域被提出,其日益受到研究人员广泛关注,它通过将各类下游任务重构成预训练任务的形式,以参数高效和数据高效的方式将大规模预训练模型应用在各类自然语言相关下游任务中.其中以GPT系列为代表的模型通过提示学习在对话生成和多模态图文理解等任务上取得了巨大的成功.然而,这类模型及方法还不能解决视觉中的稠密任务.受此启发,一些研究人员逐渐将提示学习广泛应用到视觉相关的各类任务当中,如图像识别、目标检测、图像分割、领域适应、持续学习等.由于目前还没有提示学习应用在视觉相关领域中的综述,本文将对视觉单模态领域以及视觉语言多模态领域的提示学习方法展开全面论述和分析.作为回顾,我们首先简要介绍自然语言处理领域的预训练模型,并对提示学习的基本概念、下游应用形式以及提示模板类型进行阐述和分类.其次,我们分别介绍视觉单模态领域以及视觉语言多模态领域里提示学习方法适配的预训练模型和任务.再次,我们分别介绍视觉单模态领域以及视觉语言多模态领域的提示学习方法.在自然语言处理领域,提示学习方法以继承预训练形式实现多任务统一为主要目的;与此不同,在视觉相关领域,提示学习方法侧重于面向特定下游任务进行设计.为此,我们将从方法设计上进行简单分类,然后从应用任务角度详细介绍视觉单模态提示学习和视觉语言多模态提示学习方法.最后,我们对比分析了自然语言处理领域和视觉相关领域提示学习研究的进展,并对未来研究路线给出了展望。
-
关键词
大规模预训练模型
自然语言处理
视觉单模态提示学习
视觉语言多模态提示学习
-
Keywords
large-scale pre-trained model
natural language processing
unimodal visual prompt learning
multimodal vision-language prompt learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-