-
题名提示学习在计算机视觉中的分类、应用及展望
- 1
-
-
作者
刘袁缘
刘树阳
刘云娇
袁雨晨
唐厂
罗威
-
机构
中国地质大学(武汉)计算机学院
中国舰船研究设计中心
-
出处
《自动化学报》
北大核心
2025年第5期1021-1040,共20页
-
基金
国家自然科学基金(62076227,U2341228)
湖北省自然科学基金(2023AFB572)
湖北省智能地理信息处理重点实验室(KLIGIP-2022-B10)资助。
-
文摘
随着计算机视觉(CV)的快速发展,人们对于提高视觉任务的性能和泛化能力的需求不断增长,导致模型的复杂度与对各种资源的需求进一步提高.提示学习(PL)作为一种能有效地提升模型性能和泛化能力、重用预训练模型和降低计算量的方法,在一系列下游视觉任务中受到广泛的关注与研究.然而,现有的PL综述缺乏对PL方法全面的分类和讨论,也缺乏对现有实验结果进行深入的研究以评估现有方法的优缺点.因此,本文对PL在CV领域的分类、应用和性能进行全面的概述.首先,介绍PL的研究背景和定义,并简要回顾CV领域中PL研究的最新进展.其次,对目前CV领域中的PL方法进行分类,包括文本提示、视觉提示和视觉−语言联合提示,对每类PL方法进行详细阐述并探讨其优缺点.接着,综述PL在十个常见下游视觉任务中的最新进展.此外,提供三个CV应用的实验结果并进行总结和分析,全面讨论不同PL方法在CV领域的表现.最后,基于上述讨论对PL在CV领域面临的挑战和机遇进行分析,为进一步推动PL在CV领域的发展提供前瞻性的思考.
-
关键词
计算机视觉
提示学习
视觉−语言大模型
预训练模型
-
Keywords
Computer vision
prompt learning
vision-language large model
pre-trained model
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-