文摘探究了视觉-语言预训练模型对比语言-图像预训练(Contrastive language-image pre-training,CLIP)在小样本开集识别(Few-shot open-set recognition,FSOR)任务中的潜力。实验发现基于CLIP图像编码特征的视觉原型分类器通常不如传统FSOR基线方法;基于CLIP语义编码特征的语义原型分类器虽然在闭集分类上显著优于传统基线,但在开集识别方面表现不佳。本文分析造成这些问题的主要原因可能是CLIP的训练数据与FSOR目标数据之间的分布差异及CLIP语义原型分类器为已知类别划分了过大的决策边界。本文提出了一种简单有效的视觉语义增强的联合小样本开集分类器,其不仅充分利用CLIP语义原型分类器的闭集分类优势,还巧妙挖掘了传统FSOR预训练模型构建的视觉原型分类器的潜力,以更紧密的决策边界进一步提升开集识别的精准度。在4个基准数据集上的实验结果表明,该方法在准确率(Accuracy,ACC)和受试者工作特征曲线下的面积(Area under the receiver operating characteristic,AUROC)指标上相比最优基线平均提升了2.9%和2.6%。