-
题名面向视觉-语言模型的递进互提示学习
- 1
-
-
作者
陶俊杰
张卫锋
王玉霞
缪翌
徐领
-
机构
浙江理工大学计算机科学与技术学院(人工智能学院)
嘉兴大学信息科学与工程学院
嘉兴市计量检定测试院
-
出处
《计算机应用研究》
北大核心
2025年第6期1648-1655,共8页
-
基金
中国博士后科学基金资助项目(2022M720569)
浙江省自然科学基金资助项目(LQ21F020022)。
-
文摘
大规模预训练视觉-语言模型CLIP(contrastive language-image pretraining)可将输入图像和文本投影到公共语义空间实现跨模态对齐,且在广泛的下游任务上展现了较强的泛化能力。然而,现有的提示学习方法通常在CLIP的视觉编码器和文本编码器的各层分别插入独立的可学习提示向量,以矫正表征空间,但缺乏充分的跨模态交互,且编码器各层的提示相互独立,无法有效引导编码器准确捕获任务所需信息。为解决上述问题,提出递进互提示学习方法(progressive co-prompting learning,ProgCoPL),该方法在视觉编码器层插入由文本提示引导的提示向量,在文本编码器层插入由视觉提示引导的提示向量,从而有效增强了模型的跨模态交互与对齐能力。此外,ProgCoPL通过在编码器各层的提示向量之间添加信息传递通道,实现了层级递进的信息整合,从而更精准地捕获任务相关信息。在11个数据集上的实验结果表明,ProgCoPL能够将CLIP模型高效适配到下游任务,且在多个泛化能力测试中,ProgCoPL的表现超越了现有方法,尤其是在跨数据集泛化能力测试上取得了显著进步。
-
关键词
多模态
提示学习
视觉-语言模型
Transformer编码器
-
Keywords
multimodal
prompt learning
vision-language model
Transformer encoder
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于视觉-语言预训练模型的开集交通目标检测算法
- 2
-
-
作者
黄琦强
安国成
熊刚
-
机构
上海交通大学电子信息与电气工程学院
上海华讯网络系统有限公司行业数智事业部
-
出处
《计算机工程》
北大核心
2025年第6期375-384,共10页
-
基金
“十四五”国家重点研发计划(2023YFC3006700)
国家自然科学基金(62071293)。
-
文摘
交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其能够适应开集目标的定位问题,并将损失函数改进为交并比(IoU)损失,有效提升定位精度;其次,构建一种新的基于VLP的标签匹配网络(VLP-LMN),对预测框进行标签匹配,VLP模型作为一个强大的知识库,可有效匹配区域图像和标签文本,同时,VLP-LMN的提示工程和微调网络模块可以更好地发掘出VLP模型的性能,有效提高VLP模型标签匹配的准确性。实验结果表明,该算法在PASCAL VOC07+12数据集上实现了60.3%的新类目标检测平均准确率,这证明了其具有良好的开集目标检测性能;同时在交通数据集上的新类目标检测平均准确率达到了58.9%,作为零样本检测,仅比基类目标低14.5%,证明了该算法在交通目标检测上具有良好的泛化能力。
-
关键词
视觉-语言预训练模型
Faster
R-CNN
开集目标检测
交通目标检测
-
Keywords
Visual-Language Pre-trained(VLP)model
Faster R-CNN
open-set object detection
traffic object detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于视觉-语言预训练模型的零样本迁移学习方法综述
- 3
-
-
作者
孙仁科
许靖昊
皇甫志宇
李仲年
许新征
-
机构
中国矿业大学计算机科学与技术学院
矿山数字化教育部工程研究中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第10期1-15,共15页
-
基金
国家自然科学基金(61976217,62306320)
江苏省自然科学基金(BK20231063)。
-
文摘
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。
-
关键词
零样本学习
视觉-语言预训练模型
零样本迁移
多模态
计算机视觉
-
Keywords
Zero-Shot Learning(ZSL)
vision-language pre-trained model
Zero-Shot Transfer(ZST)
multi-modal
computer vision
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于推理阶段的对抗视觉调优方法
- 4
-
-
作者
张家明
桑基韬
于剑
-
机构
北京交通大学计算机与信息技术学院
-
出处
《计算机学报》
北大核心
2025年第6期1443-1457,共15页
-
文摘
近年来,大规模预训练视觉-语言模型在图像描述、视觉问答和图像检索等任务中展现出卓越的性能。然而,这些模型在安全性方面存在显著的脆弱性,尤其容易受到几乎不可见的对抗噪声的攻击。对抗噪声通过在输入图像中加入人眼几乎不可察觉的扰动,使得模型发生错误。这种脆弱性在实际应用中带来了深度学习模型的安全性挑战,特别是在处理敏感信息的任务中。尽管对抗训练已被证明可以有效提升模型的对抗鲁棒性,但由于其计算复杂度较高,难以直接应用于大规模的视觉-语言模型。为应对这一挑战,本文提出了一种基于推理阶段的对抗视觉调优方法(Adversarial Inference-time Visual Prompt Tuning,AI-VPT),首次在推理阶段针对视觉模态进行提示调优,旨在增强视觉编码器的对抗鲁棒性。AI-VPT通过学习视觉嵌入向量,在推理过程中与对抗图像嵌入对齐,优化视觉表示以削弱对抗性噪声的影响。具体而言,AI-VPT在对抗样本上生成多种增强视图,通过信息熵筛选低熵视图以保留有效信息,从不同角度减弱对抗性干扰,从而进一步提高模型的对抗防御能力。相比于传统的对抗训练技术Adversarial Training,AI-VPT减少了92.9%的时间成本,显著降低了计算开销,尤其适用于大规模预训练视觉-语言模型。经过在六个高分辨率视觉数据集上的广泛测试,AI-VPT展现出了显著的优势,在ViT-B/16和ViT-L/14架构上相对于现有的对抗提示调优方法分别提升了26.1%和18.5%的对抗鲁棒性。
-
关键词
深度学习
视觉-语言模型
对抗防御
提示学习
图像识别
-
Keywords
deep learning
vision-language models
adversarial defense
prompt learning
image recognition
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于图像内容理解的判别性类别提示学习
- 5
-
-
作者
王楠井
刘阿建
梁凤梅
张小梅
万军
谢珺
雷震
-
机构
太原理工大学电子信息工程学院
中国科学院自动化研究所
-
出处
《电子学报》
北大核心
2025年第2期493-502,共10页
-
基金
虚拟现实技术与系统全国重点实验室开放课题(No.VRLAB2023A06)
山西省科技合作交流专项(No.202104041101030)。
-
文摘
近年来,通过图像与文本的联合表示,基于对比语言-图像预训练(Contrastive Language-Image Pre-training,CLIP)的方法将文本信息作为分类器的权值,在通用图像识别任务中展现出卓越性能.但是现有方法仅单独构建类别文本提示,比如上下文优化(Context Optimization,CoOp)和条件上下文优化(Conditional Context Optimization,CoCoOp)等,没有考虑图像的内容语义信息与类别的重要性,限制了模型对图像类别的理解与判别.为了解决上述问题,本文在CLIP的基础上提出了一种新方法:基于图像内容理解的判别性类别提示学习(Discriminative Category Prompt Learning based on image content understanding,DCPL),借助图像中丰富的内容特征来学习文本提示,提高文本提示对类别的判别性.具体来说,DCPL包含提示生成(Prompt Generation,PG)模块和文本监督(Text Supervision,TS)模块.PG模块将图像特征和初始化的查询向量作为输入,通过自注意力机制和交叉注意力机制使输出的文本提示中包含充分的图像语义信息;TS模块将固定的类别提示模板作为监督,为可学习文本提示在类别层面和logits层面注入类别信息,增强了类别的重要性.最后,DCPL在ImageNet、Caltech101和Oxford-Pets等11个公开分类数据集上的16-shots平均准确率达到了81.84%,较以往最优方法Cross-Modal的平均准确率提升了0.98个百分点.
-
关键词
视觉-语言模型
图像识别
提示调优
注意力机制
文本监督(TS)
适配器微调
TRANSFORMER
-
Keywords
visual-language model
image recognition
prompt tuning
attention mechanism
text supervision
adapter tuning
transformer
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多粒度共享语义中心关联的文本到人物检索方法
- 6
-
-
作者
康斌
陈斌
王俊杰
李昱林
赵军智
咸伟志
-
机构
中国科学院成都计算机应用研究所
中国科学院大学计算机科学与技术学院
哈尔滨工业大学(深圳)国际人工智能研究院
哈尔滨工业大学(深圳)计算机科学与技术学院
西南交通大学信息科学与技术学院
哈尔滨工业大学重庆研究院
-
出处
《计算机应用》
北大核心
2025年第3期808-814,共7页
-
基金
深圳市稳定支持面上项目(GXWD-20220811170603002)。
-
文摘
基于文本的人物检索旨在通过使用文本描述作为查询来识别特定人物。现有的先进方法通常设计多种对齐机制实现跨模态数据在全局和局部的对应关系,然而忽略了不同对齐机制之间的相互影响。因此,提出一种多粒度共享语义中心关联机制,深入探索全局对齐和局部对齐之间的促进和抑制效应。首先,引入一个多粒度交叉对齐模块,并通过增强图像-句子和局部区域-分词之间的交互,实现跨模态数据在联合嵌入空间的多层次对齐;其次,建立一个共享语义中心,将它作为一个可学习的语义枢纽,并通过全局特征和局部特征的关联,增强不同对齐机制之间的语义一致性,促进全局和局部特征的协同作用。在共享语义中心内,计算图像特征和文本特征之间的局部和全局跨模态相似性关系,提供一种全局视角与局部视角的互补度量,并最大限度地促进多种对齐机制之间的正向效应;最后,在CUHK-PEDES数据集上进行实验。结果表明:所提方法在Rank-1指标上较基线方法显著提升了8.69个百分点,平均精度均值(mAP)提升了6.85个百分点。在ICFG-PEDES和RSTPReid数据集上所提方法也取得了优异的性能,明显超越了所有对比方法。
-
关键词
视觉-语言模型
人物检索
全局对齐
局部对齐
共享语义中心
-
Keywords
Visual-Language Model(VLM)
person retrieval
global alignment
local alignment
shared semantic center
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名语义增强的零样本甲骨文字符识别
被引量:1
- 7
-
-
作者
刘宗昊
彭文杰
代港
黄双萍
刘永革
-
机构
华南理工大学电子与信息学院
安阳师范学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2024年第10期3347-3358,共12页
-
基金
国家重点研发计划(No.2023YFC3502900)
国家自然科学基金(No.62176093,No.61673182)
+1 种基金
广州市重点领域研发计划(No.202206030001)
粤港澳联合创新领域项目(No.2023A0505030016)。
-
文摘
甲骨文识别对于了解中国历史和传承中华文化都有重要的价值.目前,人工识别甲骨文需要具备丰富的专家经验并耗费大量的时间,而自动识别甲骨文的方法绝大部分受制于闭集假设,在甲骨文这种陆续发现新字符的现实场景下适用范围受限.为此,有研究者提出零样本甲骨文字符识别,其从视觉匹配的角度出发,将字模图像作为字符类别参考,通过拓片图像与字模图像的相似度匹配实现拓片图像的字符识别,然而其忽略了甲骨文拓片图像样本类内方差大的难点,仍存在因字形多变而容易匹配错误的不足.本文提出了一种两阶段的语义增强零样本甲骨文字符识别方法.第一阶段为域无关的字符语义学习阶段,通过提示学习从甲骨文拓片和字模图像中提取字符语义,解决甲骨文字符缺乏语义的问题.为应对拓片与字模之间的域差异,我们分别设置可学习的域提示信息和字符类别提示信息,通过解耦两者的语义实现更准确的特征提取.第二阶段为语义增强的字符图像视觉匹配阶段,模型通过两个分支分别提取类内共享特征和类间差异特征.第一个分支使用对比学习,将同一字符类别的不同字形视觉特征对齐到字符语义,引导模型关注类内共享特征;第二个分支使用损失函数N-Pair,增强模型对不同字符类别间差异特征的学习.在测试阶段,模型无须语义特征,通过训练中学到的类内相似性和类间差异性特征,实现更准确的拓片与字模匹配,提升零样本识别性能.我们在拓片数据集OBC306和字模数据集SOC5519上进行实验验证,实验结果表明,本文提出的方法在零样本甲骨文识别准确率比基准方法性能提升超过25%.
-
关键词
甲骨文字识别
零样本识别
视觉匹配
语义增强
视觉-语言模型
对比学习
-
Keywords
oracle character recognition
zero-shot recognition
visual matching
semantic-enhanced
vision language model
contrastive learning
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-