期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
面向视觉-语言模型的递进互提示学习
1
作者 陶俊杰 张卫锋 +2 位作者 王玉霞 缪翌 徐领 《计算机应用研究》 北大核心 2025年第6期1648-1655,共8页
大规模预训练视觉-语言模型CLIP(contrastive language-image pretraining)可将输入图像和文本投影到公共语义空间实现跨模态对齐,且在广泛的下游任务上展现了较强的泛化能力。然而,现有的提示学习方法通常在CLIP的视觉编码器和文本编... 大规模预训练视觉-语言模型CLIP(contrastive language-image pretraining)可将输入图像和文本投影到公共语义空间实现跨模态对齐,且在广泛的下游任务上展现了较强的泛化能力。然而,现有的提示学习方法通常在CLIP的视觉编码器和文本编码器的各层分别插入独立的可学习提示向量,以矫正表征空间,但缺乏充分的跨模态交互,且编码器各层的提示相互独立,无法有效引导编码器准确捕获任务所需信息。为解决上述问题,提出递进互提示学习方法(progressive co-prompting learning,ProgCoPL),该方法在视觉编码器层插入由文本提示引导的提示向量,在文本编码器层插入由视觉提示引导的提示向量,从而有效增强了模型的跨模态交互与对齐能力。此外,ProgCoPL通过在编码器各层的提示向量之间添加信息传递通道,实现了层级递进的信息整合,从而更精准地捕获任务相关信息。在11个数据集上的实验结果表明,ProgCoPL能够将CLIP模型高效适配到下游任务,且在多个泛化能力测试中,ProgCoPL的表现超越了现有方法,尤其是在跨数据集泛化能力测试上取得了显著进步。 展开更多
关键词 多模态 提示学习 视觉-语言模型 Transformer编码器
在线阅读 下载PDF
提示学习在计算机视觉中的分类、应用及展望 被引量:1
2
作者 刘袁缘 刘树阳 +3 位作者 刘云娇 袁雨晨 唐厂 罗威 《自动化学报》 北大核心 2025年第5期1021-1040,共20页
随着计算机视觉(CV)的快速发展,人们对于提高视觉任务的性能和泛化能力的需求不断增长,导致模型的复杂度与对各种资源的需求进一步提高.提示学习(PL)作为一种能有效地提升模型性能和泛化能力、重用预训练模型和降低计算量的方法,在一系... 随着计算机视觉(CV)的快速发展,人们对于提高视觉任务的性能和泛化能力的需求不断增长,导致模型的复杂度与对各种资源的需求进一步提高.提示学习(PL)作为一种能有效地提升模型性能和泛化能力、重用预训练模型和降低计算量的方法,在一系列下游视觉任务中受到广泛的关注与研究.然而,现有的PL综述缺乏对PL方法全面的分类和讨论,也缺乏对现有实验结果进行深入的研究以评估现有方法的优缺点.因此,本文对PL在CV领域的分类、应用和性能进行全面的概述.首先,介绍PL的研究背景和定义,并简要回顾CV领域中PL研究的最新进展.其次,对目前CV领域中的PL方法进行分类,包括文本提示、视觉提示和视觉−语言联合提示,对每类PL方法进行详细阐述并探讨其优缺点.接着,综述PL在十个常见下游视觉任务中的最新进展.此外,提供三个CV应用的实验结果并进行总结和分析,全面讨论不同PL方法在CV领域的表现.最后,基于上述讨论对PL在CV领域面临的挑战和机遇进行分析,为进一步推动PL在CV领域的发展提供前瞻性的思考. 展开更多
关键词 计算机视觉 提示学习 视觉语言大模型 预训练模型
在线阅读 下载PDF
基于置信度引导提示学习的多模态方面级情感分析
3
作者 李懋林 林嘉杰 杨振国 《计算机科学》 北大核心 2025年第7期241-247,共7页
面对日益增加的社交平台数据,多模态方面级情感分析对于理解用户的潜在情感至关重要。现有研究工作集中于通过跨模态融合图像和文本来完成情感分析任务,无法有效地捕获图像和文本中的隐含情感。此外,传统方法受限于模型具有的黑箱性质... 面对日益增加的社交平台数据,多模态方面级情感分析对于理解用户的潜在情感至关重要。现有研究工作集中于通过跨模态融合图像和文本来完成情感分析任务,无法有效地捕获图像和文本中的隐含情感。此外,传统方法受限于模型具有的黑箱性质而缺乏可解释性。为应对上述问题,提出了基于置信度引导的提示学习(CPL)的多模态方面级情感分类模型。该模型由多模态特征处理模块(MF)、基于置信度的门控模块(CG)、提示构建模块(PC)和多模态分类模块(MC)组成。多模态特征提取模块用以提取多模态数据的特征;基于置信度的门控模块旨在通过自注意力网络的置信度评估样本的分类难度,对不同难易程度的样本进行自适应性处理;提示构建模块根据难易样本,采取不同的适应性模板提示,以引导T5大语言模型生成辅助情感线索;多模态分类模块用以预测结果。在公开数据集Twitter-2015和Twitter-2017的实验结果表明,与现有基线方法相比,所提出的多模态方面级情感分类模型具有显著性能优势,准确率分别提高了0.48%和1.06%。 展开更多
关键词 多模态数据 语言模型 情感分类 提示学习 分类置信度
在线阅读 下载PDF
基于语言-视觉对比学习的多模态视频行为识别方法 被引量:4
4
作者 张颖 张冰冰 +3 位作者 董微 安峰民 张建新 张强 《自动化学报》 EI CAS CSCD 北大核心 2024年第2期417-430,共14页
以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模... 以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模态视频表达.具体地,在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM),首先,由视频采样帧的类别分词做线性变换得到虚拟帧分词;然后,对其进行基于时序卷积和虚拟帧分词移位的时序建模操作,有效建模视频中的时空变化信息;最后,在语言分支上设计视觉强化提示模块(Visual-reinforcement prompt module,VPM),通过注意力机制融合视觉编码器末端输出的类别分词和视觉分词所带有的视觉信息来获得经过视觉信息强化的语言表达.在4个公开视频数据集上的全监督实验和2个视频数据集上的小样本、零样本实验结果,验证了该多模态模型的有效性和泛化性. 展开更多
关键词 视频行为识别 语言-视觉对比学习 多模态模型 时序建模 提示学习
在线阅读 下载PDF
基于视觉语义与提示学习的多模态情感分析模型
5
作者 莫书渊 蒙祖强 《计算机科学》 CSCD 北大核心 2024年第9期250-257,共8页
随着深度学习技术的发展,多模态情感分析已成为研究热点之一。然而,大多数多模态情感分析模型或从不同模态中提取特征向量并简单地进行加权求和,导致数据无法准确地映射到统一的多模态向量空间中,或依赖图像描述模型将图像转化为文本,... 随着深度学习技术的发展,多模态情感分析已成为研究热点之一。然而,大多数多模态情感分析模型或从不同模态中提取特征向量并简单地进行加权求和,导致数据无法准确地映射到统一的多模态向量空间中,或依赖图像描述模型将图像转化为文本,导致提取到过多不包含情感信息的视觉语义,造成信息冗余,最终影响模型的性能。为了解决这些问题,提出了一种基于视觉语义与提示学习的多模态情感分析模型VSPL。该模型将图像转化为精确简短、蕴含情感信息的视觉语义词汇,从而缓解信息冗余的问题;并基于提示学习的方法,将得到的视觉语义词汇与针对情感分类任务而提前设计好的提示模板组合成新文本,实现模态融合,这样做既避免了由加权求和导致的特征空间映射不准确的问题,又能借助提示学习的方法激发预训练语言模型的潜在性能。对多模态情感分析任务进行了对比实验,结果表明所提模型VSPL在3个公开数据集上的性能超越了先进的基准模型。此外,还进行了消融实验、特征可视化和样例分析,验证了VSPL的有效性。 展开更多
关键词 多模态 视觉语义 提示学习 情感分析 预训练语言模型
在线阅读 下载PDF
视觉提示学习综述 被引量:5
6
作者 廖宁 曹敏 严骏驰 《计算机学报》 EI CAS CSCD 北大核心 2024年第4期790-820,共31页
近年来,随着提示学习方法在自然语言处理领域被提出,其日益受到研究人员广泛关注,它通过将各类下游任务重构成预训练任务的形式,以参数高效和数据高效的方式将大规模预训练模型应用在各类自然语言相关下游任务中.其中以GPT系列为代表的... 近年来,随着提示学习方法在自然语言处理领域被提出,其日益受到研究人员广泛关注,它通过将各类下游任务重构成预训练任务的形式,以参数高效和数据高效的方式将大规模预训练模型应用在各类自然语言相关下游任务中.其中以GPT系列为代表的模型通过提示学习在对话生成和多模态图文理解等任务上取得了巨大的成功.然而,这类模型及方法还不能解决视觉中的稠密任务.受此启发,一些研究人员逐渐将提示学习广泛应用到视觉相关的各类任务当中,如图像识别、目标检测、图像分割、领域适应、持续学习等.由于目前还没有提示学习应用在视觉相关领域中的综述,本文将对视觉单模态领域以及视觉语言多模态领域的提示学习方法展开全面论述和分析.作为回顾,我们首先简要介绍自然语言处理领域的预训练模型,并对提示学习的基本概念、下游应用形式以及提示模板类型进行阐述和分类.其次,我们分别介绍视觉单模态领域以及视觉语言多模态领域里提示学习方法适配的预训练模型和任务.再次,我们分别介绍视觉单模态领域以及视觉语言多模态领域的提示学习方法.在自然语言处理领域,提示学习方法以继承预训练形式实现多任务统一为主要目的;与此不同,在视觉相关领域,提示学习方法侧重于面向特定下游任务进行设计.为此,我们将从方法设计上进行简单分类,然后从应用任务角度详细介绍视觉单模态提示学习和视觉语言多模态提示学习方法.最后,我们对比分析了自然语言处理领域和视觉相关领域提示学习研究的进展,并对未来研究路线给出了展望。 展开更多
关键词 大规模预训练模型 自然语言处理 视觉模态提示学习 视觉语言多模态提示学习
在线阅读 下载PDF
视觉—语言—动作模型综述:从前史到前沿 被引量:2
7
作者 张慧 梁姝彤 +5 位作者 李明轩 田永林 葛经纬 于慧 李灵犀 王飞跃 《自动化学报》 北大核心 2025年第9期1922-1950,共29页
视觉-语言-动作(VLA)模型作为具身智能发展的核心方向,旨在构建统一的多模态表示与感知–决策–执行一体化架构,以突破传统模块化系统在功能割裂、语义对齐不足及泛化能力有限等方面的瓶颈.本文系统回顾前VLA时代的技术积淀,梳理模块化... 视觉-语言-动作(VLA)模型作为具身智能发展的核心方向,旨在构建统一的多模态表示与感知–决策–执行一体化架构,以突破传统模块化系统在功能割裂、语义对齐不足及泛化能力有限等方面的瓶颈.本文系统回顾前VLA时代的技术积淀,梳理模块化、端到端和混合三类主流建模范式,分析其结构特点、能力优势与面临的关键挑战.在此基础上,总结当前代表性VLA模型的体系结构、训练机制、多模态融合策略及应用成效,并对典型数据集与评测基准进行分类比较.最后,结合跨模态协同、知识注入、长时序规划与真实环境泛化等方面,展望未来VLA模型的发展趋势与研究方向. 展开更多
关键词 具身智能 视觉语言—动作模型 多模态融合 端到端学习 任务泛化
在线阅读 下载PDF
基于视觉-语言预训练模型的零样本迁移学习方法综述 被引量:2
8
作者 孙仁科 许靖昊 +2 位作者 皇甫志宇 李仲年 许新征 《计算机工程》 CAS CSCD 北大核心 2024年第10期1-15,共15页
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模... 近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。 展开更多
关键词 零样本学习 视觉-语言预训练模型 零样本迁移 多模态 计算机视觉
在线阅读 下载PDF
视觉-语言多模态下的多任务人脸年龄估计 被引量:1
9
作者 何江 池静 +1 位作者 池佳稷 高松 《现代电子技术》 北大核心 2024年第14期171-176,共6页
现有的年龄估计方法仅基于人脸图像,无法充分利用图像背后的语言背景信息。此外,这些方法通常专注于单一年龄估计任务的优化,忽略了相近任务带来的提高模型性能的信息。针对上述问题,提出一种基于视觉-语言多模态的多任务人脸年龄估计... 现有的年龄估计方法仅基于人脸图像,无法充分利用图像背后的语言背景信息。此外,这些方法通常专注于单一年龄估计任务的优化,忽略了相近任务带来的提高模型性能的信息。针对上述问题,提出一种基于视觉-语言多模态的多任务人脸年龄估计方法。该方法利用提示文本信息为年龄估计提供更丰富、更准确的图像理解和先验知识。同时,引入多任务学习方法,利用任务间的互补性将年龄分类任务与序数回归任务相结合,以获得更好的性能。最后,为了获得可靠的预测结果,研究了加权平均法和任务回归法两种多任务结果融合方法,并对加权平均法的权重系数进行了消融实验,以期找到一组合适的权重系数。结果表明:与其他先进方法相比,所提方法在UTK-FACE数据集上的平均绝对误差(MAE)降低了7.32%,在MorphⅡ数据集上的MAE降低了1.20%,累积分数(CS)提升了0.11%。 展开更多
关键词 年龄估计 视觉-语言多模态 多任务学习 加权平均法 提示文本 任务回归器
在线阅读 下载PDF
基于双文本提示和多重相似性学习的多标签遥感图像分类
10
作者 白淑芬 宋铁成 《电讯技术》 北大核心 2025年第1期35-42,共8页
多标签遥感图像分类旨在预测遥感图像中出现的多个相互关联的对象,其中文本标签能赋予丰富的语义信息。然而,目前多数多标签图像分类法未能充分考虑视觉语义图像-文本对信息。为了解决这一问题,提出了一种基于双文本提示和多重相似性(Bi... 多标签遥感图像分类旨在预测遥感图像中出现的多个相互关联的对象,其中文本标签能赋予丰富的语义信息。然而,目前多数多标签图像分类法未能充分考虑视觉语义图像-文本对信息。为了解决这一问题,提出了一种基于双文本提示和多重相似性(Bi-text Prompts and Multi-similarity,BTPMS)学习的多标签遥感图像分类算法。该算法首先利用场景与对象标签文本的双文本提示(Bi-text Prompts,BTP)提供丰富的先验知识,再综合考虑场景与对象标签之间的关联,对所得的文本特征和图像特征计算多重相似性,最后利用相似性得分进行多标签遥感图像分类。此外,设计了新颖的局部特征注意力(Local Feature Attention,LFA)模块,从空间与通道维度上捕捉图像中局部结构。在两个基准遥感数据集上进行广泛实验,结果表明所提算法优于对比的多标签图像分类方法。 展开更多
关键词 遥感图像 多标签图像分类 视觉语言预训练 提示学习 局部特征注意力
在线阅读 下载PDF
基于大语言模型的PTCR外部知识型视觉问答框架
11
作者 薛迪 李欣 刘明帅 《计算机科学与探索》 CSCD 北大核心 2024年第11期2912-2924,共13页
针对外部知识型视觉问答(VQA)模型输入信息不足、推理性能差的问题,构建了一种基于大语言模型(LLM)的PTCR外部知识型VQA框架。该框架由答案候选生成、针对性图像描述、自主式思维链构建、提示LLM推理四部分构成。PTCR框架使用LLM指导多... 针对外部知识型视觉问答(VQA)模型输入信息不足、推理性能差的问题,构建了一种基于大语言模型(LLM)的PTCR外部知识型VQA框架。该框架由答案候选生成、针对性图像描述、自主式思维链构建、提示LLM推理四部分构成。PTCR框架使用LLM指导多模态大模型生成针对性的图像描述,解决了以往图像标题覆盖不全面的问题;通过LLM自主生成思维链,并在推理过程中提供相似问题的思考过程,提高了模型的推理能力;在推理过程引入选项重排技术消除LLM的选择位置偏见,通过多数投票的方式降低了推理的随机性误差。实验结果表明,经PTCR框架增强的CogVLM模型,其准确率在OK-VQA、A-OKVQA数据集上分别提升了16.7个百分点、13.3个百分点。同时,与Prophet相比,PTCR框架在OK-VQA、A-OKVQA数据集上准确率分别提升了3.4个百分点、5.0个百分点。消融实验的结果证明,所使用的针对性图像描述、自主式思维链等方法对准确率均有提升效果。可见PTCR框架在改进外部知识型VQA任务性能方面有所提升。 展开更多
关键词 视觉问答 提示工程 语言模型 模态
在线阅读 下载PDF
结合图像-文本提示与跨模态适配器的零样本多标签图像分类
12
作者 宋铁成 黄宇 《重庆理工大学学报(自然科学)》 北大核心 2024年第12期182-188,共7页
最近的零样本多标签图像分类方法主要基于视觉语言预训练模型CLIP(contrastive language-image pre-training)。然而,这些工作仅仅在文本提示上进行改进,忽略了图像和文本2种模态之间的交互。针对以上问题,提出一种结合图像-文本提示和... 最近的零样本多标签图像分类方法主要基于视觉语言预训练模型CLIP(contrastive language-image pre-training)。然而,这些工作仅仅在文本提示上进行改进,忽略了图像和文本2种模态之间的交互。针对以上问题,提出一种结合图像-文本提示和跨模态适配器(image-text prompts and cross-modal adapter,ITPCA)的零样本多标签图像分类方法,充分挖掘视觉语言预训练模型的图文匹配能力。通过结合提示学习为图像和文本分支设计提示,提高了模型对不同标签的泛化能力。此外,设计了一个跨模态适配器建立图像和文本2种模态之间的联系。实验结果表明,在NUS-WIDE、MS-COCO多标签数据集上,所提方法优于其他零样本多标签图像分类方法。 展开更多
关键词 视觉语言预训练模型 提示学习 零样本学习 多标签图像分类
在线阅读 下载PDF
基于推理阶段的对抗视觉调优方法
13
作者 张家明 桑基韬 于剑 《计算机学报》 北大核心 2025年第6期1443-1457,共15页
近年来,大规模预训练视觉-语言模型在图像描述、视觉问答和图像检索等任务中展现出卓越的性能。然而,这些模型在安全性方面存在显著的脆弱性,尤其容易受到几乎不可见的对抗噪声的攻击。对抗噪声通过在输入图像中加入人眼几乎不可察觉的... 近年来,大规模预训练视觉-语言模型在图像描述、视觉问答和图像检索等任务中展现出卓越的性能。然而,这些模型在安全性方面存在显著的脆弱性,尤其容易受到几乎不可见的对抗噪声的攻击。对抗噪声通过在输入图像中加入人眼几乎不可察觉的扰动,使得模型发生错误。这种脆弱性在实际应用中带来了深度学习模型的安全性挑战,特别是在处理敏感信息的任务中。尽管对抗训练已被证明可以有效提升模型的对抗鲁棒性,但由于其计算复杂度较高,难以直接应用于大规模的视觉-语言模型。为应对这一挑战,本文提出了一种基于推理阶段的对抗视觉调优方法(Adversarial Inference-time Visual Prompt Tuning,AI-VPT),首次在推理阶段针对视觉模态进行提示调优,旨在增强视觉编码器的对抗鲁棒性。AI-VPT通过学习视觉嵌入向量,在推理过程中与对抗图像嵌入对齐,优化视觉表示以削弱对抗性噪声的影响。具体而言,AI-VPT在对抗样本上生成多种增强视图,通过信息熵筛选低熵视图以保留有效信息,从不同角度减弱对抗性干扰,从而进一步提高模型的对抗防御能力。相比于传统的对抗训练技术Adversarial Training,AI-VPT减少了92.9%的时间成本,显著降低了计算开销,尤其适用于大规模预训练视觉-语言模型。经过在六个高分辨率视觉数据集上的广泛测试,AI-VPT展现出了显著的优势,在ViT-B/16和ViT-L/14架构上相对于现有的对抗提示调优方法分别提升了26.1%和18.5%的对抗鲁棒性。 展开更多
关键词 深度学习 视觉-语言模型 对抗防御 提示学习 图像识别
在线阅读 下载PDF
大语言模型及其个性化推荐研究 被引量:4
14
作者 吴国栋 秦辉 +2 位作者 胡全兴 王雪妮 吴贞畅 《智能系统学报》 CSCD 北大核心 2024年第6期1351-1365,共15页
大语言模型因其强大的自然语言处理能力在人工智能领域产生了巨大影响,使得大语言模型个性化推荐成为当前推荐系统研究的新兴领域。本文在深入分析已有大语言模型及其个性化推荐相关研究基础上,探讨大语言模型推荐的过程,并从直接推荐... 大语言模型因其强大的自然语言处理能力在人工智能领域产生了巨大影响,使得大语言模型个性化推荐成为当前推荐系统研究的新兴领域。本文在深入分析已有大语言模型及其个性化推荐相关研究基础上,探讨大语言模型推荐的过程,并从直接推荐、基于表示学习推荐、基于生成性学习推荐和提示学习推荐四方面详细分析了大语言模型推荐主要的研究进展。指出现有大语言模型推荐研究中存在的推荐偏差、提示脆弱性、有限上下文、高延迟、公平性和评估等问题,展望未来大语言模型推荐研究的主要方向,包括大语言模型推荐的安全性、面向领域的大语言模型推荐、跨模态大语言模型推荐、融合检索任务的大语言模型推荐以及大语言模型推荐的可解释性等。 展开更多
关键词 语言模型 推荐 深度学习 监督微调 对齐 提示学习 生成性 多模态
在线阅读 下载PDF
视觉语言预训练综述 被引量:14
15
作者 殷炯 张哲东 +5 位作者 高宇涵 杨智文 李亮 肖芒 孙垚棋 颜成钢 《软件学报》 EI CSCD 北大核心 2023年第5期2000-2023,共24页
近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transfo... 近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了5类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能. 展开更多
关键词 多模态学习 预训练模型 TRANSFORMER 视觉语言学习
在线阅读 下载PDF
基于CLIP文本特征增强的剪纸图像分类 被引量:1
16
作者 张新生 陈鼎 秦一冰 《计算机应用研究》 北大核心 2025年第7期1994-2002,共9页
针对剪纸图像分类中文本与图像模态差异大、类原型表达能力弱的问题,提出了一种基于CLIP模型的文本特征增强方法(CLIP visual text enhancer,C-VTE)。该方法通过人工提示模板提取文本特征,设计了一种视觉文本增强模块,并利用Cross Atten... 针对剪纸图像分类中文本与图像模态差异大、类原型表达能力弱的问题,提出了一种基于CLIP模型的文本特征增强方法(CLIP visual text enhancer,C-VTE)。该方法通过人工提示模板提取文本特征,设计了一种视觉文本增强模块,并利用Cross Attention和比例残差进行连接和融合图像特征与文本特征,以减小模态差异,增强类别特征表达能力。在剪纸数据集及Caltech101等4个公开数据集上进行了实验,验证其有效性:在剪纸数据集的基类分类任务中,C-VTE平均准确率达到了72.51%,较现有方法提升3.14百分点;在公开数据集的小样本分类任务中,平均准确率达到了84.78%,提升2.45百分点。消融实验表明,模态融合模块与比例残差对性能提升影响显著。该方法为视觉语言大模型在下游分类任务中的高效适配提供了新思路,尤其适用于小样本与基类主导的场景。 展开更多
关键词 视觉语言大模型 剪纸分类 小样本分类 模态融合 提示学习
在线阅读 下载PDF
基于空间语义引导的零样本缺陷检测方法
17
作者 宋亚楠 潘柏松 +1 位作者 易文超 张彪 《计算机集成制造系统》 北大核心 2025年第7期2438-2445,共8页
针对现有视觉语言模型过多关注物体类别语义,忽略局部空间缺陷区域的细粒度感知问题,提出基于空间语义引导的零样本缺陷检测方法。设计空间语义引导网络提取图像语义分布特征,并将其添加到视觉语言模型中的视觉编码网络。针对正常和缺... 针对现有视觉语言模型过多关注物体类别语义,忽略局部空间缺陷区域的细粒度感知问题,提出基于空间语义引导的零样本缺陷检测方法。设计空间语义引导网络提取图像语义分布特征,并将其添加到视觉语言模型中的视觉编码网络。针对正常和缺陷状态设计通用性较强的可学习文本提示,由设计的文本编码网络提取对应的文本嵌入,并与多阶段视觉特征计算余弦相似度,进而预测缺陷区域热图。所提缺陷检测模型在MVTec、VisA、MPDD、BTAD四个数据集上分别获得了88.5%、95.3%、97.0%、91.6%的像素级缺陷检测准确率。实验结果表明所提方法具有较强的零样本缺陷检测性能。 展开更多
关键词 零样本缺陷检测 视觉语言模型 学习提示 语义引导
在线阅读 下载PDF
跨媒体分析与推理技术研究综述 被引量:14
18
作者 王树徽 闫旭 黄庆明 《计算机科学》 CSCD 北大核心 2021年第3期79-86,共8页
当前,以网络数据为代表的跨媒体数据呈现爆炸式增长的趋势,呈现出了跨模态、跨数据源的复杂关联及动态演化特性,跨媒体分析与推理技术针对多模态信息理解、交互、内容管理等需求,通过构建跨模态、跨平台的语义贯通与统一表征机制,进一... 当前,以网络数据为代表的跨媒体数据呈现爆炸式增长的趋势,呈现出了跨模态、跨数据源的复杂关联及动态演化特性,跨媒体分析与推理技术针对多模态信息理解、交互、内容管理等需求,通过构建跨模态、跨平台的语义贯通与统一表征机制,进一步实现分析和推理以及对复杂认知目标的不断逼近,建立语义层级的逻辑推理机制,最终实现跨媒体类人智能推理。文中对跨媒体分析推理技术的研究背景和发展历史进行概述,归纳总结视觉-语言关联等任务的关键技术,并对研究应用进行举例。基于已有结论,分析目前跨媒体分析领域所面临的关键问题,最后探讨未来的发展趋势。 展开更多
关键词 跨媒体分析与推理 深度学习 多模态融合 视觉-语言分析
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部