期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于CLIP增强细粒度特征的换装行人重识别方法
1
作者 耿霞 汪尧 《计算机工程》 北大核心 2025年第4期293-302,共10页
换装行人重识别旨在检索穿着不同服装的目标行人。现有方法通过引入额外信息(如轮廓、步态、3D信息)辅助学习服装无关特征。但受光照、姿态变化等因素的影响,提取的生物特征可能存在误差。为提高准确性,探索对比语言-图像预训练(CLIP)... 换装行人重识别旨在检索穿着不同服装的目标行人。现有方法通过引入额外信息(如轮廓、步态、3D信息)辅助学习服装无关特征。但受光照、姿态变化等因素的影响,提取的生物特征可能存在误差。为提高准确性,探索对比语言-图像预训练(CLIP)在该任务的应用,提出CLIP驱动的细粒度特征增强方法(CFFE)。首先建模CLIP提取的类文本特征和图像特征的潜在内在联系,然后引入显著性特征保留模块和显著性特征引导模块。显著性特征保留模块利用注意力掩码定位服装相关的前景区域,进而擦除该部分特征,使网络关注有效的非服装特征,显著性特征引导模块通过注意力机制进一步关注行人的重要局部和全局特征。实验结果表明,该方法在LTCC、PRCC和VC-Clothes数据集上的检测精度分别达到42.1%、71.1%和89.9%,与AIM、CAL等算法相比,能够提取到更细粒度的特征,在多项指标上有明显提升。 展开更多
关键词 换装行人重识别 对比语言-图像预训练 特征保留策略 注意力机制 语义解析
在线阅读 下载PDF
基于CLIP模型和知识数据库的零样本动作识别 被引量:1
2
作者 侯永宏 郑皓春 +1 位作者 高嘉俊 任懿 《天津大学学报(自然科学与工程技术版)》 EI CAS 北大核心 2025年第1期91-100,共10页
零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签... 零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签上,是限制零样本学习性能提升的关键因素.针对上述问题,本文提出了一种引入外部知识数据库和CLIP模型的零样本学习框架,利用多模态CLIP模型通过自监督对比学习方式积累的知识,来扩充零样本动作识别模型的先验知识.同时,设计了时序编码器,以弥补CLIP模型时序建模能力的欠缺.为了使模型学习到更丰富的语义特征,缩小视觉特征和语义标签之间的语义鸿沟,本文扩展了已知动作类别的语义标签,用更为详细的描述语句代替简单的文本标签,丰富了文本表示的语义信息;在此基础上,在模型外部构建了一个知识数据库,在不增加模型参数规模的条件下为模型提供额外的辅助信息,强化视觉特征与文本特征表示之间的关联关系.最后,本文遵循零样本学习规范,对模型进行微调,使其适应零样本动作识别任务,提高了模型的泛化能力.所提方法在HMDB51和UCF101两个主流数据集上进行了广泛实验,实验数据表明,该方法的识别性能相比目前的先进方法在上述两个数据集上分别提升了3.8%和2.3%,充分体现了所提方法的有效性. 展开更多
关键词 零样本学习 动作识别 clip模型 知识数据库
在线阅读 下载PDF
基于CLIP和双空间自适应归一化的图像翻译 被引量:2
3
作者 李田芳 普园媛 +2 位作者 赵征鹏 徐丹 钱文华 《计算机工程》 CAS CSCD 北大核心 2024年第5期229-240,共12页
现有的图像翻译方法大多依赖数据集域标签来完成翻译任务,这种依赖往往限制了它们的应用范围。针对完全无监督图像翻译任务的方法能够解决域标签的限制问题,但是普遍存在源域信息丢失的现象。为了解决上述2个问题,提出一种基于对比学习... 现有的图像翻译方法大多依赖数据集域标签来完成翻译任务,这种依赖往往限制了它们的应用范围。针对完全无监督图像翻译任务的方法能够解决域标签的限制问题,但是普遍存在源域信息丢失的现象。为了解决上述2个问题,提出一种基于对比学习语言-图像预训练(CLIP)的无监督图像翻译模型。首先,引入CLIP相似性损失对图像的风格特征施加约束,以在不使用数据集域标签的情况下增强模型传递图像风格信息的能力和准确性;其次,对自适应实例归一化(AdaIN)进行改进,设计一个新的双空间自适应归一化(DSAdaIN)模块,在特征的风格化阶段添加网络的学习和自适应交互过程,以加强对内容源域信息的保留;最后,设计一个鉴别器对比损失来平衡对抗网络损失的训练和优化过程。在多个公开数据集上的实验结果表明,与Star GANv2、Style DIS等模型相比,该模型可在准确传递图像风格信息的同时保留一定的源域信息,且在定量评估指标FID分数和KID分数上分别提升了近3.35和0.57×102,实现了较好的图像翻译性能。 展开更多
关键词 图像翻译 生成对抗网络 对比学习语言-图像预训练模型 自适应实例归一化 对比学习
在线阅读 下载PDF
基于情感隐空间学习与CLIP模型的身体动作情感识别方法
4
作者 罗红 慎煜杰 +1 位作者 陈娟娟 王丹 《计算机应用》 CSCD 北大核心 2024年第S2期44-49,共6页
身体动作情感识别的关键是提取人物身体动作蕴含的情感特征。针对现有模型情感特征学习能力较差且情感识别精度难以提升的问题,提出一种基于情感隐空间学习与对比语言-图像预训练(CLIP)模型的身体动作情感识别方法。首先,引入CLIP模型,... 身体动作情感识别的关键是提取人物身体动作蕴含的情感特征。针对现有模型情感特征学习能力较差且情感识别精度难以提升的问题,提出一种基于情感隐空间学习与对比语言-图像预训练(CLIP)模型的身体动作情感识别方法。首先,引入CLIP模型,从而增强模型的情感特征学习能力。其次,针对细粒度多标签情感分类任务,提出情感隐空间学习(ELSL)方法。该方法能通过学习情感隐空间向各个子空间的判别映射,在各个情感子空间上捕获情感类别之间的细微差异和对各情感类别的分类有益的特征信息。在面向真实世界开放场景的肢体语言数据集(BoLD)上的实验结果表明,所提方法充分利用了CLIP模型与隐空间学习在特征学习上的优势,取得了显著的性能提升。具体地,相较于运动分析网络(MANet),所提方法的平均精度均值(mAP)提高了1.08个百分点,平均受试者工作特征曲线下方面积(mRA)提高了1.32个百分点。 展开更多
关键词 身体动作情感识别 对比语言-图像预训练模型 隐空间学习 提示学习 多标签分类
在线阅读 下载PDF
基于跨模态对比学习的常识问答模型
5
作者 王元龙 刘亭华 张虎 《计算机应用》 北大核心 2025年第3期732-738,共7页
常识问答(CQA)是利用常识知识对自然语言问句进行自动求解以得到准确答案的任务,属于智能问答领域。该任务通常需要背景常识知识提升模型的求解能力,现有的大多数相关方法依赖于从文本数据中提取和利用常识。然而,常识通常具有隐含性,... 常识问答(CQA)是利用常识知识对自然语言问句进行自动求解以得到准确答案的任务,属于智能问答领域。该任务通常需要背景常识知识提升模型的求解能力,现有的大多数相关方法依赖于从文本数据中提取和利用常识。然而,常识通常具有隐含性,并不总是直接体现在文本内容中,影响了这些方法的应用范围和效果。因此,提出基于跨模态对比学习的CQA模型,以充分利用跨模态信息丰富常识的表达。首先,设计一个跨模态常识表示模块,以融合常识库和跨模态大模型,从而获取跨模态的常识表示;其次,对问题和选项的跨模态表示进行对比学习,从而增强模型对不同选项之间的区分能力;最后,利用softmax层为问题选项对生成相关性分数,并根据分数的高低确定最终的预测答案。在公开数据集CSQA(CommonSenseQA)和OBQA(OpenBookQA)上进行的实验结果表明,与DEKCOR(DEscriptive Knowledge for COmmonsense question answeRing)相比,所提模型的准确率分别提高了1.46和0.71个百分点。 展开更多
关键词 智能问答 常识问答 对比学习 跨模态常识 clip
在线阅读 下载PDF
基于特征增强和模态交互的视频异常行为检测
6
作者 吴沛宸 李文斌 +1 位作者 郭放 刘钊 《计算机辅助设计与图形学学报》 北大核心 2025年第3期407-413,共7页
对比语言-图像预训练模型作为一种基于多模态对比训练的神经网络,通过预训练大量的语言-图像对提取具有判别性的图像特征.为了关注连续帧之间的时序关系,消除不同模态特征之间的信息分布差异,提出一种基于特征增强和模态交互的视频异常... 对比语言-图像预训练模型作为一种基于多模态对比训练的神经网络,通过预训练大量的语言-图像对提取具有判别性的图像特征.为了关注连续帧之间的时序关系,消除不同模态特征之间的信息分布差异,提出一种基于特征增强和模态交互的视频异常行为检测算法.首先针对对比语言-图像预训练模型在视频连续帧特征提取阶段时间依赖性差的问题,使用局部和全局时间适配器构建时间相关性增强模块,分别在局部和全局注意力层关注时序信息;然后针对不同模态特征存在域间信息差异的问题,设计一种基于窗口分区移位的多模态特征交互模块,通过滑动窗口控制特征内部交互,消除信息分布差异;最后通过对齐视觉特征和文本特征,得到帧级异常置信度.在UCF-Crime数据集上,所提算法取得87.20%的检测准确率,验证了其有效性. 展开更多
关键词 对比语言-图像预训练 视频异常行为检测 时间相关性 特征增强 模态交互
在线阅读 下载PDF
语义增强图像-文本预训练模型的零样本三维模型分类
7
作者 丁博 张立宝 +1 位作者 秦健 何勇军 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第8期3314-3323,共10页
目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法... 目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法。该方法首先将3维模型表示成多视图;然后为了增强零样本学习对未知类别的识别能力,通过视觉语言生成模型获得每张视图及其类别的语义描述性文本,并将其作为视图和类别提示文本之间的语义桥梁,语义描述性文本采用图像字幕和视觉问答两种方式获取;最后微调语义编码器将语义描述性文本具化为类别的语义描述,其拥有丰富的语义信息和较好的可解释性,有效减小了视图和类别提示文本的语义鸿沟。实验表明,该文方法在ModelNet10和ModelNet40数据集上的分类性能优于现有的零样本分类方法。 展开更多
关键词 3维模型分类 零样本 基于对比学习的图像-文本预训练模型 语义描述性文本
在线阅读 下载PDF
结合视觉文本匹配和图嵌入的可见光-红外行人重识别 被引量:1
8
作者 张红颖 樊世钰 +1 位作者 罗谦 张涛 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第9期3662-3671,共10页
对于可见光-红外跨模态行人重识别(Re-ID),大多数方法采用基于模态转换的策略,通过对抗网络生成图像,以此建立不同模态间的相互联系。然而这些方法往往不能有效降低模态间的差距,导致重识别性能不佳。针对此问题,该文提出一种基于视觉... 对于可见光-红外跨模态行人重识别(Re-ID),大多数方法采用基于模态转换的策略,通过对抗网络生成图像,以此建立不同模态间的相互联系。然而这些方法往往不能有效降低模态间的差距,导致重识别性能不佳。针对此问题,该文提出一种基于视觉文本匹配和图嵌入的双阶段跨模态行人重识别方法。该方法通过上下文优化方案构建可学习文本模板,生成行人描述作为模态间的关联信息。具体而言,在第1阶段基于图片-文本对的预训练(CLIP)模型实现同一行人不同模态间的统一文本描述作为先验信息辅助降低模态差异。同时在第2阶段引入基于图嵌入的跨模态约束框架,设计模态间自适应损失函数,提升行人识别准确率。为了验证所提方法的有效性,在SYSU-MM01和Reg DB数据集上进行了大量实验,其中SYSU-MM01数据集上的首次命中(Rank-1)和平均精度均值(m AP)分别达到64.2%,60.2%。实验结果表明,该文所提方法能够提升可见光-红外跨模态行人重识别的准确率。 展开更多
关键词 行人重识别 跨模态 图片-文本对的预训练模型 上下文优化 图嵌入
在线阅读 下载PDF
基于扩散生成对抗网络的文本生成图像模型研究 被引量:6
9
作者 赵宏 李文改 《电子与信息学报》 EI CSCD 北大核心 2023年第12期4371-4381,共11页
文本生成图像是一项结合计算机视觉(CV)和自然语言处理(NLP)领域的综合性任务。以生成对抗网络(GANs)为基础的方法在文本生成图像方面取得了显著进展,但GANs方法的模型存在训练不稳定的问题。为解决这一问题,该文提出一种基于扩散Wasser... 文本生成图像是一项结合计算机视觉(CV)和自然语言处理(NLP)领域的综合性任务。以生成对抗网络(GANs)为基础的方法在文本生成图像方面取得了显著进展,但GANs方法的模型存在训练不稳定的问题。为解决这一问题,该文提出一种基于扩散Wasserstein生成对抗网络(WGAN)的文本生成图像模型(D-WGAN)。在DWGAN中,利用向判别器中输入扩散过程中随机采样的实例噪声,在实现模型稳定训练的同时,生成高质量和多样性的图像。考虑到扩散过程的采样成本较高,引入一种随机微分的方法,以简化采样过程。为了进一步对齐文本与图像的信息,提出使用基于对比学习的语言-图像预训练模型(CLIP)获得文本与图像信息之间的跨模态映射关系,从而提升文本和图像的一致性。在MSCOCO,CUB-200数据集上的实验结果表明,D-WGAN在实现稳定训练的同时,与当前最好的方法相比,FID分数分别降低了16.43%和1.97%,IS分数分别提升了3.38%和30.95%,说明D-WGAN生成的图像质量更高,更具有实用价值。 展开更多
关键词 文本生成图像 生成对抗网络 扩散过程 对比学习的语言-图像预训练模型 语义匹配
在线阅读 下载PDF
基于提示词优化的AIGC辅助产品设计方法研究
10
作者 吴京 王沈策 牛虹苏 《包装工程》 2025年第16期186-201,共16页
目的针对AIGC技术在产品设计中存在的需求形式化困难、方案质量不稳定及评估标准不完善等问题,探索构建面向产品的生成式人工智能(AIGC)辅助设计方法论。方法构建一种基于提示词优化的AIGC辅助产品设计(POA)框架,通过需求分析、概念生... 目的针对AIGC技术在产品设计中存在的需求形式化困难、方案质量不稳定及评估标准不完善等问题,探索构建面向产品的生成式人工智能(AIGC)辅助设计方法论。方法构建一种基于提示词优化的AIGC辅助产品设计(POA)框架,通过需求分析、概念生成和方案评价的协同迭代提升AIGC辅助设计的质量。首先,基于主成分分析(PCA)的多源数据分析实现设计需求形式化表达,提取外观特征、动力性能等关键主成分;其次,基于对比语言-图像预训练(CLIP)模型构建“基础描述+功能约束+风格定义”的分层提示词架构,通过定向优化与结构化重构提升生成质量;最后,运用改进的属性层次模型-逼近理想解排序法(AHM-TOPSIS)多准则决策方法,建立包含人机工程学、材料选用等多维度量化评估体系。结果以手持式旋耕机设计为例进行验证,结果表明相较于单纯AIGC方法,本文提出的POA方法在需求分析、概念方案生成和迭代优化等方面表现出显著改进且整体设计周期显著缩短,方案创新性和用户满意度均有所提升。结论所提出的基于提示词优化的AIGC辅助产品设计方法,通过需求结构化表达、方案优化及多准则决策,实现了AIGC技术在产品设计领域的标准化应用,为人工智能辅助设计提供新的理论框架与技术路径。 展开更多
关键词 生成式人工智能(AIGC) 提示词优化 clip对比语言-图像预训练模型 手持式旋耕机
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部