期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
隐式多尺度对齐与交互的文本-图像行人重识别方法
1
作者 孙锐 杜云 +1 位作者 陈龙 张旭东 《软件学报》 北大核心 2025年第10期4846-4863,共18页
文本-图像行人重识别旨在使用文本描述检索图像库中的目标行人,该技术的主要挑战在于将图像和文本特征嵌入到共同的潜在空间中以实现跨模态对齐.现有的许多工作尝试利用单独预训练的单峰模型来提取视觉和文本特征,再利用切分或者注意力... 文本-图像行人重识别旨在使用文本描述检索图像库中的目标行人,该技术的主要挑战在于将图像和文本特征嵌入到共同的潜在空间中以实现跨模态对齐.现有的许多工作尝试利用单独预训练的单峰模型来提取视觉和文本特征,再利用切分或者注意力机制来获得显式的跨模态对齐.然而,这些显式对齐方法通常缺乏有效匹配多模态特征所需的底层对齐能力,并且使用预设的跨模态对应关系来实现显式对齐可能会导致模态内信息失真.提出了一种隐式多尺度对齐与交互的文本-图像行人重识别方法.首先利用语义一致特征金字塔网络提取图像的多尺度特征,并使用注意力权重融合包含全局和局部信息的不同尺度特征.其次,利用多元交互注意机制学习图像和文本之间的关联.该机制可以有效地捕捉到不同视觉特征和文本信息之间的对应关系,缩小模态间差距,实现隐式多尺度语义对齐.此外,利用前景增强判别器来增强目标行人,提取更纯洁的行人特征,有助于缓解图像与文本之间的信息不平等.在3个主流的文本-图像行人重识别数据集CUHK-PEDES、ICFG-PEDES及RSTPReid上的实验结果表明,所提方法有效提升了跨模态检索性能,比SOTA算法的Rank-1高出2%–9%. 展开更多
关键词 文本-图像行人重识别 隐式对齐 多尺度融合 多元交互注意力 语义对齐
在线阅读 下载PDF
面向复杂噪声数据的鲁棒文本-图像行人检索方法
2
作者 胡冰玉 徐艺心 +2 位作者 余珊 赵巨峰 杨宇翔 《计算机研究与发展》 北大核心 2025年第9期2183-2193,共11页
文本-图像行人检索(text-based person retrieval)作为多模态智能监控系统的核心任务,旨在通过自由形式的文本描述从大规模数据库中识别目标行人图像,在公共安全与视频取证领域具有关键应用价值,如刑事侦查中的嫌疑人追踪及跨摄像头取... 文本-图像行人检索(text-based person retrieval)作为多模态智能监控系统的核心任务,旨在通过自由形式的文本描述从大规模数据库中识别目标行人图像,在公共安全与视频取证领域具有关键应用价值,如刑事侦查中的嫌疑人追踪及跨摄像头取证分析.传统方法通常基于图像-文本对完美对齐的理想化假设,忽视了实际场景中普遍存在的复杂噪声数据问题,即视觉实例与其文本标注间因人工标注偏差、网络爬取噪声,或局部视觉属性与全局文本语境间的语义粒度失配而产生的错误或歧义性关联.为弥补这一缺陷,提出了一种语义感知噪声关联学习框架,通过双重创新机制系统性地实现噪声辨识与鲁棒学习.首先,语义感知噪声辨识准则融合模态内语义一致性与跨模态交互信号,基于自适应阈值判定精准区分噪声关联;其次,噪声鲁棒互补学习范式实施差异化优化策略:对于可靠子集采用对比损失进行正向学习以增强特征判别性,而对噪声子集则通过反向学习以抑制过拟合.在3个公开基准数据集上的大量实验表明,该方法在合成噪声数据与真实噪声数据场景中均展现出优越性能. 展开更多
关键词 文本-图像行人检索 噪声数据 多模态学习 特征表示 模型鲁棒性
在线阅读 下载PDF
基于柔性加权原型对比学习的无监督可见光-红外行人重识别
3
作者 赵涵硕 马伊雯 +2 位作者 张艳霞 王珮 杨建伟 《红外技术》 北大核心 2025年第5期628-634,共7页
无监督可见光-红外行人重识别(Unsupervised Visible-Infrared Person Re-identification,USVIReID)是一项非常重要且具有挑战性的任务。USVI-ReID的关键挑战是在不依赖任何跨模态标注的情况下有效地生成伪标签并建立跨模态对应。近年来... 无监督可见光-红外行人重识别(Unsupervised Visible-Infrared Person Re-identification,USVIReID)是一项非常重要且具有挑战性的任务。USVI-ReID的关键挑战是在不依赖任何跨模态标注的情况下有效地生成伪标签并建立跨模态对应。近年来,通过聚类算法生成伪标签的方法在USVIReID中得到了越来越多的关注。然而,以前的方法只是选择代表个体的单一类中心原型或按照一定的策略随机选择原型来建立跨模态对应。这不仅忽略了个体特征的多样性,也没有考虑聚类过程中错误样本对模型训练的影响。为了解决这个问题,本文提出了一种柔性加权原型对比学习(Soft-Weight Prototype Contrastive Learning,SWPCL)方法。该方法首先设计了一个柔性原型(Soft Prototype,SP)选择策略,根据个体特征之间的相似度选择质心原型的最近邻样本作为柔性原型,为模型提供丰富的正监督信息。为了进一步消除错误原型对模型训练的干扰,提出了一种柔性加权(Soft-Weight,SW)策略,定量地度量所选的柔性原型相对于当前质心原型的相关性,将选择到的原型通过柔性加权的方式结合到对比学习中。最后,引入了一种渐进式对比学习(Progressive Contrastive Learning,PCL)策略,将模型的注意力逐渐转移到柔性原型上,避免聚类退化。在SYSUMM01和RegDB两个公共数据集上的大量实验证明了所提出的柔性加权原型对比学习方法的有效性。 展开更多
关键词 可见光-红外 无监督学习 行人识别 柔性加权 对比学习
在线阅读 下载PDF
虚实结合的行人重识别方法 被引量:1
4
作者 祁磊 任子豪 +1 位作者 刘俊汐 耿新 《计算机研究与发展》 北大核心 2025年第2期418-431,共14页
近年来,随着城市化进程的加速和社会经济的发展,公共安全问题也愈发引起人们的关注.为了保障社会稳定和公民生命财产安全,各地政府开始大力推进智能安防和智慧城市的建设.行人重识别就是构建智慧城市的核心技术之一,对安防监控和刑事调... 近年来,随着城市化进程的加速和社会经济的发展,公共安全问题也愈发引起人们的关注.为了保障社会稳定和公民生命财产安全,各地政府开始大力推进智能安防和智慧城市的建设.行人重识别就是构建智慧城市的核心技术之一,对安防监控和刑事调查申请具有重要意义.行人重识别旨在检索不同摄像头下捕捉到的特定人物.然而,由于光照、视角、遮挡和姿势等造成的类内差异,行人重识别在计算机视觉领域仍然是一项具有挑战性的任务.受限于数据和标记匮乏,已有的全监督行人重识别任务在模型层面上改进的方法效果基本达到瓶颈.引入更复杂多样且标记易获得的大型虚拟数据集来进行辅助训练,并提出了一种基于摄像头感知的非对称领域对抗学习方法,同时缓解领域间差异和多摄像头间类内差异的影响,使模型从更丰富多样的数据中学到摄像头差异无关的特征表示.此外,为了缓解虚拟数据集夹带的误导信息带来的不利影响和对抗训练中真实世界数据集的数据分布向虚拟数据集的数据分布发生偏移的问题,提出使用基于真实数据训练的辅助网络来约束主干网络的训练.实验在2个公开的数据集上进行验证,表明了所提方法的有效性. 展开更多
关键词 行人识别 对抗学习 知识蒸馏 图像检索 计算机视觉
在线阅读 下载PDF
结合视觉文本匹配和图嵌入的可见光-红外行人重识别 被引量:1
5
作者 张红颖 樊世钰 +1 位作者 罗谦 张涛 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第9期3662-3671,共10页
对于可见光-红外跨模态行人重识别(Re-ID),大多数方法采用基于模态转换的策略,通过对抗网络生成图像,以此建立不同模态间的相互联系。然而这些方法往往不能有效降低模态间的差距,导致重识别性能不佳。针对此问题,该文提出一种基于视觉... 对于可见光-红外跨模态行人重识别(Re-ID),大多数方法采用基于模态转换的策略,通过对抗网络生成图像,以此建立不同模态间的相互联系。然而这些方法往往不能有效降低模态间的差距,导致重识别性能不佳。针对此问题,该文提出一种基于视觉文本匹配和图嵌入的双阶段跨模态行人重识别方法。该方法通过上下文优化方案构建可学习文本模板,生成行人描述作为模态间的关联信息。具体而言,在第1阶段基于图片-文本对的预训练(CLIP)模型实现同一行人不同模态间的统一文本描述作为先验信息辅助降低模态差异。同时在第2阶段引入基于图嵌入的跨模态约束框架,设计模态间自适应损失函数,提升行人识别准确率。为了验证所提方法的有效性,在SYSU-MM01和Reg DB数据集上进行了大量实验,其中SYSU-MM01数据集上的首次命中(Rank-1)和平均精度均值(m AP)分别达到64.2%,60.2%。实验结果表明,该文所提方法能够提升可见光-红外跨模态行人重识别的准确率。 展开更多
关键词 行人识别 跨模态 图片-文本对的预训练模型 上下文优化 图嵌入
在线阅读 下载PDF
基于CLIP增强细粒度特征的换装行人重识别方法
6
作者 耿霞 汪尧 《计算机工程》 北大核心 2025年第4期293-302,共10页
换装行人重识别旨在检索穿着不同服装的目标行人。现有方法通过引入额外信息(如轮廓、步态、3D信息)辅助学习服装无关特征。但受光照、姿态变化等因素的影响,提取的生物特征可能存在误差。为提高准确性,探索对比语言-图像预训练(CLIP)... 换装行人重识别旨在检索穿着不同服装的目标行人。现有方法通过引入额外信息(如轮廓、步态、3D信息)辅助学习服装无关特征。但受光照、姿态变化等因素的影响,提取的生物特征可能存在误差。为提高准确性,探索对比语言-图像预训练(CLIP)在该任务的应用,提出CLIP驱动的细粒度特征增强方法(CFFE)。首先建模CLIP提取的类文本特征和图像特征的潜在内在联系,然后引入显著性特征保留模块和显著性特征引导模块。显著性特征保留模块利用注意力掩码定位服装相关的前景区域,进而擦除该部分特征,使网络关注有效的非服装特征,显著性特征引导模块通过注意力机制进一步关注行人的重要局部和全局特征。实验结果表明,该方法在LTCC、PRCC和VC-Clothes数据集上的检测精度分别达到42.1%、71.1%和89.9%,与AIM、CAL等算法相比,能够提取到更细粒度的特征,在多项指标上有明显提升。 展开更多
关键词 换装行人识别 对比语言-图像预训练 特征保留策略 注意力机制 语义解析
在线阅读 下载PDF
多元特征提取与通道特征重构的跨模态行人重识别方法
7
作者 王铭杰 毕艺瀚 +1 位作者 王蓉 李冲 《计算机科学与探索》 北大核心 2025年第10期2769-2781,共13页
针对可见光图像与红外图像模态差异大导致可见光-红外行人重识别匹配困难的问题,提出一种多元特征提取与通道特征重构的跨模态行人重识别方法。采用双流ResNeXt50作为骨干网络,通过通道分组卷积分别提取不同子网络特征,缓解两种模态通... 针对可见光图像与红外图像模态差异大导致可见光-红外行人重识别匹配困难的问题,提出一种多元特征提取与通道特征重构的跨模态行人重识别方法。采用双流ResNeXt50作为骨干网络,通过通道分组卷积分别提取不同子网络特征,缓解两种模态通道数不平衡的问题,提升判别特征提取能力,降低模型复杂度,避免过拟合;设计多级特征重构模块,对不同阶段特征进行通道维度的重构融合,并利用通道注意力机制和自适应权重增强具有判别力的关键特征,减少冗余信息,增强模型的辨识能力;构建多元特征提取模块,通过多支路并行卷积提取多元跨模态共享特征,并利用EMA注意力机制,通过特征分组及跨空间学习方法,捕捉图像中的细节和全局信息,学习有效空间和通道特征,增强网络对复杂场景下行人关键特征的学习能力。该方法在SYSU-MM01数据集的全景搜索模式下,rank-1和mAP分别达到75.35%和72.37%,室内搜索模式下,rank-1和m AP分别达到83.57%和86.03%;在RegDB数据集的可见-红外检索模式下,rank-1和m AP分别达到93.21%和87.09%,红外-可见检索模式下,rank-1和mAP分别达到91.63%和86.00%,证明了方法的有效性。 展开更多
关键词 可见光-红外图像 行人识别 注意力机制 特征提取
在线阅读 下载PDF
基于隐式解码对齐的空地行人重识别方法
8
作者 贝俊仁 张权 赖剑煌 《自动化学报》 北大核心 2025年第9期1988-2000,共13页
空地行人重识别任务旨在包含地面与空中视角的监控相机网络中,实现对特定行人的精确识别与跨镜关联.该任务的特有挑战在于克服空地成像设备之间巨大的视角差异对于学习判别性行人身份特征的干扰.现有工作在行人特征建模方面存在不足,未... 空地行人重识别任务旨在包含地面与空中视角的监控相机网络中,实现对特定行人的精确识别与跨镜关联.该任务的特有挑战在于克服空地成像设备之间巨大的视角差异对于学习判别性行人身份特征的干扰.现有工作在行人特征建模方面存在不足,未充分考虑跨视角特征对齐对识别与检索性能的提升作用.基于此,提出一种基于隐式解码对齐的空地行人重识别方法,主要包含两方面的创新:在模型设计方面,提出基于自注意力解码器的隐式对齐框架,通过在解码阶段利用一组可学习的口令特征挖掘行人判别部件区域,并提取和对齐行人局部特征,从而实现判别性行人表征的学习;在优化目标方面,提出正交性和一致性损失函数,前者约束口令特征以多样化判别性行人部件为关注点,后者缓解了跨视角特征表达的偏置分布.在当前可用的最大空地重识别数据集CARGO上进行实验,结果表明所提方法在检索性能上优于现有重识别方法,实现显著的性能提升. 展开更多
关键词 行人识别 图像检索 图像识别 自注意力网络
在线阅读 下载PDF
少样本行人重识别研究综述 被引量:1
9
作者 闫铭 李雷孝 +2 位作者 林浩 史建平 平灿 《计算机工程与应用》 北大核心 2025年第17期62-88,共27页
行人重识别任务通常依赖于大规模标注数据。然而,在少样本场景中,标注数据的有限性导致模型难以充分学习到类别间的判别性特征。为应对这一挑战,研究者们提出了多种方法以提升模型在数据匮乏条件下的性能表现。根据所需标注数据的依赖程... 行人重识别任务通常依赖于大规模标注数据。然而,在少样本场景中,标注数据的有限性导致模型难以充分学习到类别间的判别性特征。为应对这一挑战,研究者们提出了多种方法以提升模型在数据匮乏条件下的性能表现。根据所需标注数据的依赖程度,相关研究可以归纳为以下四个主要类别:有监督学习的方法、基于弱监督学习的方法、基于半监督学习的方法、基于无监督学习的方法。随着对标注数据依赖的逐渐降低,行人重识别领域呈现出从有监督学习到无监督学习的技术发展趋势。系统性地总结了当前在数据集和评估指标上的研究现状,并对未来可能的研究方向进行了展望。 展开更多
关键词 行人识别(ReID) 少样本学习 目标检测 图像识别
在线阅读 下载PDF
知识蒸馏与掩码重构的域泛化行人重识别
10
作者 郑昊天 胡海峰 《中山大学学报(自然科学版)(中英文)》 北大核心 2025年第5期43-49,共7页
域泛化行人重识别的挑战源于当前基准方法的2个固有局限性:1)数据集之间存在明显的域间隙,2)数据集域内多样性不足。现有一些多领域联合训练方法,往往无法充分学习跨域数据集间潜在的身份线索。为了克服上述局限,本文通过一种双分支策... 域泛化行人重识别的挑战源于当前基准方法的2个固有局限性:1)数据集之间存在明显的域间隙,2)数据集域内多样性不足。现有一些多领域联合训练方法,往往无法充分学习跨域数据集间潜在的身份线索。为了克服上述局限,本文通过一种双分支策略来增强模型泛化性能。首先针对大规模预训练的扩展模型进行知识蒸馏,同时针对现有多域训练数据进行掩码图像特征挖掘。常用的域泛化行人重识别协议基准上的实验证明了本文方法的性能。在以Market-1501为目标域的留一法测试中,本文方法相对于基准方法提高了16.2%的Rank-1准确度,相对现存最佳方法则在Rank-1准确度上实现了3.6%的提升。 展开更多
关键词 行人识别 域泛化 知识蒸馏 掩码图像
在线阅读 下载PDF
面向可见光-红外图像的跨模态行人再识别方法
11
作者 孙义博 王蓉 +1 位作者 张琪 林榕辉 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第6期2018-2025,共8页
为降低模型对图像颜色的敏感度,减小可见光和红外模态间的差异,提出一种面向可见光-红外图像的跨模态行人再识别方法。将可见光图像转换到HSV颜色空间,提取只描述图像明暗信息的V分量,降低模型对颜色信息的依赖性;通过轻量级网络对V分... 为降低模型对图像颜色的敏感度,减小可见光和红外模态间的差异,提出一种面向可见光-红外图像的跨模态行人再识别方法。将可见光图像转换到HSV颜色空间,提取只描述图像明暗信息的V分量,降低模型对颜色信息的依赖性;通过轻量级网络对V分量图像进行降维和升维,生成介于可见光和红外图像的中间模态,缩小模态间的差异性;在SYSU-MM01和RegDB数据集上进行性能评估。性能评估结果为Rank-1的数值分别增加了6.67%、1.18%,mAP的数值分别增加了6.47%、1.15%,mINP的数值分别增加了5.59%、0.42%。 展开更多
关键词 可见光-红外图像 跨模态 HSV颜色空间 轻量级网络 行人识别
在线阅读 下载PDF
一种单阶段无监督可见光-红外跨模态行人重识别方法
12
作者 娄刃 和任强 +4 位作者 赵三元 郝昕 周跃琪 汪心渊 李方芳 《计算机科学》 CSCD 北大核心 2024年第S01期528-534,共7页
无监督“可见光-红外”跨模态行人重识别任务能够缓解智能监控场景中需要大量人工标注的问题。常见多阶段模型用于处理不同模态数据。文中提出了一种有效的单阶段无监督跨模态行人重识别的方法,设计了基于置信因子的聚类算法和图嵌入的... 无监督“可见光-红外”跨模态行人重识别任务能够缓解智能监控场景中需要大量人工标注的问题。常见多阶段模型用于处理不同模态数据。文中提出了一种有效的单阶段无监督跨模态行人重识别的方法,设计了基于置信因子的聚类算法和图嵌入的跨模态特征处理方法,分别用于解决无标签问题和跨模态问题。实验结果表明,相较于现有算法,所提方法在r=1时精度至少取得了7%的提高。 展开更多
关键词 跨模态学习 无监督行人识别 可见光-红外行人识别 无监督学习 跨模态特征处理
在线阅读 下载PDF
基于关系挖掘的跨模态行人重识别
13
作者 金昌胜 王海瑞 《空军工程大学学报》 CSCD 北大核心 2024年第1期106-114,共9页
基于文本的行人重识别模型通常依赖于全局特征对齐和局部特征对齐,但模态间和模态内的相关信息常被忽略。提出了一种基于关系挖掘的跨模态行人重识别方法,该方法包括双流主干网络、负相似度挖掘模块、关系编码器。首先,通过双流主干网... 基于文本的行人重识别模型通常依赖于全局特征对齐和局部特征对齐,但模态间和模态内的相关信息常被忽略。提出了一种基于关系挖掘的跨模态行人重识别方法,该方法包括双流主干网络、负相似度挖掘模块、关系编码器。首先,通过双流主干网络实现了全局和局部特征对齐;其次,通过负相似度挖掘模块提升了图像-文本对特征辨别的细粒度;最后,通过关系编码器模块分别学习图像和文本中隐含的关系信息,实现关系级别的特征对齐。在CUHK-PEDES数据集和ICFG-PEDES数据集上的实验结果证明,文中方法能够达到较高的识别精度。 展开更多
关键词 行人识别 多粒度图像 文本对齐 关系特征融合 卷积神经网络 全局特征 局部特征
在线阅读 下载PDF
基于双流结构的跨模态行人重识别关系网络 被引量:1
14
作者 郭玉彬 文向 +1 位作者 刘攀 李西明 《计算机应用》 CSCD 北大核心 2023年第6期1803-1810,共8页
针对可见光-红外跨模态行人重识别中模态差异导致的识别精确率低的问题,提出了一种基于双流结构的跨模态行人重识别关系网络(IVRNBDS)。首先,利用双流结构分别提取可见光模态和红外模态行人图像的特征;然后,将行人图像的特征图水平切分... 针对可见光-红外跨模态行人重识别中模态差异导致的识别精确率低的问题,提出了一种基于双流结构的跨模态行人重识别关系网络(IVRNBDS)。首先,利用双流结构分别提取可见光模态和红外模态行人图像的特征;然后,将行人图像的特征图水平切分为6个片段,以提取行人的每个片段的局部特征和其他片段的特征之间的关系,以及行人的核心特征和平均特征之间的关系;最后,在设计损失函数时,引入异质中心三元组损失(HC Loss)函数放松普通三元组损失函数的严格约束,从而使不同模态的图像特征可以更好地映射到同一特征空间中。在公开数据集SYSU-MM01(Sun Yat-Sen University Multi Modal re-identification)和Reg DB(Dongguk Body-based person Recognition)上的实验结果表明,虽然IVRNBDS的计算量略高于当前主流的跨模态行人重识别算法,但所提网络在相似度排名第1(Rank-1)指标和平均精度均值(m AP)指标上都有所提高,提高了跨模态行人重识别算法的识别精确率。 展开更多
关键词 行人识别 可见光-红外跨模态 双流结构 异质中心三元组损失 局部特征
在线阅读 下载PDF
深度双重注意力的生成与判别联合学习的行人重识别 被引量:6
15
作者 张晓艳 张宝华 +5 位作者 吕晓琪 谷宇 王月明 刘新 任彦 李建军 《光电工程》 CAS CSCD 北大核心 2021年第5期54-62,共9页
在行人重识别任务中存在数据集标注难度大,样本量少,特征提取后细节特征缺失等问题。针对以上问题提出深度双重注意力的生成与判别联合学习的行人重识别。首先,构建联合学习框架,将判别模块嵌入生成模块,实现图像生成和判别端到端的训练... 在行人重识别任务中存在数据集标注难度大,样本量少,特征提取后细节特征缺失等问题。针对以上问题提出深度双重注意力的生成与判别联合学习的行人重识别。首先,构建联合学习框架,将判别模块嵌入生成模块,实现图像生成和判别端到端的训练,及时将生成图像反馈给判别模块,同时优化生成模块与判别模块。其次,通过相邻的通道注意力模块间连接和相邻空间注意力模块间连接,融合所有通道特征和空间特征,构建深度双重注意力模块,将其嵌入教师模型,使模型能更好地提取行人细节身份特征,提高模型识别能力。实验结果表明,该算法在Market-1501和DukeMTMC-ReID数据集上具有较好的鲁棒性、判别性。 展开更多
关键词 行人识别 图像生成 联合学习 注意力机制 深度学习
在线阅读 下载PDF
一种联合文本和图像信息的行人检测方法 被引量:12
16
作者 周炫余 刘娟 +2 位作者 卢笑 邵鹏 罗飞 《电子学报》 EI CAS CSCD 北大核心 2017年第1期140-146,共7页
针对纯视觉行人检测方法存在的误检、漏检率高,遮挡目标以及小尺度目标检测精度低等问题,提出一种联合文本和图像信息的行人检测方法.该方法首先利用图像分析的方法初步获取图像目标的候选框,其次通过文本分析的方法获取文本中有关图像... 针对纯视觉行人检测方法存在的误检、漏检率高,遮挡目标以及小尺度目标检测精度低等问题,提出一种联合文本和图像信息的行人检测方法.该方法首先利用图像分析的方法初步获取图像目标的候选框,其次通过文本分析的方法获取文本中有关图像目标的实体表达,并提出一种基于马尔科夫随机场的模型用于推断图像候选框与文本实体表达之间的共指关系(Coreference Relation),以此达到联合图像和文本信息以辅助机器视觉提高交通场景下行人检测精度的目的.在增加了图像文本描述的加州理工大学行人检测数据集上进行的测评结果表明,该方法不仅可以在图像信息的基础上联合文本信息提高交通场景中的行人检测精度,也能在文本信息的基础上联合图像信息提高文本中的指代消解(Anaphora Resolution)精度. 展开更多
关键词 行人检测 马尔科夫随机场 文本-图像信息联合 共指关系 指代消解
在线阅读 下载PDF
基于图像内容理解的判别性类别提示学习 被引量:1
17
作者 王楠井 刘阿建 +4 位作者 梁凤梅 张小梅 万军 谢珺 雷震 《电子学报》 北大核心 2025年第2期493-502,共10页
近年来,通过图像与文本的联合表示,基于对比语言-图像预训练(Contrastive Language-Image Pre-training,CLIP)的方法将文本信息作为分类器的权值,在通用图像识别任务中展现出卓越性能.但是现有方法仅单独构建类别文本提示,比如上下文优... 近年来,通过图像与文本的联合表示,基于对比语言-图像预训练(Contrastive Language-Image Pre-training,CLIP)的方法将文本信息作为分类器的权值,在通用图像识别任务中展现出卓越性能.但是现有方法仅单独构建类别文本提示,比如上下文优化(Context Optimization,CoOp)和条件上下文优化(Conditional Context Optimization,CoCoOp)等,没有考虑图像的内容语义信息与类别的重要性,限制了模型对图像类别的理解与判别.为了解决上述问题,本文在CLIP的基础上提出了一种新方法:基于图像内容理解的判别性类别提示学习(Discriminative Category Prompt Learning based on image content understanding,DCPL),借助图像中丰富的内容特征来学习文本提示,提高文本提示对类别的判别性.具体来说,DCPL包含提示生成(Prompt Generation,PG)模块和文本监督(Text Supervision,TS)模块.PG模块将图像特征和初始化的查询向量作为输入,通过自注意力机制和交叉注意力机制使输出的文本提示中包含充分的图像语义信息;TS模块将固定的类别提示模板作为监督,为可学习文本提示在类别层面和logits层面注入类别信息,增强了类别的重要性.最后,DCPL在ImageNet、Caltech101和Oxford-Pets等11个公开分类数据集上的16-shots平均准确率达到了81.84%,较以往最优方法Cross-Modal的平均准确率提升了0.98个百分点. 展开更多
关键词 视觉-语言模型 图像识别 提示调优 注意力机制 文本监督(TS) 适配器微调 TRANSFORMER
在线阅读 下载PDF
基于多模态图卷积神经网络的行人重识别方法 被引量:2
18
作者 何嘉明 杨巨成 +2 位作者 吴超 闫潇宁 许能华 《计算机应用》 CSCD 北大核心 2023年第7期2182-2189,共8页
针对行人重识别中行人文本属性信息未被充分利用以及文本属性之间语义联系未被挖掘的问题,提出一种基于多模态的图卷积神经网络(GCN)行人重识别方法。首先使用深度卷积神经网络(DCNN)学习行人文本属性与行人图像特征;然后借助GCN有效的... 针对行人重识别中行人文本属性信息未被充分利用以及文本属性之间语义联系未被挖掘的问题,提出一种基于多模态的图卷积神经网络(GCN)行人重识别方法。首先使用深度卷积神经网络(DCNN)学习行人文本属性与行人图像特征;然后借助GCN有效的关系挖掘能力,将文本属性特征与图像特征作为GCN的输入,通过图卷积运算来传递文本属性节点间的语义信息,从而学习文本属性间隐含的语义联系信息,并将该语义信息融入图像特征中;最后GCN输出鲁棒的行人特征。该多模态的行人重识别方法在Market-1501数据集上获得了87.6%的平均精度均值(mAP)和95.1%的Rank-1准确度;在DukeMTMC-reID数据集上获得了77.3%的mAP和88.4%的Rank-1准确度,验证了所提方法的有效性。 展开更多
关键词 行人识别 多模态 图卷积神经网络 行人文本属性 隐含语义联系
在线阅读 下载PDF
基于注意力机制的跨分辨率行人重识别 被引量:8
19
作者 廖华年 徐新 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第3期605-612,共8页
行人图像分辨率的变化对现有的行人重识别方法带来了很大的挑战。针对这一问题,提出了一种新的跨分辨率行人重识别方法。该方法从两方面解决分辨率变化带来的识别困难:一方面通过通道注意力机制和空间注意力机制捕捉人物特征获取局部区... 行人图像分辨率的变化对现有的行人重识别方法带来了很大的挑战。针对这一问题,提出了一种新的跨分辨率行人重识别方法。该方法从两方面解决分辨率变化带来的识别困难:一方面通过通道注意力机制和空间注意力机制捕捉人物特征获取局部区域;另一方面通过核动态上采样模块恢复任意分辨率图像的局部区域信息。为了验证所提方法的有效性,在Market1501、CUHK03和CAVIAR三个公开数据集上开展了对比实验,实验结果表明:所提方法取得了最佳性能。 展开更多
关键词 行人识别 通道注意力机制 空间注意力机制 图像超分辨率 上采样
在线阅读 下载PDF
互惠双向生成对抗网络用于跨模态行人重识别 被引量:1
20
作者 魏梓钰 杨曦 +2 位作者 王楠楠 杨东 高新波 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期205-212,共8页
为提高跨模态行人重识别的准确率,提出一种基于互惠双向生成对抗网络的跨模态行人重识别方法。首先,建立两个生成对抗网络以生成跨模态异质图像;其次,设计一种联合损失在可见光与红外图像相互转换过程中拉近隐藏空间特征的分布,促使网... 为提高跨模态行人重识别的准确率,提出一种基于互惠双向生成对抗网络的跨模态行人重识别方法。首先,建立两个生成对抗网络以生成跨模态异质图像;其次,设计一种联合损失在可见光与红外图像相互转换过程中拉近隐藏空间特征的分布,促使网络生成更接近真实图像的伪异质图像;最后,通过将原始图像与生成的异质行人图像相结合并输入至区别性特征提取网络中,使得不同模态的图像统一至相同模态,消减了跨模态差异。利用表征学习与度量学习,使网络提取出更具有判别性的行人特征。通过在跨模态数据集SYSU-MM01和RegDB上做对比实验,分析了该方法在不同损失函数下的识别效果。对比于其他前沿跨模态行人重识别方法,这种方法具有更高准确率和更强鲁棒性。 展开更多
关键词 生成对抗网络 图像转换 特征提取 跨模态行人识别
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部