文本-图像行人检索(text-based person retrieval)作为多模态智能监控系统的核心任务,旨在通过自由形式的文本描述从大规模数据库中识别目标行人图像,在公共安全与视频取证领域具有关键应用价值,如刑事侦查中的嫌疑人追踪及跨摄像头取...文本-图像行人检索(text-based person retrieval)作为多模态智能监控系统的核心任务,旨在通过自由形式的文本描述从大规模数据库中识别目标行人图像,在公共安全与视频取证领域具有关键应用价值,如刑事侦查中的嫌疑人追踪及跨摄像头取证分析.传统方法通常基于图像-文本对完美对齐的理想化假设,忽视了实际场景中普遍存在的复杂噪声数据问题,即视觉实例与其文本标注间因人工标注偏差、网络爬取噪声,或局部视觉属性与全局文本语境间的语义粒度失配而产生的错误或歧义性关联.为弥补这一缺陷,提出了一种语义感知噪声关联学习框架,通过双重创新机制系统性地实现噪声辨识与鲁棒学习.首先,语义感知噪声辨识准则融合模态内语义一致性与跨模态交互信号,基于自适应阈值判定精准区分噪声关联;其次,噪声鲁棒互补学习范式实施差异化优化策略:对于可靠子集采用对比损失进行正向学习以增强特征判别性,而对噪声子集则通过反向学习以抑制过拟合.在3个公开基准数据集上的大量实验表明,该方法在合成噪声数据与真实噪声数据场景中均展现出优越性能.展开更多
针对可见光-红外跨模态行人重识别中模态差异导致的识别精确率低的问题,提出了一种基于双流结构的跨模态行人重识别关系网络(IVRNBDS)。首先,利用双流结构分别提取可见光模态和红外模态行人图像的特征;然后,将行人图像的特征图水平切分...针对可见光-红外跨模态行人重识别中模态差异导致的识别精确率低的问题,提出了一种基于双流结构的跨模态行人重识别关系网络(IVRNBDS)。首先,利用双流结构分别提取可见光模态和红外模态行人图像的特征;然后,将行人图像的特征图水平切分为6个片段,以提取行人的每个片段的局部特征和其他片段的特征之间的关系,以及行人的核心特征和平均特征之间的关系;最后,在设计损失函数时,引入异质中心三元组损失(HC Loss)函数放松普通三元组损失函数的严格约束,从而使不同模态的图像特征可以更好地映射到同一特征空间中。在公开数据集SYSU-MM01(Sun Yat-Sen University Multi Modal re-identification)和Reg DB(Dongguk Body-based person Recognition)上的实验结果表明,虽然IVRNBDS的计算量略高于当前主流的跨模态行人重识别算法,但所提网络在相似度排名第1(Rank-1)指标和平均精度均值(m AP)指标上都有所提高,提高了跨模态行人重识别算法的识别精确率。展开更多
文摘文本-图像行人检索(text-based person retrieval)作为多模态智能监控系统的核心任务,旨在通过自由形式的文本描述从大规模数据库中识别目标行人图像,在公共安全与视频取证领域具有关键应用价值,如刑事侦查中的嫌疑人追踪及跨摄像头取证分析.传统方法通常基于图像-文本对完美对齐的理想化假设,忽视了实际场景中普遍存在的复杂噪声数据问题,即视觉实例与其文本标注间因人工标注偏差、网络爬取噪声,或局部视觉属性与全局文本语境间的语义粒度失配而产生的错误或歧义性关联.为弥补这一缺陷,提出了一种语义感知噪声关联学习框架,通过双重创新机制系统性地实现噪声辨识与鲁棒学习.首先,语义感知噪声辨识准则融合模态内语义一致性与跨模态交互信号,基于自适应阈值判定精准区分噪声关联;其次,噪声鲁棒互补学习范式实施差异化优化策略:对于可靠子集采用对比损失进行正向学习以增强特征判别性,而对噪声子集则通过反向学习以抑制过拟合.在3个公开基准数据集上的大量实验表明,该方法在合成噪声数据与真实噪声数据场景中均展现出优越性能.
文摘针对可见光-红外跨模态行人重识别中模态差异导致的识别精确率低的问题,提出了一种基于双流结构的跨模态行人重识别关系网络(IVRNBDS)。首先,利用双流结构分别提取可见光模态和红外模态行人图像的特征;然后,将行人图像的特征图水平切分为6个片段,以提取行人的每个片段的局部特征和其他片段的特征之间的关系,以及行人的核心特征和平均特征之间的关系;最后,在设计损失函数时,引入异质中心三元组损失(HC Loss)函数放松普通三元组损失函数的严格约束,从而使不同模态的图像特征可以更好地映射到同一特征空间中。在公开数据集SYSU-MM01(Sun Yat-Sen University Multi Modal re-identification)和Reg DB(Dongguk Body-based person Recognition)上的实验结果表明,虽然IVRNBDS的计算量略高于当前主流的跨模态行人重识别算法,但所提网络在相似度排名第1(Rank-1)指标和平均精度均值(m AP)指标上都有所提高,提高了跨模态行人重识别算法的识别精确率。