-
题名基于文本的行人图像检索的多样化数据扩充方法
- 1
-
-
作者
王靖尧
曹敏
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第12期276-287,共12页
-
基金
国家自然科学基金青年科学基金项目(62002252)。
-
文摘
近年来,基于文本的行人图像检索(TBPS)技术在安防和刑侦等领域发挥着越来越重要的作用。然而,现有数据集中行人图像较少且描述行人的文本较为单调导致模型无法充分学习行人特征和信息,限制了TBPS检索技术的进一步发展。为了解决这一问题,提出一种多样化行人图像-文本对数据生成与筛选的扩充方法。在数据生成阶段,首先使用成分句法分析模型和大语言模型相结合的方式生成行人文本描述,然后使用条件图像生成模型根据生成的行人文本描述产生相应的行人图像。在依据行人文本筛选图像阶段,利用评分函数PickScore计算生成的行人图像与行人文本描述之间的相似度分数,根据计算的相似度分数的结果,粗粒度地筛掉相似度分数较低的行人图像,只保留相似度分数较高的行人图像与行人文本描述。在行人图像-文本对数据过滤阶段,利用图文多模态大模型计算行人图像与行人文本描述的匹配概率,筛掉概率低于阈值的行人图像-文本对进行细粒度的数据过滤,并将剩余的高质量行人图像-文本对作为正样本对添加到现有数据集中。在多个公开的TBPS检索数据集上的实验结果表明,应用该方法对这些数据集进行扩充后,不同检索基准模型的Rank-k、平均精度均值(mAP)等指标均有较大幅度的提升。此外,探讨了姿态控制与风格控制对扩充结果的影响,为后续更深入的研究提供了一种思路。
-
关键词
多样化行人数据扩充
成分句法分析模型
大语言模型
条件图像生成模型
多模态大模型
-
Keywords
diversified person data expansion
constituency parsing analysis model
large language model
conditional image generative model
multimodal large model
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-