-
题名融合图像与文本特征的组合检索方法
- 1
-
-
作者
秦钰淑
杨良怀
朱艳超
龚卫华
-
机构
浙江工业大学计算机学院
中国电子口岸数据中心杭州分中心
-
出处
《电子学报》
北大核心
2025年第2期558-567,共10页
-
基金
浙江省重点研发计划“领雁”项目(No.2022C01088)。
-
文摘
随着电商领域图像数据的爆炸式增长,针对目标图像的检索成为信息检索研究中的挑战性工作.现有的传统图像检索模型仅依靠单一文本描述或相似图像,难以准确捕捉用户的检索意图,导致检索结果不理想.为了解决该难题,本文提出了一种融合图像与文本特征的组合检索方法,采用Swin Transformer(SwinT)提取参考图像的多层特征,将图像与文本特征在多个层级上进行融合,使文本特征能够多层次、细粒度地修改参考图像特征,以更接近目标图像特征.然后,将修改后的图像特征与目标图像特征嵌入到一个空间中进行相似性度量,并采用基于批次的分类损失来优化检索性能.在Fashion200k、MIT-States和CSS这3个数据集上的实验结果表明,相较于现有主流方法,本文方法在性能上平均提升了5个百分点.
-
关键词
图像文本组合检索
图像特征
文本特征
特征融合
-
Keywords
combined image and text retrieval
image features
text features
features fusion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-