随着互联网中多模态数据的快速增长,跨模态检索技术受到了广泛关注。然而,现实中一些多模态数据存在语义信息缺失,导致模型难以准确提取出其中蕴涵的语义特征。此外,一些多模态数据还包含了与语义无关的冗余信息,干扰了模型对关键信息...随着互联网中多模态数据的快速增长,跨模态检索技术受到了广泛关注。然而,现实中一些多模态数据存在语义信息缺失,导致模型难以准确提取出其中蕴涵的语义特征。此外,一些多模态数据还包含了与语义无关的冗余信息,干扰了模型对关键信息的提取。为此,提出了一种基于信息互补与交叉注意力(ICCA)的跨模态检索方法。该方法利用图卷积网络(GCN)建模多标签和数据之间的关系,以补充多模态数据中缺失的语义信息与多标签中缺失的样本细节信息。此外,交叉注意力子模块利用多标签信息,过滤掉数据中语义无关的冗余信息。为了使语义相似的图像和文本在公共表示空间中实现更好的匹配,还提出了一种语义匹配损失。此损失将多标签嵌入融入到图像和文本的匹配过程中,用于进一步增强公共表示的语义性。在NUS-WIDE、MIRFlickr-25K和MS-COCO这三个广泛使用的数据集上进行实验,实验结果表明,ICCA在这些数据集上的平均精度均值(mean average precision,mAP)分别为0.808、0.859和0.837,显著优于现有方法。展开更多
文摘随着互联网中多模态数据的快速增长,跨模态检索技术受到了广泛关注。然而,现实中一些多模态数据存在语义信息缺失,导致模型难以准确提取出其中蕴涵的语义特征。此外,一些多模态数据还包含了与语义无关的冗余信息,干扰了模型对关键信息的提取。为此,提出了一种基于信息互补与交叉注意力(ICCA)的跨模态检索方法。该方法利用图卷积网络(GCN)建模多标签和数据之间的关系,以补充多模态数据中缺失的语义信息与多标签中缺失的样本细节信息。此外,交叉注意力子模块利用多标签信息,过滤掉数据中语义无关的冗余信息。为了使语义相似的图像和文本在公共表示空间中实现更好的匹配,还提出了一种语义匹配损失。此损失将多标签嵌入融入到图像和文本的匹配过程中,用于进一步增强公共表示的语义性。在NUS-WIDE、MIRFlickr-25K和MS-COCO这三个广泛使用的数据集上进行实验,实验结果表明,ICCA在这些数据集上的平均精度均值(mean average precision,mAP)分别为0.808、0.859和0.837,显著优于现有方法。