针对跨模态检索任务中关系具有多样性,以及基于外观的传统范式无法准确反映图像中显著物体间的关联,使得它在复杂场景中的应用效果不佳的问题,提出一种基于模态内细粒度特征关系提取的图像-文本检索模型。首先,为了获得更直观的位置信息...针对跨模态检索任务中关系具有多样性,以及基于外观的传统范式无法准确反映图像中显著物体间的关联,使得它在复杂场景中的应用效果不佳的问题,提出一种基于模态内细粒度特征关系提取的图像-文本检索模型。首先,为了获得更直观的位置信息,将图像划分为网格,并通过物体与网格的位置关系建立位置表征;其次,为了在关系建模阶段保持节点信息的稳定性和独立性,使用一个跨模态信息指导的特征融合模块;最后,提出一种自适应三元组损失用于动态平衡正负样本的训练权重。实验结果表明,所提模型在Flickr30K和MS-COCO 1K数据集上与模型CHAN(Cross-modal Hard Aligning Network)相比,在R@sum指标(前1,5,10个图像检索文本和文本检索图像的召回率之和)上分别提升了1.5%和0.02%,以上结果验证了所提模型在检索的召回率上的有效性。展开更多
文摘针对跨模态检索任务中关系具有多样性,以及基于外观的传统范式无法准确反映图像中显著物体间的关联,使得它在复杂场景中的应用效果不佳的问题,提出一种基于模态内细粒度特征关系提取的图像-文本检索模型。首先,为了获得更直观的位置信息,将图像划分为网格,并通过物体与网格的位置关系建立位置表征;其次,为了在关系建模阶段保持节点信息的稳定性和独立性,使用一个跨模态信息指导的特征融合模块;最后,提出一种自适应三元组损失用于动态平衡正负样本的训练权重。实验结果表明,所提模型在Flickr30K和MS-COCO 1K数据集上与模型CHAN(Cross-modal Hard Aligning Network)相比,在R@sum指标(前1,5,10个图像检索文本和文本检索图像的召回率之和)上分别提升了1.5%和0.02%,以上结果验证了所提模型在检索的召回率上的有效性。
基金2014年度教育部人文社会科学研究青年基金项目<艺术与权力:南宋画院人物画的政治功用>(项目编号:14YJC760010)中国博士后科学基金第56批面上资助<民族危机与艺术创新:南宋院体人物画的历史生成>(项目编号:2014M561400)"中央高校基本科研业务费专项资金资助"(supported by"the Fundamental Research Funds for the Central Universities")<南宋人物画中的政治因素>的阶段性成果