期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于目标语义提示与双注意力感知的遥感图像文本检索方法
1
作者 田澍 张秉熙 +5 位作者 曹林 邢相薇 田菁 沈博 杜康宁 张晔 《电子与信息学报》 北大核心 2025年第6期1734-1746,共13页
高分辨率遥感图像场景复杂、语义信息丰富多样且目标尺度多变,容易引起特征空间中不同类别目标的图像特征分布混淆,导致模型难以高效捕获遥感目标文本语义与图像特征的潜在关联,进而影响遥感图像文本检索的精度。针对这一问题,该文提出... 高分辨率遥感图像场景复杂、语义信息丰富多样且目标尺度多变,容易引起特征空间中不同类别目标的图像特征分布混淆,导致模型难以高效捕获遥感目标文本语义与图像特征的潜在关联,进而影响遥感图像文本检索的精度。针对这一问题,该文提出基于目标语义提示与双注意力感知的遥感图像文本检索方法。该方法首先引入空间-通道协同注意力,利用空间-通道维度注意权重交互捕捉图像全局上下文特征。同时,为了实现遥感图像显著目标信息的多粒度精准表征,模型通过所构建的基于自适应显著性区域目标感知注意力机制,通过动态多尺度目标特征加权聚合,提升对目标局部区域显著性特征聚焦响应。此外,该文设计了目标类别概率先验引导策略,对文本描述进行目标类别语义词频统计,以获取高概率先验目标语义信息,进而指导在跨模态共性嵌入空间中的图像特征聚类,最终实现高效准确的图像-文本特征对齐。该方法在RSICD与RSITMD两组遥感图像文本检索基准数据集上开展实验评估。结果表明,所设计的方法在检索精度指标上展现出了卓越的性能优势。 展开更多
关键词 遥感图像 跨模态 图像文本检索 CLIP 空间通道注意力
在线阅读 下载PDF
基于特征增强和语义相关性匹配的图像文本检索方法 被引量:3
2
作者 陈佳 张鸿 《计算机应用》 CSCD 北大核心 2024年第1期16-23,共8页
为实现图像文本检索中图像与文本的精确语义连接,提出一种基于特征增强和语义相关性匹配(FESCM)的图像文本检索方法。首先,通过特征增强表示模块,引入多头自注意力机制增强图像区域特征和文本单词特征,以减少冗余信息对图像区域和文本... 为实现图像文本检索中图像与文本的精确语义连接,提出一种基于特征增强和语义相关性匹配(FESCM)的图像文本检索方法。首先,通过特征增强表示模块,引入多头自注意力机制增强图像区域特征和文本单词特征,以减少冗余信息对图像区域和文本单词对齐的干扰;其次,通过语义相关性匹配模块,不仅利用局部匹配捕获局部显著对象之间的对应相关性,还把图像背景信息融入图像全局特征,利用全局匹配实现精确的全局语义相关性;最后,通过局部匹配分数和全局匹配分数获取图像和文本的最终匹配分数。实验结果表明,基于FESCM的图像文本检索方法在Flickr8k和Flickr30k基准数据集上的召回率总值比扩展的视觉语义嵌入方法分别提升了5.7和7.5个百分点,在MS-COCO数据集比双流层次相似度推理方法提升了3.7个百分点。因此该方法可以有效提高图像文本检索的准确度,实现图像与文本的语义连接。 展开更多
关键词 图像文本检索 特征增强表示 多头自注意力机制 语义相关性匹配
在线阅读 下载PDF
基于模态内细粒度特征关系提取的图像文本检索模型
3
作者 吴祖成 吴小俊 徐天阳 《计算机应用》 CSCD 北大核心 2024年第12期3776-3783,共8页
针对跨模态检索任务中关系具有多样性,以及基于外观的传统范式无法准确反映图像中显著物体间的关联,使得它在复杂场景中的应用效果不佳的问题,提出一种基于模态内细粒度特征关系提取的图像-文本检索模型。首先,为了获得更直观的位置信息... 针对跨模态检索任务中关系具有多样性,以及基于外观的传统范式无法准确反映图像中显著物体间的关联,使得它在复杂场景中的应用效果不佳的问题,提出一种基于模态内细粒度特征关系提取的图像-文本检索模型。首先,为了获得更直观的位置信息,将图像划分为网格,并通过物体与网格的位置关系建立位置表征;其次,为了在关系建模阶段保持节点信息的稳定性和独立性,使用一个跨模态信息指导的特征融合模块;最后,提出一种自适应三元组损失用于动态平衡正负样本的训练权重。实验结果表明,所提模型在Flickr30K和MS-COCO 1K数据集上与模型CHAN(Cross-modal Hard Aligning Network)相比,在R@sum指标(前1,5,10个图像检索文本和文本检索图像的召回率之和)上分别提升了1.5%和0.02%,以上结果验证了所提模型在检索的召回率上的有效性。 展开更多
关键词 跨模态检索 图像文本检索 关系提取 图卷积网络 三元组损失
在线阅读 下载PDF
大模型增强的跨模态图文检索方法
4
作者 罗文培 黄德根 《小型微型计算机系统》 北大核心 2025年第7期1544-1553,共10页
在跨模态图像-文本检索(ITR)任务中,基于transformer的跨模态预训练范式是现在的主流.预训练方法通常为预训练模型收集大规模的数据以提升模型在各种下游跨模态任务中的表现.为此,提出了一种数据增广方法以生成大量多样化高质量的文本-... 在跨模态图像-文本检索(ITR)任务中,基于transformer的跨模态预训练范式是现在的主流.预训练方法通常为预训练模型收集大规模的数据以提升模型在各种下游跨模态任务中的表现.为此,提出了一种数据增广方法以生成大量多样化高质量的文本-图像数据作为预训练数据;其次,提出了一种两阶段训练方法,结合了知识蒸馏和对比学习,在该文产出的数据集上进行训练,从而进一步提升模型性能.提出的模型在包括COCO-CN和Flickr30K-CN在内的中文文本-图像检索数据集上取得了SOTA. 展开更多
关键词 图像-文本检索 预训练 知识蒸馏 对比学习
在线阅读 下载PDF
基于迁移知识的跨模态双重哈希 被引量:1
5
作者 钟建奇 林秋斌 曹文明 《电子学报》 北大核心 2025年第1期209-220,共12页
随着社交网络的普及和多媒体数据的急剧增长,有效的跨模态检索引起了人们越来越多的关注.由于哈希有效的检索效率和低存储成本,其被广泛用于跨模态检索任务中.然而,这些基于深度学习的跨模态哈希检索方法大多数是利用图像网络和文本网... 随着社交网络的普及和多媒体数据的急剧增长,有效的跨模态检索引起了人们越来越多的关注.由于哈希有效的检索效率和低存储成本,其被广泛用于跨模态检索任务中.然而,这些基于深度学习的跨模态哈希检索方法大多数是利用图像网络和文本网络各自生成对应模态的哈希码,难以获得更加有效的哈希码,无法进一步减小不同模态数据之间的模态鸿沟.为了更好地提高跨模态哈希检索的性能,本文提出了一种基于迁移知识的跨模态双重哈希(Cross-modal Dual Hashing based on Transfer Knowledge,CDHTK).CDHTK通过结合图像网络、知识迁移网络以及文本网络进行跨模态哈希检索任务.对于图像模态,CDHTK融合图像网络和知识迁移网络各自生成的哈希码,进而生成具有判别性的图像哈希码;对于文本模态,CDHTK融合文本网络和知识迁移网络各自生成的哈希码,从而生成有效的文本哈希码.CDHTK通过采用预测标签的交叉熵损失、生成哈希码的联合三元组量化损失以及迁移知识的差分损失来共同优化哈希码的生成过程,从而提高模型的检索效果,在2个常用的数据集(IAPR TC-12,MIR-Flickr 25K)上进行的实验验证了CDHTK的有效性,比当前最先进的跨模态哈希方法(Adaptive Label correlation based asymm Etric Cross-modal Hashing,ALECH)分别高出6.82%和5.13%. 展开更多
关键词 跨模态 图像-文本检索 双重哈希 迁移知识
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部