期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
基于哈希的图文跨模态检索综述
1
作者 蒋琴 钞路 《长江信息通信》 2025年第1期134-137,145,共5页
互联网的高速发展,不同模态的数据(图像、视频、文本等)日益增长,使得大数据环境下实现跨模态检索成为了研究热点。哈希方法是一种面向大规模数据的检索手段,利用二值的表示方法使其具备存储小检索快的固有优势。由于深度学习对图像具... 互联网的高速发展,不同模态的数据(图像、视频、文本等)日益增长,使得大数据环境下实现跨模态检索成为了研究热点。哈希方法是一种面向大规模数据的检索手段,利用二值的表示方法使其具备存储小检索快的固有优势。由于深度学习对图像具备强大的特征学习能力并且端对端的优势,使得二者的高效结合成为了近年来解决大量多媒体数据检索的利器。为此,文章将跨模态哈希方法分为浅层模型和深层模型两大类,简要分析浅层模型的特点,以深度学习新技术为主线,总结基于卷积神经网络和生成对抗网络,根据高级语义信息的提取和模态间相似性的保持展开研究。同时介绍了评估指标,比对分析不同算法的创新内容和优势。最后,对基于深层模型的跨模态哈希方法的未来发展方向进行讨论展望。 展开更多
关键词 跨模态检索 图文检索 模态哈希 深度学习
在线阅读 下载PDF
实值无标签图文跨模态检索研究综述 被引量:1
2
作者 张力 陈康 孙光辉 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第9期1-16,共16页
为研究面向无标签数据集基于实值特征的图像文本跨模态检索(以下简称跨模态检索)方法的发展现状和亟待解决的关键问题,对目前该领域的文献进行了分析与总结。跨模态检索是根据给定的一种模态查询,从另一种模态中检索出与查询相关的样本... 为研究面向无标签数据集基于实值特征的图像文本跨模态检索(以下简称跨模态检索)方法的发展现状和亟待解决的关键问题,对目前该领域的文献进行了分析与总结。跨模态检索是根据给定的一种模态查询,从另一种模态中检索出与查询相关的样本。首先,引入基于时间复杂度分类法,将现有跨模态检索方法分为基于特征方法和基于分数方法;其次,分别对以上两类方法的研究现状进行叙述,并针对两类方法现阶段存在的主要问题进行分析和讨论;然后,引入跨模态检索的两个主流数据集和常用评价指标,分别对两类方法在公开数据集上的性能进行比较与分析;最后,总结了跨模态检索领域亟待解决的关键问题。研究表明,现有跨模态检索方法尽管已经取得了显著进展,但仍有一些关键问题亟待解决,这些关键问题是未来跨模态检索领域的重要发展方向。 展开更多
关键词 图像文本跨模态检索 模态学习 实值特征 基于特征方法 基于分数方法
在线阅读 下载PDF
图文跨模态检索的联合特征方法
3
作者 高迪辉 盛立杰 +1 位作者 许小冬 苗启广 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第4期128-138,共11页
随着深度学习的快速发展,图文跨模态检索性能有了显著提升。然而现有方法仅利用全局信息对图像文本整体匹配或仅利用局部信息匹配,对图文信息的利用存在局限性,检索性能有待进一步提升。为了充分挖掘图像与文本语义的潜在联系,提出了一... 随着深度学习的快速发展,图文跨模态检索性能有了显著提升。然而现有方法仅利用全局信息对图像文本整体匹配或仅利用局部信息匹配,对图文信息的利用存在局限性,检索性能有待进一步提升。为了充分挖掘图像与文本语义的潜在联系,提出了一种基于联合特征的跨模态检索模型,其特征提取部分由两级网络分别处理图像与文本的局部特征和全局特征。并且在全局特征优化的过程中,设计了基于注意力机制的双线性层结构来过滤冗余信息,减小与局部特征的精细度差距。同时为实现两类特征联合优化,在损失函数部分使用三元组排名损失获取不同模态间的联系,并引入语义标签分类损失保持全局语义一致性。所提出的模型具有广泛的通用性,可以有效提升仅基于局部信息模型的性能。在公开数据集Flickr30k和MS COCO上一系列的实验结果表明,提出的模型有效地提升了跨模态图文检索任务的性能,在Flickr30k数据集检索任务中提出的模型在文本检索的R@1指标上提高了约5.1%,在图像检索的R@1指标上提高了约2.8%。 展开更多
关键词 跨模态检索 深度学习 自注意力网络 图像检索
在线阅读 下载PDF
基于注意力网络融合的图像文本跨模态检索算法
4
作者 张志亮 《电视技术》 2024年第11期78-81,共4页
在计算机和人工智能领域,图像文本跨模态检索受到广泛的关注。然而,当前的图像文本跨模态检索方法往往仅粗略地融合图像文本特征信息,导致所学习的特征信息质量不高。对此,设计融合注意力网络计算的图像文本跨模态检索算法。通过训练该... 在计算机和人工智能领域,图像文本跨模态检索受到广泛的关注。然而,当前的图像文本跨模态检索方法往往仅粗略地融合图像文本特征信息,导致所学习的特征信息质量不高。对此,设计融合注意力网络计算的图像文本跨模态检索算法。通过训练该模型,能够挑选出最优的参数,能够有效融合图像文本特征信息,进而学习出信息更丰富的图像文本特征,使得图像和文本的对齐特征更加精准。 展开更多
关键词 跨模态检索 图像文本特征 融合注意力网络 模型参数
在线阅读 下载PDF
浅析媒体素材的智能标签与跨模态检索技术和应用
5
作者 江淅蕾 《现代电视技术》 2024年第8期79-83,共5页
本文介绍了媒体素材的智能标签技术和跨模态检索技术,阐述了智能标签技术在实际内容生产中的应用场景及其优势。它不仅在传统标签化编目方面大幅提升效率、节约成本,也通过跨模态检索为媒体素材的再利用提供了更简便、更准确、更高效率... 本文介绍了媒体素材的智能标签技术和跨模态检索技术,阐述了智能标签技术在实际内容生产中的应用场景及其优势。它不仅在传统标签化编目方面大幅提升效率、节约成本,也通过跨模态检索为媒体素材的再利用提供了更简便、更准确、更高效率的技术手段,从而提高内容生产的效率和存量媒体素材的利用率。 展开更多
关键词 智能标签 跨模态检索 媒体素材 编目
在线阅读 下载PDF
在跨模态检索技术加持下推动广电数据安全
6
作者 张晅 《影视制作》 2024年第7期78-81,共4页
随着我国《数据安全法》《个人信息保护法》的出台落地,各个行业都在推动数据安全的不断完善与深入,本文主要介绍了广电行业数据安全和跨模态检索技术的现状,以及通过引入跨模态检索技术实现广电音视频数据分类分级、版权保护、内容审... 随着我国《数据安全法》《个人信息保护法》的出台落地,各个行业都在推动数据安全的不断完善与深入,本文主要介绍了广电行业数据安全和跨模态检索技术的现状,以及通过引入跨模态检索技术实现广电音视频数据分类分级、版权保护、内容审核等一系列数据安全应用,期望跨模态检索技术成为推动广电数据安全的一条可行之路。 展开更多
关键词 跨模态检索 广电数据安全 音视频数据分类分级
在线阅读 下载PDF
基于哈希方法的跨模态检索研究进展 被引量:4
7
作者 樊花 陈华辉 《数据通信》 2018年第3期39-45,共7页
目前大规模数据集的近邻检索引起广泛关注。早期的近邻检索多为同构数据的检索,如以图像检索图像,文本检索文本。但是随着多媒体的发展,信息表达的多样性,数据跨模态检索成为当前研究热点。跨模态检索指在文档有多种模态描述时可从一个... 目前大规模数据集的近邻检索引起广泛关注。早期的近邻检索多为同构数据的检索,如以图像检索图像,文本检索文本。但是随着多媒体的发展,信息表达的多样性,数据跨模态检索成为当前研究热点。跨模态检索指在文档有多种模态描述时可从一个模态检索到另一个模态,如以文本检索图像,以图像检索文本等。由于哈希方法的存储开销低和快速有效的特征,广泛应用在跨模态检索中。本文从有监督、无监督和半监督三方面介绍了主要的基于哈希跨模态检索方法,分析了其优缺点,并进行了实验比较。 展开更多
关键词 跨模态检索 哈希学习 监督式 无监督 半监督
在线阅读 下载PDF
图像情景文本融合的多模态模型性能策略研究——以跨模态检索为例 被引量:1
8
作者 张知奇 袁鑫攀 曾志高 《现代信息科技》 2023年第9期166-168,172,共4页
针对多模态模型中基于视觉区域特征提取方法表征能力有限的问题,文章提出了一种基于图像情景文本融合的多模态特征提取方法,并构建了图像情景文本融合的视觉语言多模态网络模型,简称OCR-ViLT,通过引入预训练加微调的迁移学习方案,降低... 针对多模态模型中基于视觉区域特征提取方法表征能力有限的问题,文章提出了一种基于图像情景文本融合的多模态特征提取方法,并构建了图像情景文本融合的视觉语言多模态网络模型,简称OCR-ViLT,通过引入预训练加微调的迁移学习方案,降低模型训练成本。并经过大量实验探究模型的输入策略,文章建议,在跨模态检索任务中,采取图文比例2:3能够获得最优的召回率。 展开更多
关键词 模态 跨模态检索 迁移学习 OCR
在线阅读 下载PDF
基于深度监督学习的零样本跨模态检索方法 被引量:1
9
作者 曾素佳 庞善民 郝问裕 《西安交通大学学报》 EI CAS CSCD 北大核心 2022年第11期156-166,共11页
针对当前零样本跨模态检索的研究中未兼顾类别匹配和对应匹配的问题,提出一种基于深度监督学习的零样本跨模态检索方法。对3种类型的图文数据对进行了区分,分别是来自同一类别并且匹配的数据对,来自同一类别但不匹配的数据对,以及来自... 针对当前零样本跨模态检索的研究中未兼顾类别匹配和对应匹配的问题,提出一种基于深度监督学习的零样本跨模态检索方法。对3种类型的图文数据对进行了区分,分别是来自同一类别并且匹配的数据对,来自同一类别但不匹配的数据对,以及来自不同类别的数据对;在保持图文类别匹配关系的条件下,为了进一步实现两者的对应匹配,构造了两种基于掩码的匹配约束条件,一种是隐藏同一类别但不匹配的另一模态数据,约束不同类别的图文数据之间的匹配关系,另一种是隐藏其他类别的另一模态数据,约束同一类别内的图文数据之间的对应匹配关系;通过对齐视觉空间和语义空间中对应特征的分布结构,再次约束图文间的类别匹配和对应匹配关系;为了增强文本语义的表征能力,以注意力池化从词序列特征中获得语义显著的句子深度表征。实验结果表明,在CUB数据集上,所提方法对图像检索文本和文本检索图像的效果相较基线模型分别提升了5.9%和2.2%;在FLO数据集上的检索效果分别比现阶段表现最佳的方法高4.2%和1.7%。 展开更多
关键词 零样本 跨模态检索 匹配 注意力
在线阅读 下载PDF
基于自注意力和类监督的遥感图像跨模态检索 被引量:1
10
作者 何柳 刘姝妍 +2 位作者 李润岐 陶剑 安然 《火力与指挥控制》 CSCD 北大核心 2023年第10期84-92,101,共10页
针对智能化联合作战场景中,情报分析人员对海量无标签遥感图像进行信息检索时面临的大数据问题,提出适用于遥感图像的文本-视觉跨模态检索技术框架,并对其中核心的跨模态检索模型进行针对性改进,构建一种基于自注意力模块和类监督约束... 针对智能化联合作战场景中,情报分析人员对海量无标签遥感图像进行信息检索时面临的大数据问题,提出适用于遥感图像的文本-视觉跨模态检索技术框架,并对其中核心的跨模态检索模型进行针对性改进,构建一种基于自注意力模块和类监督约束联合训练的深度学习模型。通过引入类监督指导的全局-局部视觉特征提取模块、主导语义掩码建模的文本特征提取模块,以及融合文本-视觉语义信息的交叉提取模块,提升检索效果,实现在无图像描述标签情况下的文本-视觉跨模态语义检索。公开数据集上与相关算法的对比实验,证明该方案的先进性与可行性。 展开更多
关键词 情报分析 遥感图像 跨模态检索 深度学习 自注意力
在线阅读 下载PDF
基于Transformer融合的遥感图像文本跨模态检索方法 被引量:2
11
作者 吴媛媛 夏沭涛 孙炜玮 《舰船电子工程》 2023年第8期64-70,共7页
论文提出了一种基于Transformer融合的遥感图像文本跨模态检索方法,模型采用包含自注意力模块的单模态编码器获取各模态的特征表示,再经基于交叉注意力的跨模态融合模块使得不同模态信息相交互,并通过对比损失充分挖掘遥感图像和文本表... 论文提出了一种基于Transformer融合的遥感图像文本跨模态检索方法,模型采用包含自注意力模块的单模态编码器获取各模态的特征表示,再经基于交叉注意力的跨模态融合模块使得不同模态信息相交互,并通过对比损失充分挖掘遥感图像和文本表示之间的潜在语义关系,进一步提高了遥感图像跨模态检索性能,在多个公开数据集上进行了实验验证,结果表明所提方法能够较准确地实现这两种模态信息之间的相互检索,验证了所提方法的有效性。 展开更多
关键词 跨模态检索 遥感图像 TRANSFORMER 注意力机制
在线阅读 下载PDF
单向句法依存关系指导下的跨模态检索
12
作者 张知奇 袁鑫攀 曾志高 《现代信息科技》 2023年第10期74-79,共6页
大多数现有的跨模态检索方法仅使用每个模态内的模态内关系或图像区域和文本词之间的模态间关系。文章中提出了一种基于自然语言的句法依存关系的视觉语言模型,称为Dep-ViLT。通过句法依存分析,构建句法依存树,利用单向的句法依存关系... 大多数现有的跨模态检索方法仅使用每个模态内的模态内关系或图像区域和文本词之间的模态间关系。文章中提出了一种基于自然语言的句法依存关系的视觉语言模型,称为Dep-ViLT。通过句法依存分析,构建句法依存树,利用单向的句法依存关系增强核心语义的特征表达,促进语言模态与视觉模态的特征交互。实验表明,Dep-ViLT对比现有的SOTA模型召回率(R@K)平均提升了1.7%,最高提升2.2%。最重要的是,Dep-ViLT在具有复杂语法结构的长难句中依然表现良好。 展开更多
关键词 句法依存 跨模态检索 图卷积 TRANSFORMER
在线阅读 下载PDF
跨模态检索中的相似性漂移问题
13
作者 郑奇斌 刁兴春 +3 位作者 王彦臻 曹建军 刘艺 秦伟 《国防科技大学学报》 EI CAS CSCD 北大核心 2021年第5期99-106,共8页
为了降低“相似性漂移”问题的影响,提出一种基于“邻域传播”的匹配策略,将待查询项的模态内近邻映射到目标空间中,并将它们在目标空间中的最近邻作为查询项的跨模态近邻。基于邻域传播的匹配策略在不改变跨模态映射函数的条件下,可以... 为了降低“相似性漂移”问题的影响,提出一种基于“邻域传播”的匹配策略,将待查询项的模态内近邻映射到目标空间中,并将它们在目标空间中的最近邻作为查询项的跨模态近邻。基于邻域传播的匹配策略在不改变跨模态映射函数的条件下,可以有效地降低“相似性漂移”带来的误匹配现象。理论和实验分析证明,跨模态映射函数的“相似性漂移”问题广泛存在,而基于“邻域传播”的匹配策略可以有效降低其影响,提高匹配的准确率。 展开更多
关键词 跨模态检索 相似性漂移 邻域传播 深度神经网络
在线阅读 下载PDF
广电内容管理中视音频AI跨模态检索技术的应用研究
14
作者 吴石松 徐少勇 《电声技术》 2023年第4期14-16,共3页
广电内容管理始终是当前广电机构工作的重要内容之一,其管理质量将直接影响广电机构的服务性能和发展质量。为切实提升广电内容管理服务性能,满足用户快速检索需求,推动广电机构的现代化发展,对视音频人工智能(Artificial Intelligence,... 广电内容管理始终是当前广电机构工作的重要内容之一,其管理质量将直接影响广电机构的服务性能和发展质量。为切实提升广电内容管理服务性能,满足用户快速检索需求,推动广电机构的现代化发展,对视音频人工智能(Artificial Intelligence,AI)跨模态检索技术在广电内容管理中的应用进行研究,以案例分析的形式对论点加以论证,以供参考与借鉴。 展开更多
关键词 广电内容管理 视音频人工智能(AI)跨模态检索 模态数据
在线阅读 下载PDF
基于多尺度特征增强与对齐的跨模态行人检索
15
作者 徐领 缪翌 张卫锋 《现代电子技术》 北大核心 2024年第22期44-50,共7页
为了解决跨模态行人检索从图像和文本中抽取有效的细节特征,以及实现图像与自然语言文本跨模态对齐的问题,提出一种基于多尺度特征增强与对齐的跨模态行人检索模型。该模型引入多模态预训练模型,并构建文本引导的图像掩码建模辅助任务,... 为了解决跨模态行人检索从图像和文本中抽取有效的细节特征,以及实现图像与自然语言文本跨模态对齐的问题,提出一种基于多尺度特征增强与对齐的跨模态行人检索模型。该模型引入多模态预训练模型,并构建文本引导的图像掩码建模辅助任务,充分实现跨模态交互,从而无需显式地标注信息即可增强模型学习图像局部细节特征的能力。另外,针对行人图像身份易混淆问题,设计全局图像特征匹配辅助任务,引导模型学习身份关注的视觉特征。在CUHK-PEDES、ICFG-PEDES和RSTPReid等多个公开数据集上的实验结果表明,所提模型超越了目前已有的主流模型,其第一命中率分别达到了72.47%、62.71%和59.25%,实现了高准确率的跨模态行人检索。 展开更多
关键词 模态行人检索 多尺度特征增强 模态对齐 CLIP 图像掩码 模态交互 交叉注意力
在线阅读 下载PDF
基于注意力双分支网络的跨模态足迹检索 被引量:5
16
作者 鲍文霞 茅丽丽 +3 位作者 王年 杨先军 刘晋 瞿金杰 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第5期914-922,共9页
为了提高跨模态足迹检索精度,提出一种基于注意力双分支深度卷积神经网络的检索方法.该方法以赤足足迹的光学和压力2个模态图像为研究对象,采集并构建了一个包含138人5520幅足迹图像的跨模态检索数据集;在网络的特征提取模块采用ResNet5... 为了提高跨模态足迹检索精度,提出一种基于注意力双分支深度卷积神经网络的检索方法.该方法以赤足足迹的光学和压力2个模态图像为研究对象,采集并构建了一个包含138人5520幅足迹图像的跨模态检索数据集;在网络的特征提取模块采用ResNet50作为基础网络搭建双分支结构,并引入空间注意力机制,以提取各模态具有辨别性的特征;在网络的特征嵌入模块,通过部分参数共享学习跨模态共享空间;在双约束损失模块采用交叉熵损失(ID loss)和异质中心损失(HC loss)以增大跨模态足迹特征的类间差异,减小类内差异.实验结果表明:互检索模式下的平均精度均值(mAP)均值和Rank1均值分别为70.83%和87.50%,优于其他一些跨模态检索方法.采用注意力双分支网络模型能够有效进行跨模态足迹检索,可以为现场足迹对比鉴定等应用提供理论基础. 展开更多
关键词 足迹图像 跨模态检索 双分支网络 空间注意力机制
在线阅读 下载PDF
一种顾及空间语义的跨模态遥感影像检索技术
17
作者 金澄 弋步荣 +4 位作者 曾志昊 刘扬 陈旭 赵裴 康栋 《中国电子科学研究院学报》 北大核心 2023年第4期328-335,385,共9页
随着遥感影像获取的场景和目标内容日益丰富,传统的基于关键字和属性字段的检索手段无法反映对于影像内容的语义检索,导致用户无法从大规模影像中获取满足需求语义的数据。OpenAI发布的语言-图像预训练对比模型(CLIP),为跨模态开放要素... 随着遥感影像获取的场景和目标内容日益丰富,传统的基于关键字和属性字段的检索手段无法反映对于影像内容的语义检索,导致用户无法从大规模影像中获取满足需求语义的数据。OpenAI发布的语言-图像预训练对比模型(CLIP),为跨模态开放要素检索提供了重要的模型支撑,但其在顾及空间语义关系等复杂跨模态检索任务上能力不足。本文提出了一种顾及空间语义关系的跨模态遥感影像检索技术,基于CLIP构建跨模态遥感影像检索模型GEOCLIP,通过对比学习方法训练,习得富含空间语义与开放信息的双模态语义对齐公共表示空间,特别针对遥感影像跨模态空间语义检索问题,引入遥感影像和文本表达中的空间关系提取,实现融合空间语义的跨模态检索。本文提出的顾及空间语义的跨模态遥感影像检索技术,在RSICD Dataset数据集上进行了验证,其R@1,R@5,R@10和mR指标均达到目前最优,其中平均召回率mR相较于CLIP提升了3.45%,相较于已公开发表的最优方法GaLR提升了77.22%。GEOCLIP在各种空间查询上的平均召回率mR全部优于CLIP,其中针对at、near、around的空间查询提升效果最大,分别为3.72%、8.85%、7.11%。 展开更多
关键词 对比语言-图像预训练 跨模态检索 遥感影像 空间语义
在线阅读 下载PDF
基于度量学习的跨模态人脸检索算法
18
作者 沃焱 梁籍云 韩国强 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第6期1-9,共9页
现有基于度量学习的跨模态检索算法用于跨模态人脸检索任务时缺乏对视角差异和域差异的关注,并且在度量学习过程中缺乏对全局信息的学习,构建了大量的冗余三元组。为此,文中提出了一种基于度量学习的跨模态共同表达生成算法,采用偏航角... 现有基于度量学习的跨模态检索算法用于跨模态人脸检索任务时缺乏对视角差异和域差异的关注,并且在度量学习过程中缺乏对全局信息的学习,构建了大量的冗余三元组。为此,文中提出了一种基于度量学习的跨模态共同表达生成算法,采用偏航角等变模块补偿偏航角差异以获取具有鲁棒性的图像特征,使用多层注意力机制获取具有可分性的视频特征;使用全局三元组和局部三元组共同训练跨模态共同表达生成网络,以提升度量学习的一致性和准确性,同时通过半困难三元组筛选来加速损失函数的收敛;提出了结合域校准和迁移学习的域适应算法,以提升共同表达的泛化性。在PB、YTC和UMD人脸视频数据集上的实验结果表明,文中算法有效地提升了跨模态人脸检索的准确性,通过少数样本微调跨模态共同表达生成网络,可有效提升目标域图像跨模态检索的准确性。 展开更多
关键词 度量学习 跨模态检索 注意力机制 深度学习
在线阅读 下载PDF
自注意力相似度迁移跨模态哈希网络
19
作者 梁焕 王海荣 王栋 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期615-622,共8页
为进一步提升跨模态检索性能,提出自注意力相似度迁移跨模态哈希网络模型。设计了一种通道空间混合自注意力机制强化关注图像的关键信息,并使用共同注意力方法加强模态信息交互,提高特征学习质量;为在哈希空间重构相似关系,采用迁移学... 为进一步提升跨模态检索性能,提出自注意力相似度迁移跨模态哈希网络模型。设计了一种通道空间混合自注意力机制强化关注图像的关键信息,并使用共同注意力方法加强模态信息交互,提高特征学习质量;为在哈希空间重构相似关系,采用迁移学习的方法利用实值空间相似度引导哈希码的生成。在3个常用的数据集MIRFLICKR-25K、IAPR TC-12和MSCOCO上与深度跨模态哈希(DCMH)、成对关系引导的深度哈希(PRDH)、跨模态汉明哈希(CMHH)等优秀方法进行对比实验,结果显示哈希码长度为64 bit的条件下,所提模型在3个数据集图像检索文本任务的平均精确度均值(MAP)达到72.3%,文本检索图像任务的MAP达到70%,高于对比方法。 展开更多
关键词 跨模态检索 哈希学习 注意力机制 迁移学习 无监督学习
在线阅读 下载PDF
用于跨模态舰船图像检索的判别性对抗哈希变换器 被引量:2
20
作者 关欣 国佳恩 卢雨 《电子与信息学报》 EI CSCD 北大核心 2023年第12期4411-4420,共10页
针对当前主流的基于卷积神经网络(CNN)范式的跨模态图像检索算法无法有效提取舰船图像细节特征,以及跨模态“异构鸿沟”难以消除等问题,该文提出一种基于对抗机制的判别性哈希变换器(DAHT)用于舰船图像的跨模态快速检索。该网络采用双... 针对当前主流的基于卷积神经网络(CNN)范式的跨模态图像检索算法无法有效提取舰船图像细节特征,以及跨模态“异构鸿沟”难以消除等问题,该文提出一种基于对抗机制的判别性哈希变换器(DAHT)用于舰船图像的跨模态快速检索。该网络采用双流视觉变换器(ViT)结构,依托ViT的自注意力机制进行舰船图像的判别性特征提取,并设计了Hash Token结构用于哈希生成;为了消除同类别图像的跨模态差异,整个检索框架以一种对抗的方式进行训练,通过对生成哈希码进行模态辨别实现模态混淆;同时设计了一种基于反馈机制的跨模加权5元组损失(NW-DCQL)以保持网络对不同类别图像的语义区分性。在两组数据集上开展的4类跨模态检索实验中,该文方法相比次优检索结果分别取得了9.8%,5.2%,19.7%,21.6%的性能提升(32 bit),在单模态检索任务中亦具备一定的性能优势。 展开更多
关键词 跨模态检索 舰船图像 对抗训练 哈希变换 变换器
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部