期刊文献+
共找到118篇文章
< 1 2 6 >
每页显示 20 50 100
基于MFF-SFE的遥感图文跨模态检索方法 被引量:1
1
作者 钟金彦 陈俊 +2 位作者 李宇 吴业炜 葛小青 《中国科学院大学学报(中英文)》 北大核心 2025年第2期236-247,共12页
遥感图文跨模态检索技术能够从海量的遥感数据中快速获取有价值的信息,但现有遥感图文检索方法对遥感图像中的多尺度信息利用不足、目标信息识别效果不佳,检索精度相对较低。为此,提出一种新的遥感图文跨模态检索方法。该方法主要包括... 遥感图文跨模态检索技术能够从海量的遥感数据中快速获取有价值的信息,但现有遥感图文检索方法对遥感图像中的多尺度信息利用不足、目标信息识别效果不佳,检索精度相对较低。为此,提出一种新的遥感图文跨模态检索方法。该方法主要包括一个多尺度特征融合模块和一个显著特征增强模块,分别用于融合遥感图像的多尺度信息、加强对遥感图像目标信息的表达能力,从而提高遥感图文跨模态检索精度。在2个公开的遥感图像文本数据集上进行实验验证,结果表明,在遥感图文跨模态检索任务中,该方法在大部分评价指标上都优于其他方法,具有最佳的总体检索性能。 展开更多
关键词 跨模态检索 遥感图像 深度学习 多尺度特征
在线阅读 下载PDF
基于信息互补与交叉注意力的跨模态检索方法
2
作者 王丹 张峰 +1 位作者 张辉 朱杰 《计算机应用研究》 北大核心 2025年第7期2032-2038,共7页
随着互联网中多模态数据的快速增长,跨模态检索技术受到了广泛关注。然而,现实中一些多模态数据存在语义信息缺失,导致模型难以准确提取出其中蕴涵的语义特征。此外,一些多模态数据还包含了与语义无关的冗余信息,干扰了模型对关键信息... 随着互联网中多模态数据的快速增长,跨模态检索技术受到了广泛关注。然而,现实中一些多模态数据存在语义信息缺失,导致模型难以准确提取出其中蕴涵的语义特征。此外,一些多模态数据还包含了与语义无关的冗余信息,干扰了模型对关键信息的提取。为此,提出了一种基于信息互补与交叉注意力(ICCA)的跨模态检索方法。该方法利用图卷积网络(GCN)建模多标签和数据之间的关系,以补充多模态数据中缺失的语义信息与多标签中缺失的样本细节信息。此外,交叉注意力子模块利用多标签信息,过滤掉数据中语义无关的冗余信息。为了使语义相似的图像和文本在公共表示空间中实现更好的匹配,还提出了一种语义匹配损失。此损失将多标签嵌入融入到图像和文本的匹配过程中,用于进一步增强公共表示的语义性。在NUS-WIDE、MIRFlickr-25K和MS-COCO这三个广泛使用的数据集上进行实验,实验结果表明,ICCA在这些数据集上的平均精度均值(mean average precision,mAP)分别为0.808、0.859和0.837,显著优于现有方法。 展开更多
关键词 信息互补 交叉注意力 图卷积网络 跨模态检索
在线阅读 下载PDF
典型概念驱动的模态缺失深度跨模态检索
3
作者 夏鑫雨 朱磊 +2 位作者 聂秀山 董国华 张化祥 《计算机辅助设计与图形学学报》 北大核心 2025年第3期519-532,共14页
跨模态检索使用一种模态的数据作为查询条件,在另一种模态中检索语义相关的数据.绝大多数的跨模态检索方法仅适用于模态完备条件下的跨模态检索场景,它们对缺失模态数据的处理能力仍有待提升,为此,提出一种典型概念驱动的模态缺失深度... 跨模态检索使用一种模态的数据作为查询条件,在另一种模态中检索语义相关的数据.绝大多数的跨模态检索方法仅适用于模态完备条件下的跨模态检索场景,它们对缺失模态数据的处理能力仍有待提升,为此,提出一种典型概念驱动的模态缺失深度跨模态检索模型.首先提出一个融合多模态预训练网络的多模态Transformer模型,能在模态缺失的情况下充分地进行多模态细粒度语义交互,提取多模态融合语义并构造跨模态子空间,同时引导学习生成多模态典型概念;然后使用典型概念作为跨注意力的键和值来驱动模态映射网络的训练,使模态映射网络可以自适应地感知查询模态数据中隐含的多模态语义概念,生成跨模态检索特征,充分地保留训练提取的多模态融合语义.在Wikipedia,Pascal-Sentence,NUS-WIDE和XmediaNet这4个基准跨模态检索数据集上的实验结果表明,所提模型比文中对比模型的平均准确率均值分别提高了1.7%,5.1%,1.6%和5.4%.该模型的源代码可在https://gitee.com/MrSummer123/CPCMR网站获得. 展开更多
关键词 深度跨模态检索 缺失模态 模态Transformer 典型概念 模态映射网络
在线阅读 下载PDF
特征融合的装修案例跨模态检索方法
4
作者 亢洁 刘威 《智能系统学报》 CSCD 北大核心 2024年第2期429-437,共9页
目前家装客服系统中主要依靠人工方式进行装修案例检索,导致该系统不能满足用户对咨询服务快捷、及时的需求而且人力成本高,故提出一种基于特征融合的装修案例跨模态检索算法。针对多模态数据的语义信息挖掘不充分,模型检索精度低等问题... 目前家装客服系统中主要依靠人工方式进行装修案例检索,导致该系统不能满足用户对咨询服务快捷、及时的需求而且人力成本高,故提出一种基于特征融合的装修案例跨模态检索算法。针对多模态数据的语义信息挖掘不充分,模型检索精度低等问题,对现有的风格聚合模块进行改进,在原始模块中引入通道注意力机制,以此来为每组装修案例中不同图片的特征向量添加合适的权重,从而增强包含更多有用信息的重要特征并削弱其他不重要的特征。同时,为充分利用多模态信息,设计一种适用于检索场景下的多模态特征融合模块,该模块能够自适应地控制2种不同模态的特征向量进行一系列的融合操作,以实现跨模态数据间的知识流动与共享,从而生成语义更丰富、表达能力更强的特征向量,进一步提升模型的检索性能。在自建的装修案例多模态数据集上将该方法与其他方法进行比较,试验结果表明本文方法在装修案例检索上具有更优越的性能。 展开更多
关键词 家装客服系统 装修案例检索 跨模态检索 风格聚合 模态 特征融合 通道注意力机制 语义信息
在线阅读 下载PDF
面向跨模态检索的查询感知双重对比学习网络 被引量:2
5
作者 尹梦冉 梁美玉 +3 位作者 于洋 曹晓雯 杜军平 薛哲 《软件学报》 EI CSCD 北大核心 2024年第5期2120-2132,共13页
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和... 近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,提出一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,提出一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法. 展开更多
关键词 模态语义融合 跨模态检索 视频时刻定位 对比学习
在线阅读 下载PDF
基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型 被引量:5
6
作者 林俊安 包翠竹 +2 位作者 董建锋 杨勋 王勋 《计算机学报》 EI CAS CSCD 北大核心 2024年第9期2195-2210,共16页
本文针对具有挑战性的多语言文本-视频跨模态检索问题进行研究.传统文本-视频跨模态检索模型通常针对单一语言进行设计,比如英语,模型仅支持某一特定语言的文本查询.如果有不同语言检索需求,则需另收集目标语言的训练数据并重新训练构... 本文针对具有挑战性的多语言文本-视频跨模态检索问题进行研究.传统文本-视频跨模态检索模型通常针对单一语言进行设计,比如英语,模型仅支持某一特定语言的文本查询.如果有不同语言检索需求,则需另收集目标语言的训练数据并重新训练构建新的检索模型,这使得模型很难快速有效地适用于其他语言的检索任务.近年来,针对多语言问题的研究逐渐深入,这为多语言跨模态检索的实现打下了良好的基石.为了解决多语言跨模态检索问题,本文提出了一种简单有效的基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型,将不同语言与视觉信息映射到同一公共空间.该空间以视频向量为锚点,分别与不同的语言向量进行对齐,以此实现多语言跨模态的学习,由此建立了统一的多语言学习框架,使用一个模型满足了多语言的检索需求并探究了不平行语料库、平行语料库、伪平行语料库三种训练场景下的模型性能.同时,在多语言建模中有效地利用了不同语言之间的互通性和互补性,弥补了单语言文本特征表达的不足;并在文本端与视频端引入了基于对比学习的抗噪音鲁棒性学习方法,进一步提升了不同模态特征的表示能力.在VATEX、MSR-VTT多语言数据集上实验的数据证明,本文模型不仅能够简单快速地适用于多种语言检索任务,模型性能也较为突出,在较为常见的伪平行场景下和最先进的方法相比,中文VATEX和MSR-VTT在总召回率上分别提升了约5.97%和1.37%. 展开更多
关键词 多语言 跨模态检索 模态特征表示 对比学习
在线阅读 下载PDF
图文跨模态检索的联合特征方法 被引量:1
7
作者 高迪辉 盛立杰 +1 位作者 许小冬 苗启广 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第4期128-138,共11页
随着深度学习的快速发展,图文跨模态检索性能有了显著提升。然而现有方法仅利用全局信息对图像文本整体匹配或仅利用局部信息匹配,对图文信息的利用存在局限性,检索性能有待进一步提升。为了充分挖掘图像与文本语义的潜在联系,提出了一... 随着深度学习的快速发展,图文跨模态检索性能有了显著提升。然而现有方法仅利用全局信息对图像文本整体匹配或仅利用局部信息匹配,对图文信息的利用存在局限性,检索性能有待进一步提升。为了充分挖掘图像与文本语义的潜在联系,提出了一种基于联合特征的跨模态检索模型,其特征提取部分由两级网络分别处理图像与文本的局部特征和全局特征。并且在全局特征优化的过程中,设计了基于注意力机制的双线性层结构来过滤冗余信息,减小与局部特征的精细度差距。同时为实现两类特征联合优化,在损失函数部分使用三元组排名损失获取不同模态间的联系,并引入语义标签分类损失保持全局语义一致性。所提出的模型具有广泛的通用性,可以有效提升仅基于局部信息模型的性能。在公开数据集Flickr30k和MS COCO上一系列的实验结果表明,提出的模型有效地提升了跨模态图文检索任务的性能,在Flickr30k数据集检索任务中提出的模型在文本检索的R@1指标上提高了约5.1%,在图像检索的R@1指标上提高了约2.8%。 展开更多
关键词 跨模态检索 深度学习 自注意力网络 图像检索
在线阅读 下载PDF
实值无标签图文跨模态检索研究综述 被引量:1
8
作者 张力 陈康 孙光辉 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第9期1-16,共16页
为研究面向无标签数据集基于实值特征的图像文本跨模态检索(以下简称跨模态检索)方法的发展现状和亟待解决的关键问题,对目前该领域的文献进行了分析与总结。跨模态检索是根据给定的一种模态查询,从另一种模态中检索出与查询相关的样本... 为研究面向无标签数据集基于实值特征的图像文本跨模态检索(以下简称跨模态检索)方法的发展现状和亟待解决的关键问题,对目前该领域的文献进行了分析与总结。跨模态检索是根据给定的一种模态查询,从另一种模态中检索出与查询相关的样本。首先,引入基于时间复杂度分类法,将现有跨模态检索方法分为基于特征方法和基于分数方法;其次,分别对以上两类方法的研究现状进行叙述,并针对两类方法现阶段存在的主要问题进行分析和讨论;然后,引入跨模态检索的两个主流数据集和常用评价指标,分别对两类方法在公开数据集上的性能进行比较与分析;最后,总结了跨模态检索领域亟待解决的关键问题。研究表明,现有跨模态检索方法尽管已经取得了显著进展,但仍有一些关键问题亟待解决,这些关键问题是未来跨模态检索领域的重要发展方向。 展开更多
关键词 图像文本跨模态检索 模态学习 实值特征 基于特征方法 基于分数方法
在线阅读 下载PDF
基于二重语义相关性图卷积网络的跨模态检索方法 被引量:4
9
作者 刘佳楠 范晶晶 +1 位作者 赵建光 朱杰 《计算机应用研究》 CSCD 北大核心 2024年第4期1239-1246,共8页
随着深度神经网络的不断发展,跨模态检索模型的构建也随之取得了长足的进步。以图卷积网络(GCN)为基础的跨模态检索方法可以较好地捕获数据的语义相关性,因此越来越受到人们的关注。但是,目前大部分研究多将标签之间和样本之间的相关性... 随着深度神经网络的不断发展,跨模态检索模型的构建也随之取得了长足的进步。以图卷积网络(GCN)为基础的跨模态检索方法可以较好地捕获数据的语义相关性,因此越来越受到人们的关注。但是,目前大部分研究多将标签之间和样本之间的相关性融入到跨模态表示当中,并没有考虑到标签集合之间的相关性对于跨模态检索模型性能的影响。在多标签场景下,标签集合之间的多标签相关性可以有效地描述对应样本之间的语义关系,因此充分发现多标签相关性并将其融入到跨模态表示中,对于提高跨模态检索模型的性能有着重要的意义。提出了一种基于二重语义相关性图卷积网络(dual semantic correlation graph convolutional networks,DSCGCN)的跨模态检索方法,该方法利用GCN自适应地发现标签之间和多标签之间的语义相关性,并将此二重语义相关性融入到样本公共表示中。此外,还提出了一种多标签相似性损失,用于使生成的样本公共表示相似性更接近于语义相似性。通过在NUS-WIDE、MIRFlickr-25K和MS-COCO三个数据集上的实验可以发现,由于引入了多标签语义相关性,DSCGCN可以获得令人满意的检索效果。 展开更多
关键词 语义相关性 自适应相关性矩阵 图卷积网络 跨模态检索
在线阅读 下载PDF
视频文本跨模态检索研究综述 被引量:4
10
作者 陈磊 习怡萌 刘立波 《计算机工程与应用》 CSCD 北大核心 2024年第4期1-20,共20页
模态代表着数据特定的存在形式,不同模态数据的快速增长,使得多模态学习受到广泛关注。跨模态检索作为多模态学习的一个重要分支,在图文方面已得到显著发展。然而视频相对于图像而言承载了更多模态的数据,也包含更广泛的信息,能够满足... 模态代表着数据特定的存在形式,不同模态数据的快速增长,使得多模态学习受到广泛关注。跨模态检索作为多模态学习的一个重要分支,在图文方面已得到显著发展。然而视频相对于图像而言承载了更多模态的数据,也包含更广泛的信息,能够满足用户对信息检索全面性、灵活性的要求,近年来逐渐成为跨模态检索的研究热点。为全面认识和理解视频文本跨模态检索及其前沿工作,对现有代表性方法进行了梳理和综述。首先归纳分析了当前基于深度学习的单向、双向视频文本跨模态检索方法,对每类方法中的经典工作进行了详细分析并阐述了优缺点。接着从实验的角度给出视频文本跨模态检索的基准数据集和评价指标,并在多个常用基准数据集上比较了一些典型方法的性能。最后讨论了视频文本跨模态检索的应用前景、待解决问题及未来研究挑战。 展开更多
关键词 模态 跨模态检索 深度学习 特征提取
在线阅读 下载PDF
融合改进图卷积的跨模态检索
11
作者 张宏图 化春键 +2 位作者 蒋毅 俞建峰 陈莹 《计算机工程与应用》 CSCD 北大核心 2024年第11期95-104,共10页
针对现有跨模态检索在公共子空间度量时难以充分挖掘模态内局部一致性的问题,提出了一种融合改进图卷积的跨模态检索方法。为了提升各模态内的局部一致性,以单个完整样本为节点构建模态图,充分挖掘特征间的交互信息;为了解决图卷积网络... 针对现有跨模态检索在公共子空间度量时难以充分挖掘模态内局部一致性的问题,提出了一种融合改进图卷积的跨模态检索方法。为了提升各模态内的局部一致性,以单个完整样本为节点构建模态图,充分挖掘特征间的交互信息;为了解决图卷积网络只能做浅层学习的问题,采用在每一层图卷积添加初始残差链接和权重恒等映射的方法来缓解此现象;为了通过高低阶邻居信息共同更新中心节点特征,提出减少邻居节点、增加图卷积网络层数的改进;为了学习高度局部一致且语义一致的公共表征,共享公共表征学习层权重,并联合优化公共子空间中模态内的语义约束和模态间的模态不变约束。实验结果表明,在Wikipedia和Pascal sentence这两个跨模态数据集上,不同检索任务的平均mAP值比11种现有方法分别提升了2.2%~42.1%和3.0%~54.0%。 展开更多
关键词 图卷积网络 跨模态检索 初始残差连接 恒等映射 邻接矩阵
在线阅读 下载PDF
深度双模态源域对称迁移学习的跨模态检索
12
作者 刘秋杰 万源 吴杰 《计算机应用》 CSCD 北大核心 2024年第1期24-31,共8页
基于深度网络的跨模态检索经常面临交叉训练数据不足的挑战,这限制了训练效果并容易导致过拟合。迁移学习在源域中训练数据的知识迁移学习到目标域中,能有效解决训练数据不足的问题。然而,现有的大部分迁移学习方法致力于将知识从单模态... 基于深度网络的跨模态检索经常面临交叉训练数据不足的挑战,这限制了训练效果并容易导致过拟合。迁移学习在源域中训练数据的知识迁移学习到目标域中,能有效解决训练数据不足的问题。然而,现有的大部分迁移学习方法致力于将知识从单模态(如图像)源域迁移到多模态(如图像和文本)目标域,而如果源域中已存在多种模态信息,这样的非对称迁移会忽略源域中包含的潜在的模态间语义信息;同时这些方法不能很好地提取源域与目标域中相同模态的相似性,进而减小域差异。因此,提出一种深度双模态源域对称迁移学习的跨模态检索(DBSTL)方法。该方法旨在实现从双模态源域到跨模态目标域的知识迁移,并获得跨模态数据的公共表示。DBSTL由模态对称迁移子网和语义一致性学习子网构成。模态对称迁移子网采用混合对称结构,在知识迁移过程中,使模态间信息具有更高的一致性,并能减小源域与目标域间的差异;而语义一致性学习子网中,所有模态共享相同的公共表示层,并在目标域的监督信息指导下保证跨模态语义的一致性。实验结果表明,在Pascal、NUS-WIDE-10k和Wikipedia数据集上,所提方法的平均精度均值(mAP)较对比方法得到的最好结果分别提升了大约8.4、0.4和1.2个百分点。DBSTL充分利用了双模态源域的潜在信息进行对称迁移学习,在监督信息的指导下保证了模态间语义的一致性,并提高了公共表示空间中图像文本分布的相似性。 展开更多
关键词 跨模态检索 迁移学习 模态源域 语义一致性
在线阅读 下载PDF
融合全模态自编码器和生成对抗机制的跨模态检索 被引量:5
13
作者 赵鹏 马泰宇 +1 位作者 李毅 刘慧婷 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2021年第10期1486-1494,共9页
针对现有基于生成对抗网络的跨模态检索方法不能充分挖掘模态间不变性的问题,提出一种融合全模态自编码器和生成对抗机制的跨模态检索方法.引入2个并行的全模态自编码器,将不同模态的样本嵌入公共空间,每个全模态自编码器不仅重构出自... 针对现有基于生成对抗网络的跨模态检索方法不能充分挖掘模态间不变性的问题,提出一种融合全模态自编码器和生成对抗机制的跨模态检索方法.引入2个并行的全模态自编码器,将不同模态的样本嵌入公共空间,每个全模态自编码器不仅重构出自身模态的特征表示,而且还重构出跨模态的特征表示.设计了一个分类器,预测公共空间中嵌入特征的类别,学习并保留样本中的语义判别性.设计了3个判别器,分别判断输入其中的特征所属的模态类别,它们协同工作,充分挖掘模态间的不变性.以平均精度均值为指标评价跨模态检索的精确度,在Pascal Sen-tence,Wikipedia和NUS-WIDE-10k这3个公开数据集上进行实验,实验结果表明,与10个包括传统方法和深度学习方法在内的跨模态检索的主流方法进行对比,所提方法在3个数据集上的平均精度均值分别至少提高了4.8%,1.4%和1.1%,证明了所提方法的有效性. 展开更多
关键词 模态自编码器 生成对抗网络 跨模态检索
在线阅读 下载PDF
基于表示学习的跨模态检索模型与特征抽取研究综述 被引量:21
14
作者 李志义 黄子风 许晓绵 《情报学报》 CSSCI CSCD 北大核心 2018年第4期422-435,共14页
以深度学习为代表的表示学习在语音识别、图像分析和自然语言处理领域获得了广泛关注与应用,它不仅推动了人工智能的深入研究和快速发展,而且促使企业思索新的运营与盈利模式。本文拟通过综述的形式对这些研究进行梳理,形成较为完整的... 以深度学习为代表的表示学习在语音识别、图像分析和自然语言处理领域获得了广泛关注与应用,它不仅推动了人工智能的深入研究和快速发展,而且促使企业思索新的运营与盈利模式。本文拟通过综述的形式对这些研究进行梳理,形成较为完整的综述。通过对国内外相关文献的调查和整理,从信息抽取与表示、跨模态系统建模两维度评述了基于表示学习的跨模态检索与特征抽取方面的研究成果。文章首先概括了自动编码器、稀疏编码、限制玻尔兹曼机、深度信念网络、卷积神经网络等五个经典的表示学习算法,然后从基于共享层建立各模态间的关联、表示空间中各模态间的关联、以深度学习为基础的跨模态建模算法等三方面归纳跨模态系统建模研究的现状,最后总结了跨模态检索的评价指标。研究发现:已有检索研究对于单模态信息检索较为丰富,查询和候选集的内容均属于同一模态;跨模态检索也仅限于对图像、文本两个模态对齐的语料。未来需要增加语音、视频、图像、文本等多模态数据的检索,改进深度学习算法构建多模态检索模型,实现三种或以上的跨模态检索。此外,尚需建立适合多模态检索系统的评价指标。 展开更多
关键词 表示学习 跨模态检索 特征抽取 模型 综述
在线阅读 下载PDF
面向装修案例智能匹配的跨模态检索方法 被引量:3
15
作者 亢洁 刘威 《智能系统学报》 CSCD 北大核心 2022年第4期714-720,共7页
根据用户输入的文本信息为其实时推送相应风格的装修案例是家装客服系统中的重要功能。然而,目前该功能的实现主要依赖于人工方式,不仅不能满足用户对咨询服务快捷、及时的需求,还增加了企业的人力成本。为此,提出了一种面向装修案例智... 根据用户输入的文本信息为其实时推送相应风格的装修案例是家装客服系统中的重要功能。然而,目前该功能的实现主要依赖于人工方式,不仅不能满足用户对咨询服务快捷、及时的需求,还增加了企业的人力成本。为此,提出了一种面向装修案例智能匹配的跨模态检索方法。针对现有算法难以直接建立文本与装修案例之间的对应关系这一问题,设计了一种风格聚合模块,可以获取一组装修案例统一的风格特征,从而便于后续网络建立文本与装修案例之间的潜在语义关联,实现两者间的跨模态匹配。同时,在关注图像模态中难易样本分类问题的基础上,构建了一种双重损失函数对模型进行训练。实验结果表明,本文提出的方法在装修案例多模态数据集上取得了较好的检索效果。 展开更多
关键词 文本信息 风格 装修案例 家装客服系统 智能匹配 跨模态检索 风格聚合 双重损失函数
在线阅读 下载PDF
标签与样本双语义增强的跨模态检索 被引量:3
16
作者 滕少华 黄文彪 +1 位作者 张巍 滕璐瑶 《江西师范大学学报(自然科学版)》 CAS 北大核心 2023年第3期296-306,共11页
针对目前大多数跨模态哈希检索方法无法捕获多标签信息和特征语义更深层的语义关系信息问题,该文提出了一种标签与样本双语义增强的跨模态检索框架.首先,该框架将不同模态的高维数据映射到低维共享特征语义空间中,进行样本语义学习;其次... 针对目前大多数跨模态哈希检索方法无法捕获多标签信息和特征语义更深层的语义关系信息问题,该文提出了一种标签与样本双语义增强的跨模态检索框架.首先,该框架将不同模态的高维数据映射到低维共享特征语义空间中,进行样本语义学习;其次,引入松弛变量到标签语义制约的哈希码学习函数中,通过最小化标签成对距离强化样本语义相似性哈希码学习,这样既保持了跨模态对应样本语义的关系,强化了哈希码的标签语义学习,又解决了实对称矩阵的求解及算法的收敛性问题;再次,进一步应用样本特征语义和标签语义增强哈希码的语义学习;最后,在3个常用的数据集上的实验结果表明该方法优于目前的方法. 展开更多
关键词 标签与样本双语义增强 跨模态检索 标签语义
在线阅读 下载PDF
跨模态检索研究进展综述 被引量:11
17
作者 冯霞 胡志毅 刘才华 《计算机科学》 CSCD 北大核心 2021年第8期13-23,共11页
随着互联网上多媒体数据的爆炸式增长,单一模态的检索已经无法满足用户需求,跨模态检索应运而生。跨模态检索旨在以一种模态的数据去检索另一种模态的相关数据,其核心任务是数据特征提取和不同模态间数据的相关性度量。文中梳理了跨模... 随着互联网上多媒体数据的爆炸式增长,单一模态的检索已经无法满足用户需求,跨模态检索应运而生。跨模态检索旨在以一种模态的数据去检索另一种模态的相关数据,其核心任务是数据特征提取和不同模态间数据的相关性度量。文中梳理了跨模态检索领域近期的研究进展,从传统方法、深度学习方法、手工特征的哈希编码方法以及深度学习的哈希编码方法等角度归纳论述了跨模态检索领域的研究成果。在此基础上,对比分析了各类算法在跨模态检索常用标准数据集上的性能。最后,分析了跨模态检索研究存在的问题,并对该领域未来发展趋势以及应用进行了展望。 展开更多
关键词 跨模态检索 深度学习 特征提取 相关性度量
在线阅读 下载PDF
基于文本引导对抗哈希的跨模态检索方法 被引量:2
18
作者 朱杰 《计算机应用研究》 CSCD 北大核心 2022年第2期628-632,共5页
随着深度学习方法的不断发展,跨模态哈希检索技术也取得了长足的进步。但是,目前的跨模态哈希检索方法通常基于两种假设:a)相似文本描述的图像内容也相似;b)相同类别的图像有着较好的全局相似性。但是,真实数据集中的数据往往不能满足... 随着深度学习方法的不断发展,跨模态哈希检索技术也取得了长足的进步。但是,目前的跨模态哈希检索方法通常基于两种假设:a)相似文本描述的图像内容也相似;b)相同类别的图像有着较好的全局相似性。但是,真实数据集中的数据往往不能满足以上两种假设,导致了跨模态哈希检索模型性能的降低。针对以上两个问题,提出了一种基于文本引导对抗哈希的跨模态检索方法(text-guided adversarial hashing for cross-modal retrieval,TAH),此方法在构建的网络结构基础上,将文本哈希码作为训练图像网络的基础,并将图像的局部特征与全局特征结合用于表示图像内容。此外,还针对性地提出了文本模态内全局一致性损失、模态间局部与全局一致性损失和分类对抗损失用于训练跨模态网络。实验证明,TAH可以在三个数据集中取得良好的检索性能。 展开更多
关键词 文本特征 图像局部与全局特征 跨模态检索 哈希码
在线阅读 下载PDF
公共空间共享参数的跨模态检索研究
19
作者 徐清振 肖彬 《华南师范大学学报(自然科学版)》 CAS 北大核心 2023年第1期88-93,共6页
针对跨模态检索中不同模态数据的数据结构和特性存在较大差异的问题,提出了基于公共空间方法的共享参数跨模态检索(SPCMR)方法:首先,利用卷积神经网络提取图像和文本的高级语义特征;然后,接入全连接层将其映射到公共空间并共享2个特征... 针对跨模态检索中不同模态数据的数据结构和特性存在较大差异的问题,提出了基于公共空间方法的共享参数跨模态检索(SPCMR)方法:首先,利用卷积神经网络提取图像和文本的高级语义特征;然后,接入全连接层将其映射到公共空间并共享2个特征子网的部分隐层权重;最后,连接线性分类器并与标签信息进行判别训练。在公开数据集上采用平均精度(mAP)作为评价指标进行实验。结果表明:SPCMR方法能充分利用跨模态间的语义信息,有效提升图文检索的精度。 展开更多
关键词 跨模态检索 公共空间 共享参数
在线阅读 下载PDF
面向跨模态检索的协同注意力网络模型 被引量:11
20
作者 邓一姣 张凤荔 +2 位作者 陈学勤 艾擎 余苏喆 《计算机科学》 CSCD 北大核心 2020年第4期54-59,共6页
随着图像、文本、声音、视频等多模态网络数据的急剧增长,人们对多样化的检索需求日益强烈,其中的跨模态检索受到广泛关注。然而,由于其存在异构性差异,在不同的数据模态之间寻找内容相似性仍然具有挑战性。现有方法大都将异构数据通过... 随着图像、文本、声音、视频等多模态网络数据的急剧增长,人们对多样化的检索需求日益强烈,其中的跨模态检索受到广泛关注。然而,由于其存在异构性差异,在不同的数据模态之间寻找内容相似性仍然具有挑战性。现有方法大都将异构数据通过映射矩阵或深度模型投射到公共子空间,来挖掘成对的关联关系,即图像和文本的全局信息对应关系,而忽略了数据内局部的上下文信息和数据间细粒度的交互信息,无法充分挖掘跨模态关联。为此,文中提出文本-图像协同注意力网络模型(CoAN),通过选择性地关注多模态数据的关键信息部分来增强内容相似性的度量。CoAN利用预训练的VGGNet模型和循环神经网络深层次地提取图像和文本的细粒度特征,利用文本-视觉注意力机制捕捉语言和视觉之间的细微交互作用;同时,该模型分别学习文本和图像的哈希表示,利用哈希方法的低存储特性和计算的高效性来提高检索速度。在实验得出,在两个广泛使用的跨模态数据集上,CoAN的平均准确率均值(mAP)超过所有对比方法,文本检索图像和图像检索文本的mAP值分别达到0.807和0.769。实验结果说明,CoAN有助于检测多模态数据的关键信息区域和数据间细粒度的交互信息,充分挖掘跨模态数据的内容相似性,提高检索精度。 展开更多
关键词 跨模态检索 协同注意力机制 细粒度特征提取 深度哈希 模态数据
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部