期刊文献+
共找到75篇文章
< 1 2 4 >
每页显示 20 50 100
基于注意力机制和跨模态层级特征融合的群养肉牛个体质量估测
1
作者 宋平 杨颖 +3 位作者 刘刚 姚冲 李子若 毛天赐 《农业工程学报》 北大核心 2025年第10期221-231,共11页
为解决群养场景下肉牛个体质量称量复杂、精度低的问题,该研究提出了基于注意力机制和跨模态层级特征融合模型CMHFF-ResNet(cross-modal hierarchical feature fusion resnet)。首先,无接触式地采集俯视视角下日常活动的肉牛的RGB(red-g... 为解决群养场景下肉牛个体质量称量复杂、精度低的问题,该研究提出了基于注意力机制和跨模态层级特征融合模型CMHFF-ResNet(cross-modal hierarchical feature fusion resnet)。首先,无接触式地采集俯视视角下日常活动的肉牛的RGB(red-green-blue)图像与深度图像,使用引入定向边界框OBB(oriented bounding box)的YOLOv8网络对肉牛进行旋转目标检测和识别,精准定位群养场景中的个体目标;其次,以ResNet50为骨干网络构建双流估重模型,分别提取RGB和深度模态特征,并引入CBAM(convolutional block attention module)注意力机制以增强关键特征表达能力。设计跨模态的层级特征融合,有效结合RGB流和深度流的特征并充分利用浅层特征;第三,引入肉牛的身份信息便于网络学习肉牛身份与其体质量之间的对应关系,为优化模型效率,将全连接层替换为KAN(kolmogorov-arnold networks),显著减少参数量;最后,将双流的输出结果融合,回归肉牛体质量值。在试验中,构建了包含2546对RGB-D图像的数据集,包括2373对训练数据和173对验证数据。结果表明,CMHFF-ResNet在验证集上的平均绝对误差为14.19 kg。与基于RGB和深度的单流模型相比,双流模型在平均绝对误差上分别降低16.943%和26.133%。同时,该方法优于其他现有肉牛体质量估测方法:与多元线性回归、改进MobileNetv2模型、改进DenseNet201模型和改进跨模态特征融合模型CFF-ResNet相比,在平均绝对误差上分别减少57.233%、34.699%、24.761%和20.991%,提升了群养环境下肉牛个体质量估测的精度与泛化性,能够有效地学习跨模态的层级特征表示。该研究为大规模群养环境中肉牛个体质量的高精度估测提供了参考。 展开更多
关键词 模型 计算机视觉 目标检测 体质量估测 注意力机制 模态层级特征融合 双流网络
在线阅读 下载PDF
基于跨模态注意力机制和弱监督式对比学习的虚假新闻检测模型
2
作者 蔡松睿 张仕斌 +2 位作者 丁润宇 卢嘉中 黄源源 《信息安全研究》 北大核心 2025年第8期693-701,共9页
随着互联网和智能设备的广泛普及,社交媒体已成为新闻传播的主要平台.然而这也为虚假新闻的广泛传播提供了条件.在当前的社交媒体环境中,虚假新闻以文本、图片等多种模态存在,而现有的多模态虚假新闻检测技术通常未能充分挖掘不同模态... 随着互联网和智能设备的广泛普及,社交媒体已成为新闻传播的主要平台.然而这也为虚假新闻的广泛传播提供了条件.在当前的社交媒体环境中,虚假新闻以文本、图片等多种模态存在,而现有的多模态虚假新闻检测技术通常未能充分挖掘不同模态之间的内在联系,限制了检测模型的整体性能.为了解决这一问题,提出了一种基于跨模态注意力机制和弱监督式对比学习的虚假新闻检测模型.该模型利用预训练的BERT和ViT模型分别提取文本和图像特征,通过跨模态注意力机制有效融合多模态特征.同时,该模型引入了弱监督式对比学习,利用有效模态的预测结果作为监督信号指导对比学习过程,能够有效捕捉和利用文本与图像间的互补信息,从而提升了模型在多模态环境下的性能和鲁棒性.仿真实验表明,提出的虚假新闻检测模型在公开的Weibo17和Weibo21数据集上表现出色,与目前最先进的方法相比,准确率平均提升了1.17个百分点,F 1分数平均提升了1.66个百分点,验证了其在应对多模态虚假新闻检测任务中的有效性和可行性. 展开更多
关键词 虚假新闻检测 模态融合 模态注意力机制 对比学习 深度学习
在线阅读 下载PDF
基于跨模态融合与双曲图注意力机制的视频异常检测
3
作者 姜迪 赖惠成 汪烈军 《通信学报》 北大核心 2025年第6期136-152,共17页
针对视频异常检测中模态信息不平衡、视听噪声不平均以及模态异步等问题,提出了一个动态跨模态融合模块与双曲图注意力机制融合的多模态视频异常检测方法CM-HVAD,以准确检测异常行为。首先,提出了一种新的动态跨模态融合模块,动态压缩... 针对视频异常检测中模态信息不平衡、视听噪声不平均以及模态异步等问题,提出了一个动态跨模态融合模块与双曲图注意力机制融合的多模态视频异常检测方法CM-HVAD,以准确检测异常行为。首先,提出了一种新的动态跨模态融合模块,动态压缩多模态数据特征,自主学习跨模态权重,动态平衡视觉特征和音视频特征并进行融合增强。然后,针对多模态数据中存在的模态异步问题,提出了模态一致性对齐模块,按时间帧序列对齐模态语义,确保多模态数据在时间和语义上的一致性。最后,引入了双曲图注意力机制,通过双曲空间的模式分离特性,有效捕捉正常和异常表示之间的层次关系,从而提高检测准确率。实验结果表明,所提方法在XD-Violence上AP达到了86.47%,在UCF-Crime上AUC达到了87.12%,性能优于基线方法。 展开更多
关键词 视频异常检测 模态融合 双曲图注意力机制 模态
在线阅读 下载PDF
基于多头自注意力机制与MLP-Interactor的多模态情感分析
4
作者 林宜山 左景 卢树华 《浙江大学学报(工学版)》 北大核心 2025年第8期1653-1661,1679,共10页
针对多模态情感分析中单模态特征质量较差及多模态特征交互不够充分的问题,提出基于多头自注意力机制和MLP-Interactor的多模态情感分析方法.通过基于多头自注意力机制的模态内特征交互模块,实现单模态内的特征交互,提高单模态特征的质... 针对多模态情感分析中单模态特征质量较差及多模态特征交互不够充分的问题,提出基于多头自注意力机制和MLP-Interactor的多模态情感分析方法.通过基于多头自注意力机制的模态内特征交互模块,实现单模态内的特征交互,提高单模态特征的质量.通过MLP-Interactor机制实现多模态特征之间的充分交互,学习不同模态之间的一致性信息.利用提出方法,在CMU-MOSI和CMU-MOSEI 2个公开数据集上进行大量的实验验证与测试.结果表明,提出方法超越了当前诸多的先进方法,可以有效地提升多模态情感分析的准确性. 展开更多
关键词 模态情感分析 MLP-Interactor 多头注意力机制 特征交互
在线阅读 下载PDF
结合跨模态特征激励与双分支交叉注意力融合的左心房疤痕分割方法
5
作者 阮东升 施哲彬 +2 位作者 王嘉辉 李杨 蒋明峰 《电子与信息学报》 北大核心 2025年第5期1596-1608,共13页
左心房疤痕的分布情况与严重程度能够为房颤的生理病理学研究提供重要信息,因此,实现左心房疤痕的自动化分割对房颤的临床诊断与治疗有着重要意义。但由于左心房疤痕具有形状多样化、目标小、分布离散等特点,现有的左心房疤痕分割方法... 左心房疤痕的分布情况与严重程度能够为房颤的生理病理学研究提供重要信息,因此,实现左心房疤痕的自动化分割对房颤的临床诊断与治疗有着重要意义。但由于左心房疤痕具有形状多样化、目标小、分布离散等特点,现有的左心房疤痕分割方法往往难以取得好的分割效果。该文利用疤痕通常分布在左心房壁上的先验知识,提出一种基于左心房边界特征增强的左心房疤痕分割方法,通过提出的跨模态特征激励模块与双分支交叉注意力融合模块在U型网络的编码器与瓶颈层分别对核磁共振图像与左心房边界符号距离图进行特征增强引导与深层语义信息融合增强,实现从特征层面提高模型对左心房边界特性信息的关注度。该文所提分割模型在LAScarQS2022数据集上进行验证,分割结果评估明显优于当前主流的分割方法。Dice分数和准确率相比基线网络分别提升了4.14%和6.37%。 展开更多
关键词 模态特征 深度学习 特征增强 注意力机制 左心房疤痕分割
在线阅读 下载PDF
基于卷积交叉注意力与跨模态动态门控的多模态情感分析模型
6
作者 仲兆满 樊继冬 +3 位作者 张渝 王晨 吕慧慧 张丽玲 《智能系统学报》 北大核心 2025年第4期999-1009,共11页
在多模态情感分析任务中,现有方法由于忽视了图像与文本之间的情感关联性,导致融合特征存在大量冗余特征。为此,提出了一种基于卷积交叉注意力与跨模态动态门控的多模态情感分析模型(convolutional cross-attention and cross-modal dyn... 在多模态情感分析任务中,现有方法由于忽视了图像与文本之间的情感关联性,导致融合特征存在大量冗余特征。为此,提出了一种基于卷积交叉注意力与跨模态动态门控的多模态情感分析模型(convolutional cross-attention and cross-modal dynamic gating,CCA-CDG)。CCA-CDG通过引入卷积交叉注意力模块(convolutional cross-attention module,CCAM)来捕捉图像与文本间的一致性表达,获取图文之间的对齐特征;同时利用跨模态动态门控模块(cross-modal dynamic gating module,CDGM),根据图文之间的情感关联性动态调节情感特征的融合。此外,考虑到图文上下文信息对于理解情感的重要性,还设计了一个全局特征联合模块,将图文交互特征与全局特征权重融合,实现更可靠的情感预测。在MVSA-Single和MVSA-Multi数据集上进行实验验证,所提出的CCA-CDG能够有效改善多模态情感分析的效果。 展开更多
关键词 模态融合 情感分析 情感关联性 注意力机制 卷积交叉注意力 模态动态门控 全局特征联合 权重融合
在线阅读 下载PDF
跨通道交互注意力机制驱动的双流网络跨模态行人重识别
7
作者 何磊 栗风永 秦川 《应用科学学报》 CAS CSCD 北大核心 2024年第5期884-892,共9页
现有的跨模态行人重识别方法不能同时兼顾模态间与模态内的目标行人差异,很难提升检索准确度。为解决这一问题,引入跨通道交互的注意力机制,增强行人特征的鲁棒提取能力,有效抑制冗余特征的提取并获得更具辨别力的特征表达。进一步,联... 现有的跨模态行人重识别方法不能同时兼顾模态间与模态内的目标行人差异,很难提升检索准确度。为解决这一问题,引入跨通道交互的注意力机制,增强行人特征的鲁棒提取能力,有效抑制冗余特征的提取并获得更具辨别力的特征表达。进一步,联合异质中心三元组损失、三元组损失和身份损失进行监督学习,有效结合了行人特征的跨模态类间差异和类内差异。实验证明了所提方法的有效性。与7个已有的经典方法相比,所提方法在两个标准数据集RegDB与SYSU-MM01上都取得了较好的性能效果。 展开更多
关键词 模态 行人重识别 卷积神经网络 注意力机制
在线阅读 下载PDF
基于多尺度对比度增强和跨维度交互注意力机制的红外与可见光图像融合 被引量:1
8
作者 邸敬 梁婵 +2 位作者 任莉 郭文庆 廉敬 《红外技术》 CSCD 北大核心 2024年第7期754-764,共11页
针对目前红外与可见光图像融合存在特征提取不足、融合图像目标区域不显著、细节信息缺失等问题,提出了一种多尺度对比度增强和跨维度交互注意力机制的红外与可见光图像融合方法。首先,设计了多尺度对比度增强模块,以增强目标区域强度... 针对目前红外与可见光图像融合存在特征提取不足、融合图像目标区域不显著、细节信息缺失等问题,提出了一种多尺度对比度增强和跨维度交互注意力机制的红外与可见光图像融合方法。首先,设计了多尺度对比度增强模块,以增强目标区域强度信息利于互补信息的融合;其次,采用密集连接块进行特征提取,减少信息损失最大限度利用信息;接着,设计了一种跨维度交互注意力机制,有助于捕捉关键信息,从而提升网络性能;最后,设计了从融合图像到源图像的分解网络使融合图像包含更多的场景细节和更丰富的纹理细节。在TNO数据集上对提出的融合框架进行了评估实验,实验结果表明本文方法所得融合图像目标区域显著,细节纹理丰富,具有更优的融合性能和更强的泛化能力,主观性能和客观评价优于其他对比方法。 展开更多
关键词 红外与可见光图像融合 多尺度对比度增强 模态交互注意力机制 分解网络
在线阅读 下载PDF
基于视觉注意力的图文跨模态情感分析 被引量:2
9
作者 王法玉 郝攀征 《计算机工程与设计》 北大核心 2024年第2期601-607,共7页
针对单模态情感分析无法完全捕获情感信息的问题,提出一种图像和文本跨模态情感分析模型(BERT-VistaNet),该模型没有直接使用视觉信息作为特征,而是利用视觉信息作为对齐方式,使用注意力机制指出文本中重要的句子,得到基于视觉注意力的... 针对单模态情感分析无法完全捕获情感信息的问题,提出一种图像和文本跨模态情感分析模型(BERT-VistaNet),该模型没有直接使用视觉信息作为特征,而是利用视觉信息作为对齐方式,使用注意力机制指出文本中重要的句子,得到基于视觉注意力的文档表示。对于视觉注意力无法完全覆盖的文本内容,使用BERT模型对文本进行情感分析,得到基于文本的文档表示,将特征进行融合应用于情感分类任务。在Yelp公开餐厅数据集上,该模型相比基线模型TFN-aVGG,准确率提高了43%,相比VistaNet模型准确率提高了1.4%。 展开更多
关键词 情感分析 视觉注意力机制 模态 深度学习 特征融合 预训练模型 双向门控单元
在线阅读 下载PDF
基于交叉模态注意力特征增强的医学视觉问答
10
作者 刘凯 任洪逸 +2 位作者 李蓥 季怡 刘纯平 《计算机工程》 北大核心 2025年第6期49-56,共8页
医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像... 医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像的局部特征所包含的医学信息与跨模态间的交互作用,从而限制了图像内容理解。针对以上问题,提出一种交叉模态注意力特征增强的Med-VQA模型(CMAG-MVQA)。基于U-Net编码有效增强图像局部特征,从交叉模态协同角度提出选择引导注意力方法,为单模态表征引入其他模态的交互信息,同时利用自注意力机制进一步增强选择引导注意力的图像表征。在VQA-RAD医学问答数据集上的消融与对比实验表明,所提方法在Med-VQA任务上有良好的表现,相比于现有同类方法,其在特征表征上性能得到较好改善。 展开更多
关键词 模态交互 注意力机制 医学视觉问答 特征融合 特征增强
在线阅读 下载PDF
基于双重注意力机制的多尺度指代目标分割方法
11
作者 胡梦楠 王蓉 +1 位作者 张文靖 张琪 《计算机辅助设计与图形学学报》 北大核心 2025年第1期148-156,共9页
针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题,提出了基于双重注意力机制的多尺度指代目标分割方法.首先,利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐,... 针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题,提出了基于双重注意力机制的多尺度指代目标分割方法.首先,利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐,并使用双重注意力机制捕捉多模态特征间的依赖性,实现模态间和模态内的交互;其次,利用语言特征作为引导,从其他层次的特征中聚合与目标相关的视觉信息,进一步增强特征表示;然后利用双向ConvLSTM以自下而上和自上而下的方式逐步整合低层次的空间细节和高层次的语义信息;最后,利用不同膨胀因子的空洞卷积融合多尺度信息,增加模型对不同尺度分割目标的感知能力.此外,在UNC,UNC+,GRef和ReferIt基准数据集上进行实验,实验结果表明,文中方法在UNC,UNC+,GRef和ReferIt上的oIoU指标分别提高了1.81个百分点、1.26个百分点、0.84个百分点和0.32个百分点,广泛的消融研究也验证了所提方法中各组成部分的有效性. 展开更多
关键词 指代目标分割 模态交互 特征增强 注意力机制 多尺度融合
在线阅读 下载PDF
基于注意力机制的TAI-CNN图文跨模态情感分类方法 被引量:4
12
作者 陈小敏 许华虎 +1 位作者 方迪恺 肖俊生 《计算机应用与软件》 北大核心 2021年第5期196-200,293,共6页
以往的情感分类大多集中在单模态上,然而多模态的情感信息之间往往具有互补性,针对目前使用单模态做情感分类不能全面捕捉情感语义且存在忽视具有重要特征的情感信息等问题,提出一种基于注意力机制的TAI-CNN图文跨模态情感分类方法。构... 以往的情感分类大多集中在单模态上,然而多模态的情感信息之间往往具有互补性,针对目前使用单模态做情感分类不能全面捕捉情感语义且存在忽视具有重要特征的情感信息等问题,提出一种基于注意力机制的TAI-CNN图文跨模态情感分类方法。构建TCNN文本情感分类模型和ICNN图像情感分类模型,采用最大值图文决策级融合方法来构建图文跨模态情感分类模型。实验证明,图文跨模态情感分类方法能够充分利用图像和文本的情感互补信息,提高分类的准确性,且注意力机制的引入能够更好地获得情感特征。 展开更多
关键词 注意力机制 情感分类 模态 卷积神经网络
在线阅读 下载PDF
自注意力相似度迁移跨模态哈希网络
13
作者 梁焕 王海荣 王栋 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期615-622,共8页
为进一步提升跨模态检索性能,提出自注意力相似度迁移跨模态哈希网络模型。设计了一种通道空间混合自注意力机制强化关注图像的关键信息,并使用共同注意力方法加强模态信息交互,提高特征学习质量;为在哈希空间重构相似关系,采用迁移学... 为进一步提升跨模态检索性能,提出自注意力相似度迁移跨模态哈希网络模型。设计了一种通道空间混合自注意力机制强化关注图像的关键信息,并使用共同注意力方法加强模态信息交互,提高特征学习质量;为在哈希空间重构相似关系,采用迁移学习的方法利用实值空间相似度引导哈希码的生成。在3个常用的数据集MIRFLICKR-25K、IAPR TC-12和MSCOCO上与深度跨模态哈希(DCMH)、成对关系引导的深度哈希(PRDH)、跨模态汉明哈希(CMHH)等优秀方法进行对比实验,结果显示哈希码长度为64 bit的条件下,所提模型在3个数据集图像检索文本任务的平均精确度均值(MAP)达到72.3%,文本检索图像任务的MAP达到70%,高于对比方法。 展开更多
关键词 模态检索 哈希学习 注意力机制 迁移学习 无监督学习
在线阅读 下载PDF
注意力机制特征增强交互融合多模态情感分析
14
作者 赵莲芬 潘正军 谭艳娴 《计算机工程与设计》 北大核心 2024年第11期3368-3374,共7页
针对当前多模态情感分析中模态特征提取与融合存在的局限性,设计一种融合注意力机制的增强交互融合模型。通过子网络提取各模态关键特征,利用跨模态交叉注意力强化特征表达并减少模态间干扰,计算各模态间的权重系数表示增强模态的情感... 针对当前多模态情感分析中模态特征提取与融合存在的局限性,设计一种融合注意力机制的增强交互融合模型。通过子网络提取各模态关键特征,利用跨模态交叉注意力强化特征表达并减少模态间干扰,计算各模态间的权重系数表示增强模态的情感贡献度,将增强后的高层特征和低层特征进行融合。在公开数据集CH-SIMS和CMU-MOSI上的实验结果表明,使用该模型所得平均精度AP分别为82.83%、81.58%,F1值分别为74.84%、74.92%,优于所比较的系列基准模型。 展开更多
关键词 模态 情感分析 特征增强 注意力机制 模态 交互融合 情感分类
在线阅读 下载PDF
融合自注意力机制的跨模态食谱检索方法 被引量:4
15
作者 林阳 初旭 +2 位作者 王亚沙 毛维嘉 赵俊峰 《计算机科学与探索》 CSCD 北大核心 2020年第9期1471-1481,共11页
饮食记录是饮食管理的关键环节。为了简化记录过程,研究者提出了基于食物图片的食谱检索技术,通过拍摄的图片检索到对应食谱,并据此生成营养信息,从而提高了记录的便捷性。食谱检索是典型的跨模态检索问题,但与一般问题相比,其主要难点... 饮食记录是饮食管理的关键环节。为了简化记录过程,研究者提出了基于食物图片的食谱检索技术,通过拍摄的图片检索到对应食谱,并据此生成营养信息,从而提高了记录的便捷性。食谱检索是典型的跨模态检索问题,但与一般问题相比,其主要难点是食谱描述了从原材料到成品的一系列变化过程,而非直接可见的特征,因此模型需要深入理解原材料的处理过程。而当前食谱检索研究工作采用线性方式处理文本,导致其捕捉食谱处理过程中的远距离依赖现象的能力较差。针对这个问题,设计了一种基于自注意力机制的跨模态食谱检索模型。该模型借助Transformer模型中的自注意力机制,捕捉食谱中远距离的依赖关系,同时改进了传统方法中的注意力机制,可以更好地挖掘食谱中的语义。实验结果表明,该模型在食谱检索任务的召回率上比基线方法提高了22%。 展开更多
关键词 饮食记录 食谱检索 注意力机制 模态 深度神经网络
在线阅读 下载PDF
基于多模态注意力机制的跨模态哈希网络 被引量:2
16
作者 吴吉祥 鲁芹 李伟霄 《计算机工程与应用》 CSCD 北大核心 2022年第20期229-239,共11页
深度跨模态哈希算法(deep cross-modal Hash,DCMH)可以结合哈希算法存储成本低、检索速度快的优点,以及深度神经网络提取特征的强大能力,得到了越来越多的关注。它可以有效地将模态的特征和哈希表示学习集成到端到端框架中。然而在现有... 深度跨模态哈希算法(deep cross-modal Hash,DCMH)可以结合哈希算法存储成本低、检索速度快的优点,以及深度神经网络提取特征的强大能力,得到了越来越多的关注。它可以有效地将模态的特征和哈希表示学习集成到端到端框架中。然而在现有的DCMH方法的特征提取中,基于全局表示对齐的方法无法准确定位图像和文本中有语义意义的部分,导致在保证检索速度的同时无法保证检索的精确度。针对上述问题,提出了一种基于多模态注意力机制的跨模态哈希网络(HX_MAN),将注意力机制引入到DCMH方法中来提取不同模态的关键信息。利用深度学习来提取图像和文本模态的全局上下文特征,并且设计了一种多模态交互门来将图像和文本模态进行细粒度的交互,引入多模态注意力机制来更精确地捕捉不同模态内的局部特征信息,将带有注意的特征输入哈希模块以获得二进制的哈希码;在实行检索时,将任一模态的数据输入训练模块中来获得哈希码,计算该哈希码与检索库中哈希码的汉明距离,最终根据汉明距离按顺序输出另一种模态的数据结果。实验结果表明:HX_MAN模型与当前现有的DCMH方法相比更具有良好的检索性能,在保证检索速度的同时,能够更准确地提炼出图像和文本模态的局部细粒度特征,提高了检索的精确度。 展开更多
关键词 模态检索 注意力机制 深度哈希 模态学习
在线阅读 下载PDF
融合注意力机制的枸杞虫害图文跨模态检索方法 被引量:2
17
作者 刘立波 赵斐斐 《农业机械学报》 EI CAS CSCD 北大核心 2022年第2期299-308,共10页
针对现有农作物病虫害检索模态较为单一问题,以17种常见的枸杞虫害图像和文本描述为研究对象,将跨模态检索引入枸杞虫害检索领域,提出一种融合注意力机制的枸杞虫害图文跨模态检索方法。首先,借助Transformer模型和循环神经网络分别获... 针对现有农作物病虫害检索模态较为单一问题,以17种常见的枸杞虫害图像和文本描述为研究对象,将跨模态检索引入枸杞虫害检索领域,提出一种融合注意力机制的枸杞虫害图文跨模态检索方法。首先,借助Transformer模型和循环神经网络分别获取带有上下文信息的细粒度图像和文本特征序列;然后,利用注意力机制对特征序列进行聚合以挖掘图像和文本的显著性语义信息;最后,为了深入挖掘不同模态间语义关联,采用跨媒体联合损失函数对模型进行约束。试验结果表明,本文方法在自建的枸杞虫害图文跨模态数据集上平均精度均值平均值达到了0.458。与现有的8种方法相比,平均精度均值平均值提高了0.011~0.195,优于所有对比方法,可为农作物病虫害多样化检索提供技术支撑和算法参考。 展开更多
关键词 枸杞虫害 注意力机制 图文检索 模态
在线阅读 下载PDF
融合注意力机制的IETM细粒度跨模态检索算法 被引量:1
18
作者 翟一琛 顾佼佼 +1 位作者 宗富强 姜文志 《系统工程与电子技术》 EI CSCD 北大核心 2023年第12期3915-3923,共9页
交互式电子手册是提高各类装备保障信息化、智能化的关键技术之一,针对其检索模态单一的问题,以其数据中图文描述为研究对象,提出一种融合注意力机制的细粒度跨模态检索算法。针对数据中图像简图较多、色彩单一等特点,特征提取模块使用V... 交互式电子手册是提高各类装备保障信息化、智能化的关键技术之一,针对其检索模态单一的问题,以其数据中图文描述为研究对象,提出一种融合注意力机制的细粒度跨模态检索算法。针对数据中图像简图较多、色彩单一等特点,特征提取模块使用Vision Transformer模型和Transformer编码器分别获得图文的全局和局部特征;使用注意力机制在图文模态间及模态内部挖掘细粒度信息,加入文本对抗训练增强模型泛化能力,采用跨模态联合损失函数对模型进行约束。在Pascal Sentence数据集和自建数据集上进行验证,所提方法的平均精度均值分别达到了0.964和0.959,较基准模型(深度监督跨模态检索)分别提升了0.248和0.214。 展开更多
关键词 交互式电子手册 图文检索 模态 注意力机制
在线阅读 下载PDF
基于注意力双分支网络的跨模态足迹检索 被引量:5
19
作者 鲍文霞 茅丽丽 +3 位作者 王年 杨先军 刘晋 瞿金杰 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第5期914-922,共9页
为了提高跨模态足迹检索精度,提出一种基于注意力双分支深度卷积神经网络的检索方法.该方法以赤足足迹的光学和压力2个模态图像为研究对象,采集并构建了一个包含138人5520幅足迹图像的跨模态检索数据集;在网络的特征提取模块采用ResNet5... 为了提高跨模态足迹检索精度,提出一种基于注意力双分支深度卷积神经网络的检索方法.该方法以赤足足迹的光学和压力2个模态图像为研究对象,采集并构建了一个包含138人5520幅足迹图像的跨模态检索数据集;在网络的特征提取模块采用ResNet50作为基础网络搭建双分支结构,并引入空间注意力机制,以提取各模态具有辨别性的特征;在网络的特征嵌入模块,通过部分参数共享学习跨模态共享空间;在双约束损失模块采用交叉熵损失(ID loss)和异质中心损失(HC loss)以增大跨模态足迹特征的类间差异,减小类内差异.实验结果表明:互检索模式下的平均精度均值(mAP)均值和Rank1均值分别为70.83%和87.50%,优于其他一些跨模态检索方法.采用注意力双分支网络模型能够有效进行跨模态足迹检索,可以为现场足迹对比鉴定等应用提供理论基础. 展开更多
关键词 足迹图像 模态检索 双分支网络 空间注意力机制
在线阅读 下载PDF
基于注意力机制的细粒度语义关联视频-文本跨模态实体分辨
20
作者 曾志贤 曹建军 +2 位作者 翁年凤 蒋国权 徐滨 《计算机科学》 CSCD 北大核心 2022年第7期106-112,共7页
随着移动网络、自媒体平台的迅速发展,大量的视频和文本信息不断涌现,这给视频-文本数据跨模态实体分辨带来了迫切的现实需求。为提高视频-文本跨模态实体分辨的性能,提出了一种基于注意力机制的细粒度语义关联视频-文本跨模态实体分辨... 随着移动网络、自媒体平台的迅速发展,大量的视频和文本信息不断涌现,这给视频-文本数据跨模态实体分辨带来了迫切的现实需求。为提高视频-文本跨模态实体分辨的性能,提出了一种基于注意力机制的细粒度语义关联视频-文本跨模态实体分辨模型(Fine-grained Semantic Association Video-Text Cross-Model Entity Resolution Model Based on Attention Mechanism,FSAAM)。对于视频中的每一帧,利用图像特征提取网络特征信息,并将其作为特征表示,然后通过全连接网络进行微调,将每一帧映射到共同空间;同时,利用词嵌入的方法对文本描述中的词进行向量化处理,通过双向递归神经网络将其映射到共同空间。在此基础上,提出了一种自适应细粒度视频-文本语义关联方法,该方法计算文本描述中的每个词与视频帧的相似度,利用注意力机制进行加权求和,得出视频帧与文本的语义相似度,并过滤与文本语义相似度较低的帧,提高了模型性能。FSAAM主要解决了文本描述的词与视频帧关联程度不同而导致视频-文本跨模态数据语义关联难以构建以及视频冗余帧的问题,在MSR-VTT和VATEX数据集上进行了实验,实验结果验证了所提方法的优越性。 展开更多
关键词 模态实体分辨 共同空间 注意力机制 细粒度 语义相似度 特征提取
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部