期刊文献+
共找到82篇文章
< 1 2 5 >
每页显示 20 50 100
基于多层注意力机制跨模态自适应融合的情感分析模型研究
1
作者 贺萍 祁铧颖 王诗怡 《计算机应用与软件》 北大核心 2025年第9期203-209,共7页
与面向文本、图像进行情感分析的研究相比,面向视频进行情感分析的研究较少,且不同模式之间跨模态关系抽取依然存在噪声与信息冗余的问题。因此,结合文本、视频两种数据模态提出一种基于多层注意力机制的跨模态自适应融合的情感分析模型... 与面向文本、图像进行情感分析的研究相比,面向视频进行情感分析的研究较少,且不同模式之间跨模态关系抽取依然存在噪声与信息冗余的问题。因此,结合文本、视频两种数据模态提出一种基于多层注意力机制的跨模态自适应融合的情感分析模型(MACSF)。该文将提取到的文本与视频特征在多头层次注意(MHA)下跨模态分层融合两次,得到具有交互语义的二次融合特征;将文本特征和二次融合的特征通过自适应跨模态集成得到最终融合特征;将融合特征输入多层感知机和Softmax函数得到情感分类结果。在公开数据集MOSI和MOSEI上实验验证,该文模型有效弥补了跨模态交互中存在的噪声问题,提高了情感分类的效果。 展开更多
关键词 模态 特征融合 情感分析 注意力机制
在线阅读 下载PDF
基于注意力机制和跨模态层级特征融合的群养肉牛个体质量估测
2
作者 宋平 杨颖 +3 位作者 刘刚 姚冲 李子若 毛天赐 《农业工程学报》 北大核心 2025年第10期221-231,共11页
为解决群养场景下肉牛个体质量称量复杂、精度低的问题,该研究提出了基于注意力机制和跨模态层级特征融合模型CMHFF-ResNet(cross-modal hierarchical feature fusion resnet)。首先,无接触式地采集俯视视角下日常活动的肉牛的RGB(red-g... 为解决群养场景下肉牛个体质量称量复杂、精度低的问题,该研究提出了基于注意力机制和跨模态层级特征融合模型CMHFF-ResNet(cross-modal hierarchical feature fusion resnet)。首先,无接触式地采集俯视视角下日常活动的肉牛的RGB(red-green-blue)图像与深度图像,使用引入定向边界框OBB(oriented bounding box)的YOLOv8网络对肉牛进行旋转目标检测和识别,精准定位群养场景中的个体目标;其次,以ResNet50为骨干网络构建双流估重模型,分别提取RGB和深度模态特征,并引入CBAM(convolutional block attention module)注意力机制以增强关键特征表达能力。设计跨模态的层级特征融合,有效结合RGB流和深度流的特征并充分利用浅层特征;第三,引入肉牛的身份信息便于网络学习肉牛身份与其体质量之间的对应关系,为优化模型效率,将全连接层替换为KAN(kolmogorov-arnold networks),显著减少参数量;最后,将双流的输出结果融合,回归肉牛体质量值。在试验中,构建了包含2546对RGB-D图像的数据集,包括2373对训练数据和173对验证数据。结果表明,CMHFF-ResNet在验证集上的平均绝对误差为14.19 kg。与基于RGB和深度的单流模型相比,双流模型在平均绝对误差上分别降低16.943%和26.133%。同时,该方法优于其他现有肉牛体质量估测方法:与多元线性回归、改进MobileNetv2模型、改进DenseNet201模型和改进跨模态特征融合模型CFF-ResNet相比,在平均绝对误差上分别减少57.233%、34.699%、24.761%和20.991%,提升了群养环境下肉牛个体质量估测的精度与泛化性,能够有效地学习跨模态的层级特征表示。该研究为大规模群养环境中肉牛个体质量的高精度估测提供了参考。 展开更多
关键词 模型 计算机视觉 目标检测 体质量估测 注意力机制 模态层级特征融合 双流网络
在线阅读 下载PDF
基于跨模态注意力机制和弱监督式对比学习的虚假新闻检测模型
3
作者 蔡松睿 张仕斌 +2 位作者 丁润宇 卢嘉中 黄源源 《信息安全研究》 北大核心 2025年第8期693-701,共9页
随着互联网和智能设备的广泛普及,社交媒体已成为新闻传播的主要平台.然而这也为虚假新闻的广泛传播提供了条件.在当前的社交媒体环境中,虚假新闻以文本、图片等多种模态存在,而现有的多模态虚假新闻检测技术通常未能充分挖掘不同模态... 随着互联网和智能设备的广泛普及,社交媒体已成为新闻传播的主要平台.然而这也为虚假新闻的广泛传播提供了条件.在当前的社交媒体环境中,虚假新闻以文本、图片等多种模态存在,而现有的多模态虚假新闻检测技术通常未能充分挖掘不同模态之间的内在联系,限制了检测模型的整体性能.为了解决这一问题,提出了一种基于跨模态注意力机制和弱监督式对比学习的虚假新闻检测模型.该模型利用预训练的BERT和ViT模型分别提取文本和图像特征,通过跨模态注意力机制有效融合多模态特征.同时,该模型引入了弱监督式对比学习,利用有效模态的预测结果作为监督信号指导对比学习过程,能够有效捕捉和利用文本与图像间的互补信息,从而提升了模型在多模态环境下的性能和鲁棒性.仿真实验表明,提出的虚假新闻检测模型在公开的Weibo17和Weibo21数据集上表现出色,与目前最先进的方法相比,准确率平均提升了1.17个百分点,F 1分数平均提升了1.66个百分点,验证了其在应对多模态虚假新闻检测任务中的有效性和可行性. 展开更多
关键词 虚假新闻检测 模态融合 模态注意力机制 对比学习 深度学习
在线阅读 下载PDF
基于跨模态融合与双曲图注意力机制的视频异常检测
4
作者 姜迪 赖惠成 汪烈军 《通信学报》 北大核心 2025年第6期136-152,共17页
针对视频异常检测中模态信息不平衡、视听噪声不平均以及模态异步等问题,提出了一个动态跨模态融合模块与双曲图注意力机制融合的多模态视频异常检测方法CM-HVAD,以准确检测异常行为。首先,提出了一种新的动态跨模态融合模块,动态压缩... 针对视频异常检测中模态信息不平衡、视听噪声不平均以及模态异步等问题,提出了一个动态跨模态融合模块与双曲图注意力机制融合的多模态视频异常检测方法CM-HVAD,以准确检测异常行为。首先,提出了一种新的动态跨模态融合模块,动态压缩多模态数据特征,自主学习跨模态权重,动态平衡视觉特征和音视频特征并进行融合增强。然后,针对多模态数据中存在的模态异步问题,提出了模态一致性对齐模块,按时间帧序列对齐模态语义,确保多模态数据在时间和语义上的一致性。最后,引入了双曲图注意力机制,通过双曲空间的模式分离特性,有效捕捉正常和异常表示之间的层次关系,从而提高检测准确率。实验结果表明,所提方法在XD-Violence上AP达到了86.47%,在UCF-Crime上AUC达到了87.12%,性能优于基线方法。 展开更多
关键词 视频异常检测 模态融合 双曲图注意力机制 模态
在线阅读 下载PDF
基于多尺度对比度增强和跨维度交互注意力机制的红外与可见光图像融合 被引量:1
5
作者 邸敬 梁婵 +2 位作者 任莉 郭文庆 廉敬 《红外技术》 CSCD 北大核心 2024年第7期754-764,共11页
针对目前红外与可见光图像融合存在特征提取不足、融合图像目标区域不显著、细节信息缺失等问题,提出了一种多尺度对比度增强和跨维度交互注意力机制的红外与可见光图像融合方法。首先,设计了多尺度对比度增强模块,以增强目标区域强度... 针对目前红外与可见光图像融合存在特征提取不足、融合图像目标区域不显著、细节信息缺失等问题,提出了一种多尺度对比度增强和跨维度交互注意力机制的红外与可见光图像融合方法。首先,设计了多尺度对比度增强模块,以增强目标区域强度信息利于互补信息的融合;其次,采用密集连接块进行特征提取,减少信息损失最大限度利用信息;接着,设计了一种跨维度交互注意力机制,有助于捕捉关键信息,从而提升网络性能;最后,设计了从融合图像到源图像的分解网络使融合图像包含更多的场景细节和更丰富的纹理细节。在TNO数据集上对提出的融合框架进行了评估实验,实验结果表明本文方法所得融合图像目标区域显著,细节纹理丰富,具有更优的融合性能和更强的泛化能力,主观性能和客观评价优于其他对比方法。 展开更多
关键词 红外与可见光图像融合 多尺度对比度增强 跨模态交互注意力机制 分解网络
在线阅读 下载PDF
基于跨域交互注意力和对比学习引导的红外与可见光图像融合
6
作者 邸敬 梁婵 +1 位作者 刘冀钊 廉敬 《中国光学(中英文)》 北大核心 2025年第2期317-332,共16页
现有红外与可见光图像融合方法难以充分提取和保留源图像细节信息与对比度,导致纹理细节模糊。针对这一问题,本文提出了一种跨域交互注意力和对比学习引导的红外与可见光图像融合方法。首先,设计了双支路跳跃连接的细节增强网络,从红外... 现有红外与可见光图像融合方法难以充分提取和保留源图像细节信息与对比度,导致纹理细节模糊。针对这一问题,本文提出了一种跨域交互注意力和对比学习引导的红外与可见光图像融合方法。首先,设计了双支路跳跃连接的细节增强网络,从红外和可见光图像中分别提取和增强细节信息,并利用跳跃连接避免信息丢失,生成增强后的细节图像。接着,构建了联合双分支编码器和跨域交互注意力模块的图像融合网络,确保特征融合时充分进行特征交互,并通过解码器重建为最终的融合图像。然后,引入了通过对比学习块进行浅层和深层属性和内容的对比学习网络,优化特征表示,进一步提升图像融合网络的性能。最后,为了约束网络训练以保留源图像的固有特征,设计了一种基于对比约束的损失函数,以辅助融合过程对源图像信息的对比保留。将提出方法与前沿融合方法进行了定性和定量的分析比较。在TNO、MSRS、RoadSence数据集上的实验结果表明:本文方法的8项客观评价指标均较对比方法有显著提升。本文方法融合后图像具有丰富的细节纹理、显著的清晰度和对比度,有效提高了道路交通、安防监控等实际应用中的目标识别和环境感知能力。 展开更多
关键词 红外与可见光图像融合 对比学习 交互注意力机制 对比约束损失
在线阅读 下载PDF
跨通道交互注意力机制驱动的双流网络跨模态行人重识别
7
作者 何磊 栗风永 秦川 《应用科学学报》 CAS CSCD 北大核心 2024年第5期884-892,共9页
现有的跨模态行人重识别方法不能同时兼顾模态间与模态内的目标行人差异,很难提升检索准确度。为解决这一问题,引入跨通道交互的注意力机制,增强行人特征的鲁棒提取能力,有效抑制冗余特征的提取并获得更具辨别力的特征表达。进一步,联... 现有的跨模态行人重识别方法不能同时兼顾模态间与模态内的目标行人差异,很难提升检索准确度。为解决这一问题,引入跨通道交互的注意力机制,增强行人特征的鲁棒提取能力,有效抑制冗余特征的提取并获得更具辨别力的特征表达。进一步,联合异质中心三元组损失、三元组损失和身份损失进行监督学习,有效结合了行人特征的跨模态类间差异和类内差异。实验证明了所提方法的有效性。与7个已有的经典方法相比,所提方法在两个标准数据集RegDB与SYSU-MM01上都取得了较好的性能效果。 展开更多
关键词 模态 行人重识别 卷积神经网络 注意力机制
在线阅读 下载PDF
基于模态敏感注意力机制的多模态对话模型及应用
8
作者 杜维 朱晓瑛 +4 位作者 许方敏 郑建生 朱福喜 龚鸣敏 李紫玉 《计算机应用研究》 北大核心 2025年第9期2590-2598,共9页
多模态对话系统采用Transformer、交叉注意力机制和预训练模型等方式融合不同粒度的文本、语音和视频模态,提取出跨模态特征,然而现有研究忽略了不同模态特征对分类任务的敏感差异性,造成过度融合及带来的信息冗余。针对多模态融合的顺... 多模态对话系统采用Transformer、交叉注意力机制和预训练模型等方式融合不同粒度的文本、语音和视频模态,提取出跨模态特征,然而现有研究忽略了不同模态特征对分类任务的敏感差异性,造成过度融合及带来的信息冗余。针对多模态融合的顺序特征对分类结果的影响,提出了基于模态敏感注意力机制的多模态对话模型MDM-MSAM,分为主从模态筛选、双模态跨模态融合和三模态跨模态融合三部分,通过确定主从模态并提取跨双模态特征,与三模态融合特征再融合,形成模态敏感的层次化跨多模态特征。在MintRec和CMU-MOSI数据集上的分类准确率分别比目前性能最好的模型提升了3.15%和3.5%。MDM-MSAM模型部署应用在流程引擎式的多轮对话系统中,取得了良好的应用效果。 展开更多
关键词 模态对话系统 模态特征 敏感差异性 模态敏感注意力机制 主从模态
在线阅读 下载PDF
结合跨模态特征激励与双分支交叉注意力融合的左心房疤痕分割方法
9
作者 阮东升 施哲彬 +2 位作者 王嘉辉 李杨 蒋明峰 《电子与信息学报》 北大核心 2025年第5期1596-1608,共13页
左心房疤痕的分布情况与严重程度能够为房颤的生理病理学研究提供重要信息,因此,实现左心房疤痕的自动化分割对房颤的临床诊断与治疗有着重要意义。但由于左心房疤痕具有形状多样化、目标小、分布离散等特点,现有的左心房疤痕分割方法... 左心房疤痕的分布情况与严重程度能够为房颤的生理病理学研究提供重要信息,因此,实现左心房疤痕的自动化分割对房颤的临床诊断与治疗有着重要意义。但由于左心房疤痕具有形状多样化、目标小、分布离散等特点,现有的左心房疤痕分割方法往往难以取得好的分割效果。该文利用疤痕通常分布在左心房壁上的先验知识,提出一种基于左心房边界特征增强的左心房疤痕分割方法,通过提出的跨模态特征激励模块与双分支交叉注意力融合模块在U型网络的编码器与瓶颈层分别对核磁共振图像与左心房边界符号距离图进行特征增强引导与深层语义信息融合增强,实现从特征层面提高模型对左心房边界特性信息的关注度。该文所提分割模型在LAScarQS2022数据集上进行验证,分割结果评估明显优于当前主流的分割方法。Dice分数和准确率相比基线网络分别提升了4.14%和6.37%。 展开更多
关键词 模态特征 深度学习 特征增强 注意力机制 左心房疤痕分割
在线阅读 下载PDF
基于多头自注意力机制与MLP-Interactor的多模态情感分析
10
作者 林宜山 左景 卢树华 《浙江大学学报(工学版)》 北大核心 2025年第8期1653-1661,1679,共10页
针对多模态情感分析中单模态特征质量较差及多模态特征交互不够充分的问题,提出基于多头自注意力机制和MLP-Interactor的多模态情感分析方法.通过基于多头自注意力机制的模态内特征交互模块,实现单模态内的特征交互,提高单模态特征的质... 针对多模态情感分析中单模态特征质量较差及多模态特征交互不够充分的问题,提出基于多头自注意力机制和MLP-Interactor的多模态情感分析方法.通过基于多头自注意力机制的模态内特征交互模块,实现单模态内的特征交互,提高单模态特征的质量.通过MLP-Interactor机制实现多模态特征之间的充分交互,学习不同模态之间的一致性信息.利用提出方法,在CMU-MOSI和CMU-MOSEI 2个公开数据集上进行大量的实验验证与测试.结果表明,提出方法超越了当前诸多的先进方法,可以有效地提升多模态情感分析的准确性. 展开更多
关键词 模态情感分析 MLP-Interactor 多头自注意力机制 特征交互
在线阅读 下载PDF
基于卷积交叉注意力与跨模态动态门控的多模态情感分析模型
11
作者 仲兆满 樊继冬 +3 位作者 张渝 王晨 吕慧慧 张丽玲 《智能系统学报》 北大核心 2025年第4期999-1009,共11页
在多模态情感分析任务中,现有方法由于忽视了图像与文本之间的情感关联性,导致融合特征存在大量冗余特征。为此,提出了一种基于卷积交叉注意力与跨模态动态门控的多模态情感分析模型(convolutional cross-attention and cross-modal dyn... 在多模态情感分析任务中,现有方法由于忽视了图像与文本之间的情感关联性,导致融合特征存在大量冗余特征。为此,提出了一种基于卷积交叉注意力与跨模态动态门控的多模态情感分析模型(convolutional cross-attention and cross-modal dynamic gating,CCA-CDG)。CCA-CDG通过引入卷积交叉注意力模块(convolutional cross-attention module,CCAM)来捕捉图像与文本间的一致性表达,获取图文之间的对齐特征;同时利用跨模态动态门控模块(cross-modal dynamic gating module,CDGM),根据图文之间的情感关联性动态调节情感特征的融合。此外,考虑到图文上下文信息对于理解情感的重要性,还设计了一个全局特征联合模块,将图文交互特征与全局特征权重融合,实现更可靠的情感预测。在MVSA-Single和MVSA-Multi数据集上进行实验验证,所提出的CCA-CDG能够有效改善多模态情感分析的效果。 展开更多
关键词 模态融合 情感分析 情感关联性 注意力机制 卷积交叉注意力 模态动态门控 全局特征联合 权重融合
在线阅读 下载PDF
基于跨模态特征交互和多尺度重建的红外与可见光图像融合
12
作者 姚睿 王凯 +2 位作者 郭浩帆 胡文涛 田祥瑞 《红外与激光工程》 北大核心 2025年第8期259-270,共12页
针对弱光环境下红外与可见光图像融合存在的纹理细节丢失、视觉效果和实时性差等问题,提出了一种基于跨模态特征交互和多尺度重建(Cross-modal Feature Interaction and Multi-scale Reconstruction,CFIMR)的红外与可见光图像融合算法CF... 针对弱光环境下红外与可见光图像融合存在的纹理细节丢失、视觉效果和实时性差等问题,提出了一种基于跨模态特征交互和多尺度重建(Cross-modal Feature Interaction and Multi-scale Reconstruction,CFIMR)的红外与可见光图像融合算法CFIMRFusion。该算法构建了包括卷积注意力增强模块、编码器网络、跨模态特征交互融合模块和基于多尺度重建的解码器网络的四阶段融合框架。首先,设计卷积注意力增强模块提升弱可见光图像的对比度和纹理可见性,并利用编码器网络从红外图像和增强后的可见光图像中提取深层多尺度特征。然后,提出基于通道-空间注意力的跨模态特征交互融合模块,对红外显著特征和可见光细节特征进行互补融合。最后,为解决使用普通解码器重建图像时出现特征消失等问题,将融合得到的多尺度特征以跳跃连接的方式输入到解码器各级,重建高保真的融合图像。实验结果表明,CFIMRFusion融合图像的细节特征和整体视觉效果优于对比算法;且与最优对比算法相比,融合图像在TNO数据集中平均梯度、边缘强度分别提升了15.8%、18.2%,在LLVIP数据集中互信息、标准差分别提升了11.5%、9.5%,在MSRS数据集中边缘强度提升了10.1%;三个数据集上的融合速度分别为最快对比算法的24.1%、23.86%和25.2%。 展开更多
关键词 图像融合 图像增强 注意力机制 自编码网络 模态特征交互
在线阅读 下载PDF
注意力机制特征增强交互融合多模态情感分析
13
作者 赵莲芬 潘正军 谭艳娴 《计算机工程与设计》 北大核心 2024年第11期3368-3374,共7页
针对当前多模态情感分析中模态特征提取与融合存在的局限性,设计一种融合注意力机制的增强交互融合模型。通过子网络提取各模态关键特征,利用跨模态交叉注意力强化特征表达并减少模态间干扰,计算各模态间的权重系数表示增强模态的情感... 针对当前多模态情感分析中模态特征提取与融合存在的局限性,设计一种融合注意力机制的增强交互融合模型。通过子网络提取各模态关键特征,利用跨模态交叉注意力强化特征表达并减少模态间干扰,计算各模态间的权重系数表示增强模态的情感贡献度,将增强后的高层特征和低层特征进行融合。在公开数据集CH-SIMS和CMU-MOSI上的实验结果表明,使用该模型所得平均精度AP分别为82.83%、81.58%,F1值分别为74.84%、74.92%,优于所比较的系列基准模型。 展开更多
关键词 模态 情感分析 特征增强 注意力机制 模态 交互融合 情感分类
在线阅读 下载PDF
CRAKUT:融合对比区域注意力机制与临床先验知识的U-Transformer用于放射学报告生成 被引量:1
14
作者 梁业东 朱雄峰 +3 位作者 黄美燕 张文聪 郭翰宇 冯前进 《南方医科大学学报》 北大核心 2025年第6期1343-1352,共10页
目的 提出一种对比区域注意力和先验知识融合的U型Transformer模型(CRAKUT),旨在解决文本分布不均衡、缺乏上下文临床知识以及跨模态信息转换等问题,提升生成报告的质量,辅助影像科医生诊断工作。方法 CRAKUT包括3个关键模块:对比注意... 目的 提出一种对比区域注意力和先验知识融合的U型Transformer模型(CRAKUT),旨在解决文本分布不均衡、缺乏上下文临床知识以及跨模态信息转换等问题,提升生成报告的质量,辅助影像科医生诊断工作。方法 CRAKUT包括3个关键模块:对比注意力图像编码器,利用数据集中常见的正常影像提取增强的视觉特征;外部知识注入模块,融合临床先验知识;U型Transformer,通过U型连接架构完成从视觉到语言的跨模态信息转换。在图像编码器中引入的对比区域注意力机制,通过强调正常与异常语义特征之间的差异,增强了异常区域的特征表示。此外,文本编码器中的临床先验知识注入模块结合了临床历史信息及由ChatGPT生成的知识图谱,从而提升了报告生成的上下文理解能力。U型Transformer在多模态编码器与报告解码器之间建立连接,融合多种类型的信息以生成最终的报告。结果 在2个公开的CXR数据集(IU-Xray和MIMIC-CXR)对CRAKUT模型进行评估,结果显示,CRAKUT在报告生成任务中实现了当前最先进的性能。在MIMIC-CXR数据集,CRAKUT取得了BLEU-4分数0.159、ROUGE-L分数0.353、CIDEr分数0.500;在IU-Xray数据集上,METEOR分数达到0.258,均优于以往模型的表现。结论 本文提出的方法在临床疾病诊断和报告生成中具有巨大的应用潜力。 展开更多
关键词 胸部X光 对比区域注意力 临床先验知识 模态交互 U-Transformer模型
在线阅读 下载PDF
基于视觉注意力的图文跨模态情感分析 被引量:2
15
作者 王法玉 郝攀征 《计算机工程与设计》 北大核心 2024年第2期601-607,共7页
针对单模态情感分析无法完全捕获情感信息的问题,提出一种图像和文本跨模态情感分析模型(BERT-VistaNet),该模型没有直接使用视觉信息作为特征,而是利用视觉信息作为对齐方式,使用注意力机制指出文本中重要的句子,得到基于视觉注意力的... 针对单模态情感分析无法完全捕获情感信息的问题,提出一种图像和文本跨模态情感分析模型(BERT-VistaNet),该模型没有直接使用视觉信息作为特征,而是利用视觉信息作为对齐方式,使用注意力机制指出文本中重要的句子,得到基于视觉注意力的文档表示。对于视觉注意力无法完全覆盖的文本内容,使用BERT模型对文本进行情感分析,得到基于文本的文档表示,将特征进行融合应用于情感分类任务。在Yelp公开餐厅数据集上,该模型相比基线模型TFN-aVGG,准确率提高了43%,相比VistaNet模型准确率提高了1.4%。 展开更多
关键词 情感分析 视觉注意力机制 模态 深度学习 特征融合 预训练模型 双向门控单元
在线阅读 下载PDF
基于交叉模态注意力特征增强的医学视觉问答
16
作者 刘凯 任洪逸 +2 位作者 李蓥 季怡 刘纯平 《计算机工程》 北大核心 2025年第6期49-56,共8页
医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像... 医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像的局部特征所包含的医学信息与跨模态间的交互作用,从而限制了图像内容理解。针对以上问题,提出一种交叉模态注意力特征增强的Med-VQA模型(CMAG-MVQA)。基于U-Net编码有效增强图像局部特征,从交叉模态协同角度提出选择引导注意力方法,为单模态表征引入其他模态的交互信息,同时利用自注意力机制进一步增强选择引导注意力的图像表征。在VQA-RAD医学问答数据集上的消融与对比实验表明,所提方法在Med-VQA任务上有良好的表现,相比于现有同类方法,其在特征表征上性能得到较好改善。 展开更多
关键词 模态交互 注意力机制 医学视觉问答 特征融合 特征增强
在线阅读 下载PDF
基于双重注意力机制的多尺度指代目标分割方法
17
作者 胡梦楠 王蓉 +1 位作者 张文靖 张琪 《计算机辅助设计与图形学学报》 北大核心 2025年第1期148-156,共9页
针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题,提出了基于双重注意力机制的多尺度指代目标分割方法.首先,利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐,... 针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题,提出了基于双重注意力机制的多尺度指代目标分割方法.首先,利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐,并使用双重注意力机制捕捉多模态特征间的依赖性,实现模态间和模态内的交互;其次,利用语言特征作为引导,从其他层次的特征中聚合与目标相关的视觉信息,进一步增强特征表示;然后利用双向ConvLSTM以自下而上和自上而下的方式逐步整合低层次的空间细节和高层次的语义信息;最后,利用不同膨胀因子的空洞卷积融合多尺度信息,增加模型对不同尺度分割目标的感知能力.此外,在UNC,UNC+,GRef和ReferIt基准数据集上进行实验,实验结果表明,文中方法在UNC,UNC+,GRef和ReferIt上的oIoU指标分别提高了1.81个百分点、1.26个百分点、0.84个百分点和0.32个百分点,广泛的消融研究也验证了所提方法中各组成部分的有效性. 展开更多
关键词 指代目标分割 模态交互 特征增强 注意力机制 多尺度融合
在线阅读 下载PDF
跨视角地理定位中的三维交互机制
18
作者 周博文 李阳 +2 位作者 王家宝 苗壮 张睿 《计算机科学》 北大核心 2025年第3期86-94,共9页
跨视角地理定位是一种图像检索任务,其目的是在不同视角下使用无地理坐标的图像与数据库中有地理坐标的图像进行检索匹配,从而获取目标图像的地理位置信息。然而,现有方法大多忽略了全局位置信息和特征完整性,导致模型无法捕获深层语义... 跨视角地理定位是一种图像检索任务,其目的是在不同视角下使用无地理坐标的图像与数据库中有地理坐标的图像进行检索匹配,从而获取目标图像的地理位置信息。然而,现有方法大多忽略了全局位置信息和特征完整性,导致模型无法捕获深层语义信息;另外,现有的二维交互方式未充分利用维度间关系,导致跨维交互不充分。为解决上述问题,设计了一种跨视角地理定位三维交互机制。该方法利用ConvNeXt作为特征提取网络,随后使用所提出的三维交互机制(Triplet Interaction Mechanism,TIM)进行特征丰富操作,最后利用联合损失函数指导模型训练。所提方法在模型内进行了多次三维交互,缓解了二维特征投影部分信息丢失的问题。同时,所提出的三维交互机制在3个通道中使用不同的注意力,使模型对跨视角图像的平移、缩放、旋转具有鲁棒性。实验结果表明,所提方法在University-1652数据集上针对无人机视角定位和无人机导航两个任务均取得了最优性能。 展开更多
关键词 视角 地理定位 交互机制 特征注意力
在线阅读 下载PDF
基于注意力机制的TAI-CNN图文跨模态情感分类方法 被引量:5
19
作者 陈小敏 许华虎 +1 位作者 方迪恺 肖俊生 《计算机应用与软件》 北大核心 2021年第5期196-200,293,共6页
以往的情感分类大多集中在单模态上,然而多模态的情感信息之间往往具有互补性,针对目前使用单模态做情感分类不能全面捕捉情感语义且存在忽视具有重要特征的情感信息等问题,提出一种基于注意力机制的TAI-CNN图文跨模态情感分类方法。构... 以往的情感分类大多集中在单模态上,然而多模态的情感信息之间往往具有互补性,针对目前使用单模态做情感分类不能全面捕捉情感语义且存在忽视具有重要特征的情感信息等问题,提出一种基于注意力机制的TAI-CNN图文跨模态情感分类方法。构建TCNN文本情感分类模型和ICNN图像情感分类模型,采用最大值图文决策级融合方法来构建图文跨模态情感分类模型。实验证明,图文跨模态情感分类方法能够充分利用图像和文本的情感互补信息,提高分类的准确性,且注意力机制的引入能够更好地获得情感特征。 展开更多
关键词 注意力机制 情感分类 模态 卷积神经网络
在线阅读 下载PDF
自注意力相似度迁移跨模态哈希网络
20
作者 梁焕 王海荣 王栋 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期615-622,共8页
为进一步提升跨模态检索性能,提出自注意力相似度迁移跨模态哈希网络模型。设计了一种通道空间混合自注意力机制强化关注图像的关键信息,并使用共同注意力方法加强模态信息交互,提高特征学习质量;为在哈希空间重构相似关系,采用迁移学... 为进一步提升跨模态检索性能,提出自注意力相似度迁移跨模态哈希网络模型。设计了一种通道空间混合自注意力机制强化关注图像的关键信息,并使用共同注意力方法加强模态信息交互,提高特征学习质量;为在哈希空间重构相似关系,采用迁移学习的方法利用实值空间相似度引导哈希码的生成。在3个常用的数据集MIRFLICKR-25K、IAPR TC-12和MSCOCO上与深度跨模态哈希(DCMH)、成对关系引导的深度哈希(PRDH)、跨模态汉明哈希(CMHH)等优秀方法进行对比实验,结果显示哈希码长度为64 bit的条件下,所提模型在3个数据集图像检索文本任务的平均精确度均值(MAP)达到72.3%,文本检索图像任务的MAP达到70%,高于对比方法。 展开更多
关键词 模态检索 哈希学习 注意力机制 迁移学习 无监督学习
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部