期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于复合跨模态交互网络的时序多模态情感分析 被引量:2
1
作者 杨力 钟俊弘 +1 位作者 张赟 宋欣渝 《计算机科学与探索》 CSCD 北大核心 2024年第5期1318-1327,共10页
针对多模态情感分析中存在的不同模态间语义特征差异性导致模态融合不充分、交互性弱等问题,通过研究分析不同模态之间存在的潜在关联性,搭建一种基于复合跨模态交互网络的时序多模态情感分析(CCIN-SA)模型。该模型首先使用双向门控循... 针对多模态情感分析中存在的不同模态间语义特征差异性导致模态融合不充分、交互性弱等问题,通过研究分析不同模态之间存在的潜在关联性,搭建一种基于复合跨模态交互网络的时序多模态情感分析(CCIN-SA)模型。该模型首先使用双向门控循环单元和多头注意力机制提取具有上下文语义信息的文本、视觉和语音模态时序特征;然后,设计跨模态注意力交互层,利用辅助模态的低阶信号不断强化目标模态,使得目标模态学习到辅助模态的信息,捕获模态间的潜在适应性;再将增强后的特征输入到复合特征融合层,通过条件向量进一步捕获不同模态间的相似性,增强重要特征的关联程度,挖掘模态间更深层次的交互性;最后,利用多头注意力机制将复合跨模态强化后的特征与低阶信号做拼接融合,提高模态内部重要特征的权重,保留初始模态独有的特征信息,将得到的多模态融合特征进行最终的情感分类任务。在CMU-MOSI和CMUMOSEI数据集上进行模型评估,结果表明,CCIN-SA模型相比其他现有模型在准确率和F1指标上均有提高,能够有效挖掘不同模态间的关联性,做出更加准确的情感判断。 展开更多
关键词 跨模态交互 注意力机制 特征融合 复合融合层 模态情感分析
在线阅读 下载PDF
基于跨模态交互与特征融合网络的假新闻检测方法
2
作者 彭广川 吴飞 +2 位作者 韩璐 季一木 荆晓远 《计算机科学》 CSCD 北大核心 2024年第11期23-29,共7页
近年来,假新闻的激增对人们的决策过程产生了不利影响。现有的假新闻检测方法大多强调对多模态信息(如文本和图像)的探索和利用。然而,如何为检测任务生成有鉴别性的特征并有效地聚合不同模态的特征以进行假新闻检测,仍然是一个开放性... 近年来,假新闻的激增对人们的决策过程产生了不利影响。现有的假新闻检测方法大多强调对多模态信息(如文本和图像)的探索和利用。然而,如何为检测任务生成有鉴别性的特征并有效地聚合不同模态的特征以进行假新闻检测,仍然是一个开放性问题。文中提出了一种新颖的假新闻检测模型,即跨模态交互与特征融合网络(Cross-modal Interaction and Feature Fusion Network,CMIFFN)。为了生成有鉴别性的特征,所提方法设计了一个基于监督对比学习的特征学习模块,通过同时进行模态内和模态间的监督对比学习,来确保异类特征相似度更小,同类特征相似度更大。此外,为了挖掘更多有用的多模态信息,所提方法设计了多阶段跨模态交互模块,通过多阶段的跨模态交互,学习带有图结构信息的跨模态交互特征。所提方法引入基于一致性评估的注意力机制,通过学习多模态一致性权重,来有效聚合模态特定特征和跨模态交互特征。在两个基准数据集Weibo和Twitter上的实验表明,CMIFFN明显优于现有的多模态假新闻检测方法。 展开更多
关键词 假新闻检测 监督对比学习 多阶段跨模态交互 图卷积网络
在线阅读 下载PDF
基于跨模态交互Transformer的多模态方面级情感分析
3
作者 甘卓浩 缪裕青 +2 位作者 刘同来 张万桢 周明 《计算机应用研究》 2025年第9期2707-2713,共7页
针对现有多模态方面级情感分析模型存在的视觉信息提取不充分和方面情感语义缺失问题,提出一种基于跨模态交互Transformer的多模态方面级情感分析模型。该模型通过文本语义增强模块融合图像标题与原始文本以弥补情感语义缺失;利用依存... 针对现有多模态方面级情感分析模型存在的视觉信息提取不充分和方面情感语义缺失问题,提出一种基于跨模态交互Transformer的多模态方面级情感分析模型。该模型通过文本语义增强模块融合图像标题与原始文本以弥补情感语义缺失;利用依存句法分析与图卷积网络构建方面感知特征提取模块,捕获方面项与观点词间的长距离依赖;设计跨模态特征交互模块,结合top-n形容词-名词对分布约束策略及多模态融合Transfor-mer,实现图像与文本特征的深层交互。在Twitter-2015、Twitter-2017和ZOL三个数据集上的实验结果表明,CMIT模型在准确率和宏平均F 1值上均优于多个基准模型,验证了其有效性和泛化能力。 展开更多
关键词 模态方面级情感分析 跨模态交互 Transformer 图卷积网络 形容词-名词对
在线阅读 下载PDF
酱油挥发性风味物质与鲜味和咸味跨模态感知交互作用 被引量:4
4
作者 王昊 李旭 +3 位作者 王文君 张淑妤 何静 赵国忠 《中国酿造》 CAS 北大核心 2024年第1期125-130,共6页
该实验通过液液萃取、溶剂辅助风味物质提取并结合气相色谱-质谱联用(GC-MS)和气相色谱/嗅闻-与滋味相关(GC/O-AT)技术,从3种酱油中共鉴定出17种与鲜味和咸味相关的挥发性风味物质。其中,2,6-二甲基吡嗪、二甲基三硫、3-甲硫基丙醛、1-... 该实验通过液液萃取、溶剂辅助风味物质提取并结合气相色谱-质谱联用(GC-MS)和气相色谱/嗅闻-与滋味相关(GC/O-AT)技术,从3种酱油中共鉴定出17种与鲜味和咸味相关的挥发性风味物质。其中,2,6-二甲基吡嗪、二甲基三硫、3-甲硫基丙醛、1-辛烯-3-醇、3-甲硫基丙醇、2-乙酰基呋喃、麦芽酚、4-乙基愈创木酚、糠醛可以诱导增强0.3%谷氨酸钠(MSG)溶液的鲜味强度。通过分子对接对气味与鲜味跨模态感知交互作用机制研究发现,气味分子可以结合在鲜味受体蛋白捕蝇草结构区(VFD),使鲜味受体蛋白构象发生变化,从而产生味觉信号。明析了酱油中挥发性风味物质诱导鲜味增强分子基础和作用机制,为利用跨模态感知交互作用实现食品减咸增鲜提供了理论依据。 展开更多
关键词 酱油 模态感知交互作用 分子对接 气相色谱/嗅闻-与滋味相关
在线阅读 下载PDF
基于多尺度对比度增强和跨维度交互注意力机制的红外与可见光图像融合 被引量:1
5
作者 邸敬 梁婵 +2 位作者 任莉 郭文庆 廉敬 《红外技术》 CSCD 北大核心 2024年第7期754-764,共11页
针对目前红外与可见光图像融合存在特征提取不足、融合图像目标区域不显著、细节信息缺失等问题,提出了一种多尺度对比度增强和跨维度交互注意力机制的红外与可见光图像融合方法。首先,设计了多尺度对比度增强模块,以增强目标区域强度... 针对目前红外与可见光图像融合存在特征提取不足、融合图像目标区域不显著、细节信息缺失等问题,提出了一种多尺度对比度增强和跨维度交互注意力机制的红外与可见光图像融合方法。首先,设计了多尺度对比度增强模块,以增强目标区域强度信息利于互补信息的融合;其次,采用密集连接块进行特征提取,减少信息损失最大限度利用信息;接着,设计了一种跨维度交互注意力机制,有助于捕捉关键信息,从而提升网络性能;最后,设计了从融合图像到源图像的分解网络使融合图像包含更多的场景细节和更丰富的纹理细节。在TNO数据集上对提出的融合框架进行了评估实验,实验结果表明本文方法所得融合图像目标区域显著,细节纹理丰富,具有更优的融合性能和更强的泛化能力,主观性能和客观评价优于其他对比方法。 展开更多
关键词 红外与可见光图像融合 多尺度对比度增强 跨模态交互注意力机制 分解网络
在线阅读 下载PDF
利用跨模态轻量级YOLOv5模型的PET/CT肺部肿瘤检测
6
作者 周涛 叶鑫宇 +1 位作者 刘凤珍 陆惠玲 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期624-632,共9页
多模态医学图像可在同一病灶处提供更多语义信息,针对跨模态语义相关性未充分考虑和模型复杂度过高的问题,该文提出基于跨模态轻量级YOLOv5(CL-YOLOv5)的肺部肿瘤检测模型。首先,提出学习正电子发射型断层显像(PET)、计算机断层扫描(CT)... 多模态医学图像可在同一病灶处提供更多语义信息,针对跨模态语义相关性未充分考虑和模型复杂度过高的问题,该文提出基于跨模态轻量级YOLOv5(CL-YOLOv5)的肺部肿瘤检测模型。首先,提出学习正电子发射型断层显像(PET)、计算机断层扫描(CT)和PET/CT不同模态语义信息的3分支网络;然后,设计跨模态交互式增强块充分学习多模态语义相关性,余弦重加权计算Transformer高效学习全局特征关系,交互式增强网络提取病灶的能力;最后,提出双分支轻量块,激活函数簇(ACON)瓶颈结构降低参数同时增加网络深度和鲁棒性,另一分支为密集连接的递进重参卷积,特征传递达到最大化,递进空间交互高效地学习多模态特征。在肺部肿瘤PET/CT多模态数据集中,该文模型获得94.76%mAP最优性能和3238 s最高效率,以及0.81 M参数量,较YOLOv5s和EfficientDet-d0降低7.7倍和5.3倍,多模态对比实验中总体上优于现有的先进方法,消融实验和热力图可视化进一步验证。 展开更多
关键词 YOLOv5 跨模态交互式增强块 双分支轻量块 PET/CT多模态肺部肿瘤影像
在线阅读 下载PDF
基于交叉模态注意力特征增强的医学视觉问答
7
作者 刘凯 任洪逸 +2 位作者 李蓥 季怡 刘纯平 《计算机工程》 北大核心 2025年第6期49-56,共8页
医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像... 医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像的局部特征所包含的医学信息与跨模态间的交互作用,从而限制了图像内容理解。针对以上问题,提出一种交叉模态注意力特征增强的Med-VQA模型(CMAG-MVQA)。基于U-Net编码有效增强图像局部特征,从交叉模态协同角度提出选择引导注意力方法,为单模态表征引入其他模态的交互信息,同时利用自注意力机制进一步增强选择引导注意力的图像表征。在VQA-RAD医学问答数据集上的消融与对比实验表明,所提方法在Med-VQA任务上有良好的表现,相比于现有同类方法,其在特征表征上性能得到较好改善。 展开更多
关键词 跨模态交互 注意力机制 医学视觉问答 特征融合 特征增强
在线阅读 下载PDF
基于多尺度特征增强与对齐的跨模态行人检索
8
作者 徐领 缪翌 张卫锋 《现代电子技术》 北大核心 2024年第22期44-50,共7页
为了解决跨模态行人检索从图像和文本中抽取有效的细节特征,以及实现图像与自然语言文本跨模态对齐的问题,提出一种基于多尺度特征增强与对齐的跨模态行人检索模型。该模型引入多模态预训练模型,并构建文本引导的图像掩码建模辅助任务,... 为了解决跨模态行人检索从图像和文本中抽取有效的细节特征,以及实现图像与自然语言文本跨模态对齐的问题,提出一种基于多尺度特征增强与对齐的跨模态行人检索模型。该模型引入多模态预训练模型,并构建文本引导的图像掩码建模辅助任务,充分实现跨模态交互,从而无需显式地标注信息即可增强模型学习图像局部细节特征的能力。另外,针对行人图像身份易混淆问题,设计全局图像特征匹配辅助任务,引导模型学习身份关注的视觉特征。在CUHK-PEDES、ICFG-PEDES和RSTPReid等多个公开数据集上的实验结果表明,所提模型超越了目前已有的主流模型,其第一命中率分别达到了72.47%、62.71%和59.25%,实现了高准确率的跨模态行人检索。 展开更多
关键词 模态行人检索 多尺度特征增强 模态对齐 CLIP 图像掩码 跨模态交互 交叉注意力
在线阅读 下载PDF
基于深度图文细粒度对齐的弱监督多模态情感分析
9
作者 刘洲 马立平 张海燕 《计算机应用研究》 北大核心 2025年第2期419-424,共6页
针对现有多模态情感分析方法在模态对齐上不够精细,深度特征融合时易丢失重要信息的问题,提出了一种图文深度交互模型。该模型摈弃使用图像区域强监督的方式检测图片中的物体,首先将图片平等划分成更精细的区域序列,通过双路融合流的深... 针对现有多模态情感分析方法在模态对齐上不够精细,深度特征融合时易丢失重要信息的问题,提出了一种图文深度交互模型。该模型摈弃使用图像区域强监督的方式检测图片中的物体,首先将图片平等划分成更精细的区域序列,通过双路融合流的深度融合层来对齐多模态数据中蕴涵的潜在模式,并使用自适应门阀优化残差注意力信息的传递。在MSED和MSVA数据集上进行实验,相比较基线模型,在准确率和F 1分数上分别取得了最高1.06%、0.74%和0.75%、0.63%的提升。最后通过可视化细粒度对齐效果和消融实验证明了所提方法的有效性。 展开更多
关键词 模态情感分析 模态细粒度对齐 深度跨模态交互 残差注意力
在线阅读 下载PDF
基于三维跨模态ConvFormer的肺部肿瘤识别
10
作者 周涛 叶鑫宇 +1 位作者 刘凤珍 陆惠玲 《计算机辅助设计与图形学学报》 CSCD 北大核心 2024年第12期1978-1985,共8页
针对三维医学影像因肺部肿瘤形状不规则、差异性大,导致特征提取不充分和识别不准确的问题,提出一种基于CNN和Transformer的三维跨模态肺部肿瘤识别模型3D-CConvFormer.首先,利用三分支网络学习三维PET,CT和PET/CT影像中病灶的特征;其次... 针对三维医学影像因肺部肿瘤形状不规则、差异性大,导致特征提取不充分和识别不准确的问题,提出一种基于CNN和Transformer的三维跨模态肺部肿瘤识别模型3D-CConvFormer.首先,利用三分支网络学习三维PET,CT和PET/CT影像中病灶的特征;其次,设计全局特征与浅层局部特征融合的高效ConvFormer模块,并利用自校正卷积对感受野进行有效扩展,提高每个模态中对病灶信息的提取能力;最后,设计双分支不同分辨率的跨模态特征交互块,利用2个全局注意力机制交叉学习不同模态、全局和局部信息,交互式地增强跨模态特征提取能力.实验采用的肺部肿瘤3D多模态数据集,该数据集共有3173例患者,3D-CConvFormer模型在参数量和运行时间较优的前提下,获得了89.25%的准确率和88.74%的AUC值的最优性能,为三维多模态肺部肿瘤疾病诊断提供可靠的计算机辅助. 展开更多
关键词 肺部肿瘤 ConvFormer 模态特征交互 三维PET/CT多模态影像
在线阅读 下载PDF
基于双重注意力机制的多尺度指代目标分割方法
11
作者 胡梦楠 王蓉 +1 位作者 张文靖 张琪 《计算机辅助设计与图形学学报》 北大核心 2025年第1期148-156,共9页
针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题,提出了基于双重注意力机制的多尺度指代目标分割方法.首先,利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐,... 针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题,提出了基于双重注意力机制的多尺度指代目标分割方法.首先,利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐,并使用双重注意力机制捕捉多模态特征间的依赖性,实现模态间和模态内的交互;其次,利用语言特征作为引导,从其他层次的特征中聚合与目标相关的视觉信息,进一步增强特征表示;然后利用双向ConvLSTM以自下而上和自上而下的方式逐步整合低层次的空间细节和高层次的语义信息;最后,利用不同膨胀因子的空洞卷积融合多尺度信息,增加模型对不同尺度分割目标的感知能力.此外,在UNC,UNC+,GRef和ReferIt基准数据集上进行实验,实验结果表明,文中方法在UNC,UNC+,GRef和ReferIt上的oIoU指标分别提高了1.81个百分点、1.26个百分点、0.84个百分点和0.32个百分点,广泛的消融研究也验证了所提方法中各组成部分的有效性. 展开更多
关键词 指代目标分割 跨模态交互 特征增强 注意力机制 多尺度融合
在线阅读 下载PDF
基于汉字多模信息与象形视觉对齐增强的古籍文本命名实体识别研究
12
作者 郑旭辉 王昊 裘靖文 《情报学报》 北大核心 2025年第4期452-465,共14页
古籍的语义解析与人文计算是建设文化强国的重要组成部分,而古籍文本命名实体识别(named entity recognition,NER)是开展后续古籍知识发现与组织的前提和基础,设计一种适用于简体化文言文特性的命名实体识别模型具有重要的研究意义。汉... 古籍的语义解析与人文计算是建设文化强国的重要组成部分,而古籍文本命名实体识别(named entity recognition,NER)是开展后续古籍知识发现与组织的前提和基础,设计一种适用于简体化文言文特性的命名实体识别模型具有重要的研究意义。汉字本身具有大量象形特征的视觉信息与发音信息,这些更贴合汉字发展历史的知识能够为识别古籍中的实体提供更多的信息以提高模型性能。基于此,本文构建了基于多模态汉字象形表示的GMAE-NER(guwen multi-information alignment enhanced NER)模型,该模型创新性地提出了汉字象形层面里图像与笔画信息的多模态特征处理和对齐方法,实现了将BERT(bidirectional encoder representations from transformers)表征与汉字视觉信息、发音信息相融合,有效增强了古籍文本命名实体识别的效果。本文将模型在纪传体史书《后汉书》上进行了大量的实验与对比,发现相较于基线模型,GMAE-NER在各个类别实体识别的F1指标上均得到了1.32~15.00个百分点的提升,并且能更好地识别出古籍文本中重叠表述的实体,消融分析结果也充分证明了该模型中视觉编码、发音编码与特征融合模块的有效性。 展开更多
关键词 古籍文本 中文命名实体识别 汉字字形 汉字发音 跨模态交互融合
在线阅读 下载PDF
CRAKUT:融合对比区域注意力机制与临床先验知识的U-Transformer用于放射学报告生成
13
作者 梁业东 朱雄峰 +3 位作者 黄美燕 张文聪 郭翰宇 冯前进 《南方医科大学学报》 北大核心 2025年第6期1343-1352,共10页
目的 提出一种对比区域注意力和先验知识融合的U型Transformer模型(CRAKUT),旨在解决文本分布不均衡、缺乏上下文临床知识以及跨模态信息转换等问题,提升生成报告的质量,辅助影像科医生诊断工作。方法 CRAKUT包括3个关键模块:对比注意... 目的 提出一种对比区域注意力和先验知识融合的U型Transformer模型(CRAKUT),旨在解决文本分布不均衡、缺乏上下文临床知识以及跨模态信息转换等问题,提升生成报告的质量,辅助影像科医生诊断工作。方法 CRAKUT包括3个关键模块:对比注意力图像编码器,利用数据集中常见的正常影像提取增强的视觉特征;外部知识注入模块,融合临床先验知识;U型Transformer,通过U型连接架构完成从视觉到语言的跨模态信息转换。在图像编码器中引入的对比区域注意力机制,通过强调正常与异常语义特征之间的差异,增强了异常区域的特征表示。此外,文本编码器中的临床先验知识注入模块结合了临床历史信息及由ChatGPT生成的知识图谱,从而提升了报告生成的上下文理解能力。U型Transformer在多模态编码器与报告解码器之间建立连接,融合多种类型的信息以生成最终的报告。结果 在2个公开的CXR数据集(IU-Xray和MIMIC-CXR)对CRAKUT模型进行评估,结果显示,CRAKUT在报告生成任务中实现了当前最先进的性能。在MIMIC-CXR数据集,CRAKUT取得了BLEU-4分数0.159、ROUGE-L分数0.353、CIDEr分数0.500;在IU-Xray数据集上,METEOR分数达到0.258,均优于以往模型的表现。结论 本文提出的方法在临床疾病诊断和报告生成中具有巨大的应用潜力。 展开更多
关键词 胸部X光 对比区域注意力 临床先验知识 跨模态交互 U-Transformer模型
在线阅读 下载PDF
基于跨模态特征交互和多尺度重建的红外与可见光图像融合
14
作者 姚睿 王凯 +2 位作者 郭浩帆 胡文涛 田祥瑞 《红外与激光工程》 2025年第8期259-270,共12页
针对弱光环境下红外与可见光图像融合存在的纹理细节丢失、视觉效果和实时性差等问题,提出了一种基于跨模态特征交互和多尺度重建(Cross-modal Feature Interaction and Multi-scale Reconstruction,CFIMR)的红外与可见光图像融合算法CF... 针对弱光环境下红外与可见光图像融合存在的纹理细节丢失、视觉效果和实时性差等问题,提出了一种基于跨模态特征交互和多尺度重建(Cross-modal Feature Interaction and Multi-scale Reconstruction,CFIMR)的红外与可见光图像融合算法CFIMRFusion。该算法构建了包括卷积注意力增强模块、编码器网络、跨模态特征交互融合模块和基于多尺度重建的解码器网络的四阶段融合框架。首先,设计卷积注意力增强模块提升弱可见光图像的对比度和纹理可见性,并利用编码器网络从红外图像和增强后的可见光图像中提取深层多尺度特征。然后,提出基于通道-空间注意力的跨模态特征交互融合模块,对红外显著特征和可见光细节特征进行互补融合。最后,为解决使用普通解码器重建图像时出现特征消失等问题,将融合得到的多尺度特征以跳跃连接的方式输入到解码器各级,重建高保真的融合图像。实验结果表明,CFIMRFusion融合图像的细节特征和整体视觉效果优于对比算法;且与最优对比算法相比,融合图像在TNO数据集中平均梯度、边缘强度分别提升了15.8%、18.2%,在LLVIP数据集中互信息、标准差分别提升了11.5%、9.5%,在MSRS数据集中边缘强度提升了10.1%;三个数据集上的融合速度分别为最快对比算法的24.1%、23.86%和25.2%。 展开更多
关键词 图像融合 图像增强 注意力机制 自编码网络 模态特征交互
在线阅读 下载PDF
面向可见光谱图像的跨模态双通道伪装目标检测方法
15
作者 程玉虎 吴世佳 +1 位作者 王浩宇 王雪松 《光谱学与光谱分析》 2025年第9期2632-2641,共10页
面向可见光谱图像的伪装目标检测任务旨在利用可见光谱信息检测和周围环境具有视觉一致性的伪装目标。这种视觉一致性导致的目标边界区分难和辨识性特征学习难等问题,限制了现有目标检测方法在伪装目标检测任务中的有效性。为此,本文提... 面向可见光谱图像的伪装目标检测任务旨在利用可见光谱信息检测和周围环境具有视觉一致性的伪装目标。这种视觉一致性导致的目标边界区分难和辨识性特征学习难等问题,限制了现有目标检测方法在伪装目标检测任务中的有效性。为此,本文提出一种跨模态动态协同双通道网络(CDCDN),探索了全局-局部多层次视觉感知和视觉-语言模型(VLM)在伪装目标检测中的应用潜力。具体而言,首先,针对目标边界区分难,设计了动态协同双通道模块,通过双通道将检测过程解耦为全局信息定位和局部特征细化,从多层次的视觉角度进行针对性的检测和优化。在此基础上构建了动态信息协同及融合机制,通过全局门控约束与局部感知校正实现了全局与局部信息的相互补充和校正,从而增强了目标检测模型在目标边界模糊场景中的空间捕获能力。其次,针对辨识性特征学习难,设计了跨模态场景对象匹配模块,通过引入VLM来建立视觉和语言模态的跨模态交互,增强了目标与背景在特征空间中的差异性,从而提升了目标检测模型在缺乏辨识性特征场景中的语义区分能力。在MHCD2022和COD10K两个数据集上分别评估了mAP@0.5、mAP@0.5∶0.95和mAP@0.75指标。CDCDN在MHCD2022数据集上分别达到67.6%、42.6%和48.4%,在COD10K数据集上分别达到67.9%、40.6%和41.0%。与五种主流的目标检测方法Faster R-CNN、DETR、Lite-DETR、YOLOv5、YOLOv10相比,CDCDN在三个指标上均取得了最优的检测精度。荒地、草地、树林和雪地四种常见伪装场景的可视化检测结果进一步验证了CDCDN具有良好的场景适应性。在消融实验中,逐步消融CDCDN中的关键组件,以系统地评估其贡献,结果显示各个关键组件都有助于模型检测性能的提升。综合实验结果表明,CDCDN可准确检测和周围环境具有高度视觉一致性的伪装目标,为伪装目标检测提供了一种新的解决方案。 展开更多
关键词 可见光谱 伪装目标检测 双通道解耦 信息协同 跨模态交互
在线阅读 下载PDF
基于音视频特征融合的情感识别方法研究 被引量:2
16
作者 帖云 程慧杰 +2 位作者 靳聪 李小兵 齐林 《重庆理工大学学报(自然科学)》 CAS 北大核心 2022年第1期120-127,共8页
传统的视频情感识别工作主要集中在面部表情、人体的动作行为等,忽略了场景和对象中包含大量的情感线索及不同对象之间的情感关联。因此,提出了一个基于视觉关系推理和跨模态信息学习的音视频特征融合网络模型用于预测视频情感。模型主... 传统的视频情感识别工作主要集中在面部表情、人体的动作行为等,忽略了场景和对象中包含大量的情感线索及不同对象之间的情感关联。因此,提出了一个基于视觉关系推理和跨模态信息学习的音视频特征融合网络模型用于预测视频情感。模型主要包括三部分:对象间的情感关系推理、声学特征提取、跨模态交互融合。首先,采用Mask R-CNN模型提取出包含物体的区域并提取出相应的特征序列,利用图注意力网络对视频帧中的不同区域之间的情感关联进行推理,找到视频帧中的关键区域;然后,利用双向长短时记忆网络提取对数梅尔频谱片段的帧级上下文信息,对视觉信息进行补充;最后,将多头注意力机制应用到跨模态交互融合模块中去学习不同模态信息之间的隐藏关联,并将利用跨模态注意得到的音视频特征利用门控神经网络进行融合。所提出的模型在数据集Video Emotion-8和Ekman上具有较好的精确度。 展开更多
关键词 情感识别 情感关系推理 跨模态交互 图卷积神经网络 多头注意力机制
在线阅读 下载PDF
基于自然语言的视频片段定位综述
17
作者 聂秀山 潘嘉男 +3 位作者 谭智方 刘新放 郭杰 尹义龙 《计算机科学》 CSCD 北大核心 2022年第9期111-122,共12页
自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有... 自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有更强的灵活性,因为它不受预定义动作列表的限制;同时也更具挑战性,因为NLVL需要从视频和文本两种模态间对齐语义信息。此外,在对齐关系中获取最终的时间戳也是一个艰巨的任务。首先,描述了NLVL的流程;其次,根据是否有监督信息将NLVL算法分为监督方法和弱监督方法两大类并分析其优缺点;然后,总结了常用的数据集和评估指标,对现有的研究进行了总体性能的评估和分析;最后,讨论了技术难点及未来的研究趋势,为今后的工作提供参考。 展开更多
关键词 模态检索 视频片段定位 视频理解 模态对齐 跨模态交互
在线阅读 下载PDF
深度学习时代下的RGB-D显著性目标检测研究进展 被引量:4
18
作者 丛润民 张晨 +2 位作者 徐迈 刘鸿羽 赵耀 《软件学报》 EI CSCD 北大核心 2023年第4期1711-1731,共21页
受人类的视觉注意力机制启发,显著性目标检测任务旨在定位给定场景中最吸引人注意的目标或区域.近年来,随着深度相机的发展和普及,深度图像已经被成功应用于各类计算机视觉任务,这也为显著性目标检测技术提供了新思路.通过引入深度图像... 受人类的视觉注意力机制启发,显著性目标检测任务旨在定位给定场景中最吸引人注意的目标或区域.近年来,随着深度相机的发展和普及,深度图像已经被成功应用于各类计算机视觉任务,这也为显著性目标检测技术提供了新思路.通过引入深度图像,不仅能使计算机更加全面地模拟人类视觉系统,而且深度图像所提供的结构、位置等补充信息也可以为低对比度、复杂背景等困难场景的检测提供新的解决方案.鉴于深度学习时代下RGB-D显著目标检测任务发展迅速,旨在从该任务关键问题的解决方案出发,对现有相关研究成果进行归纳、总结和梳理,并在常用RGB-DSOD数据集上进行不同方法的定量分析和定性比较.最后,对该领域面临的挑战及未来的发展趋势进行总结与展望. 展开更多
关键词 显著性目标检测 RGB-D图像 模态信息交互 深度质量感知
在线阅读 下载PDF
气味与滋味间相互作用对食品风味感知影响研究进展 被引量:21
19
作者 田怀香 郑国茂 +2 位作者 于海燕 陈臣 娄新曼 《食品科学》 EI CAS CSCD 北大核心 2023年第9期259-269,共11页
食品风味是影响消费者购买欲的重要因素,而风味感知的形成受嗅觉、味觉等多种感官的共同影响,利用气味与滋味间感知交互作用改善食品风味已成为最受关注的食品风味调控新方向之一。基于此,本文首先从神经生物学角度分析嗅觉与味觉间跨... 食品风味是影响消费者购买欲的重要因素,而风味感知的形成受嗅觉、味觉等多种感官的共同影响,利用气味与滋味间感知交互作用改善食品风味已成为最受关注的食品风味调控新方向之一。基于此,本文首先从神经生物学角度分析嗅觉与味觉间跨模态感知交互作用的主要形成通路及机制,然后从静态感官分析和动态感官分析两个方面总结跨模态感知交互作用的主要研究方法,最后结合相关文献案例分别综述气味物质对味觉感知(甜、咸、苦、鲜和酸)以及滋味物质对嗅觉感知的影响,旨在为食品加工过程风味品质的调控提供新思路。 展开更多
关键词 气味 滋味 风味感知通路 模态感知交互作用 感官分析
在线阅读 下载PDF
基于对比学习的声源定位引导视听分割模型
20
作者 黄文湖 赵邢 +2 位作者 谢亮 梁浩然 梁荣华 《浙江大学学报(工学版)》 2025年第9期1803-1813,共11页
针对视听分割任务中背景噪声阻碍有效信息交互和物体辨别的问题,提出基于对比学习的声源定位引导视听分割模型(SSL2AVS).采用从定位到分割的两阶段策略,通过声源定位引导视觉特征优化,从而减少背景噪声干扰,使模型适用于复杂场景中的视... 针对视听分割任务中背景噪声阻碍有效信息交互和物体辨别的问题,提出基于对比学习的声源定位引导视听分割模型(SSL2AVS).采用从定位到分割的两阶段策略,通过声源定位引导视觉特征优化,从而减少背景噪声干扰,使模型适用于复杂场景中的视听分割.在分割前引入目标定位模块,利用对比学习方法对齐视听模态并生成声源热力图,实现发声物体粗定位;引入特征增强模块,构建多尺度特征金字塔网络,利用定位结果动态地加权融合浅层空间细节特征与深层语义特征,在引导增强目标物体视觉特征的同时抑制背景噪声.2个模块协同作用,增强物体的视觉表示,使模型专注于物体辨识.为了优化定位结果,提出辅助定位损失函数,促使模型关注与音频特征匹配的图像区域.实验结果表明,模型在MS3数据集上的mIoU为62.15,高于基线AVSegFormer模型. 展开更多
关键词 视听分割 跨模态交互 声源定位 对比学习 特征增强
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部