期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于跨模态注意力机制和弱监督式对比学习的虚假新闻检测模型
1
作者 蔡松睿 张仕斌 +2 位作者 丁润宇 卢嘉中 黄源源 《信息安全研究》 北大核心 2025年第8期693-701,共9页
随着互联网和智能设备的广泛普及,社交媒体已成为新闻传播的主要平台.然而这也为虚假新闻的广泛传播提供了条件.在当前的社交媒体环境中,虚假新闻以文本、图片等多种模态存在,而现有的多模态虚假新闻检测技术通常未能充分挖掘不同模态... 随着互联网和智能设备的广泛普及,社交媒体已成为新闻传播的主要平台.然而这也为虚假新闻的广泛传播提供了条件.在当前的社交媒体环境中,虚假新闻以文本、图片等多种模态存在,而现有的多模态虚假新闻检测技术通常未能充分挖掘不同模态之间的内在联系,限制了检测模型的整体性能.为了解决这一问题,提出了一种基于跨模态注意力机制和弱监督式对比学习的虚假新闻检测模型.该模型利用预训练的BERT和ViT模型分别提取文本和图像特征,通过跨模态注意力机制有效融合多模态特征.同时,该模型引入了弱监督式对比学习,利用有效模态的预测结果作为监督信号指导对比学习过程,能够有效捕捉和利用文本与图像间的互补信息,从而提升了模型在多模态环境下的性能和鲁棒性.仿真实验表明,提出的虚假新闻检测模型在公开的Weibo17和Weibo21数据集上表现出色,与目前最先进的方法相比,准确率平均提升了1.17个百分点,F 1分数平均提升了1.66个百分点,验证了其在应对多模态虚假新闻检测任务中的有效性和可行性. 展开更多
关键词 虚假新闻检测 模态融合 跨模态注意力机制 对比学习 深度学习
在线阅读 下载PDF
基于跨模态注意力融合的煤炭异物检测方法 被引量:5
2
作者 曹现刚 李虎 +3 位作者 王鹏 吴旭东 向敬芳 丁文韬 《工矿自动化》 CSCD 北大核心 2024年第1期57-65,共9页
为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采... 为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采用浅层的特征提取策略提取Depth图像的低级特征,用深度边缘与深度纹理等基础特征辅助RGB图像深层特征,以有效获得2种特征的互补信息,从而丰富异物特征的空间与边缘信息,提高检测精度;构建了基于坐标注意力与改进空间注意力的跨模态注意力融合模块(CAFM),以协同优化并融合RGB特征与Depth特征,增强网络对特征图中被遮挡异物可见部分的关注度,提高被遮挡异物检测精度;使用区域卷积神经网络(R-CNN)输出煤炭异物的分类、回归与分割结果。实验结果表明:在检测精度方面,该方法的AP相较两阶段模型中较优的Mask transfiner高3.9%;在检测效率方面,该方法的单帧检测时间为110.5 ms,能够满足异物检测实时性需求。基于跨模态注意力融合的煤炭异物检测方法能够以空间特征辅助色彩、形状与纹理等特征,准确识别煤炭异物之间及煤炭异物与输送带之间的差异,从而有效提高对复杂特征异物的检测精度,减少误检、漏检现象,实现复杂特征下煤炭异物的精确检测与像素级分割。 展开更多
关键词 煤炭异物检测 实例分割 双特征金字塔网络 跨模态注意力融合 Depth图像 坐标注意力 改进空间注意力
在线阅读 下载PDF
基于跨模态交叉注意力网络的多模态情感分析方法 被引量:4
3
作者 王旭阳 王常瑞 +1 位作者 张金峰 邢梦怡 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第2期84-93,共10页
挖掘不同模态内信息和模态间信息有助于提升多模态情感分析的性能,本文为此提出一种基于跨模态交叉注意力网络的多模态情感分析方法。首先,利用VGG-16网络将多模态数据映射到全局特征空间;同时,利用Swin Transformer网络将多模态数据映... 挖掘不同模态内信息和模态间信息有助于提升多模态情感分析的性能,本文为此提出一种基于跨模态交叉注意力网络的多模态情感分析方法。首先,利用VGG-16网络将多模态数据映射到全局特征空间;同时,利用Swin Transformer网络将多模态数据映射到局部特征空间;其次,构造模态内自注意力和模态间交叉注意力特征;然后,设计一种跨模态交叉注意力融合模块实现不同模态内和模态间特征的深度融合,提升多模态特征表达的可靠性;最后,通过Softmax获得最终预测结果。在2个开源数据集CMU-MOSI和CMU-MSOEI上进行测试,本文模型在七分类任务上获得45.9%和54.1%的准确率,相比当前MCGMF模型,提升了0.66%和2.46%,综合性能提升显著。 展开更多
关键词 情感分析 模态 模态交叉注意力 注意力 局部和全局特征
在线阅读 下载PDF
基于多尺度对比度增强和跨维度交互注意力机制的红外与可见光图像融合 被引量:1
4
作者 邸敬 梁婵 +2 位作者 任莉 郭文庆 廉敬 《红外技术》 CSCD 北大核心 2024年第7期754-764,共11页
针对目前红外与可见光图像融合存在特征提取不足、融合图像目标区域不显著、细节信息缺失等问题,提出了一种多尺度对比度增强和跨维度交互注意力机制的红外与可见光图像融合方法。首先,设计了多尺度对比度增强模块,以增强目标区域强度... 针对目前红外与可见光图像融合存在特征提取不足、融合图像目标区域不显著、细节信息缺失等问题,提出了一种多尺度对比度增强和跨维度交互注意力机制的红外与可见光图像融合方法。首先,设计了多尺度对比度增强模块,以增强目标区域强度信息利于互补信息的融合;其次,采用密集连接块进行特征提取,减少信息损失最大限度利用信息;接着,设计了一种跨维度交互注意力机制,有助于捕捉关键信息,从而提升网络性能;最后,设计了从融合图像到源图像的分解网络使融合图像包含更多的场景细节和更丰富的纹理细节。在TNO数据集上对提出的融合框架进行了评估实验,实验结果表明本文方法所得融合图像目标区域显著,细节纹理丰富,具有更优的融合性能和更强的泛化能力,主观性能和客观评价优于其他对比方法。 展开更多
关键词 红外与可见光图像融合 多尺度对比度增强 模态交互注意力机制 分解网络
在线阅读 下载PDF
结合光流算法与注意力机制的U-Net网络跨模态视听语音分离 被引量:3
5
作者 兰朝凤 蒋朋威 +2 位作者 陈欢 韩闯 郭小霞 《电子与信息学报》 EI CSCD 北大核心 2023年第10期3538-3546,共9页
目前多数的视听分离模型,大多是基于视频特征和音频特征简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,该文针对此问题提出了新的模型。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合稠... 目前多数的视听分离模型,大多是基于视频特征和音频特征简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,该文针对此问题提出了新的模型。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合稠密光流(Farneback)算法和U-Net网络,提出跨模态融合的光流-视听语音分离(Flow-AVSS)模型。该模型通过Farneback算法和轻量级网络ShuffleNet v2分别提取运动特征和唇部特征,然后将运动特征与唇部特征进行仿射变换,经过时间卷积模块(TCN)得到视觉特征。为充分利用到视觉信息,在进行特征融合时采用多头注意力机制,将视觉特征与音频特征进行跨模态融合,得到融合视听特征,最后融合视听特征经过U-Net分离网络得到分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及源失真比(SDR)评价指标,在AVspeech数据集进行实验测试。研究表明,该文所提方法与纯语音分离网络和仅采用特征拼接的视听分离网络相比,性能上分别提高了2.23 dB和1.68 dB。由此表明,采用跨模态注意力进行特征融合,能更加充分利用各个模态相关性,增加的唇部运动特征,能有效提高视频特征的鲁棒性,提高分离效果。 展开更多
关键词 视听语音分离 视听融合 跨模态注意力 光流算法
在线阅读 下载PDF
面向肺部肿瘤分类的跨模态Light-3Dformer模型
6
作者 周涛 牛玉霞 +2 位作者 叶鑫宇 刘隆 陆惠玲 《电子学报》 北大核心 2025年第3期951-961,共11页
基于深度学习的三维多模态正电子发射型断层扫描/计算机断层扫描(Positron Emission Tomography/Computed Tomography,PET/CT)肺部肿瘤识别是一个重要的研究方向.肺部肿瘤病灶的空间形状不规则、与周围组织边界模糊,导致模型难以充分提... 基于深度学习的三维多模态正电子发射型断层扫描/计算机断层扫描(Positron Emission Tomography/Computed Tomography,PET/CT)肺部肿瘤识别是一个重要的研究方向.肺部肿瘤病灶的空间形状不规则、与周围组织边界模糊,导致模型难以充分提取肿瘤特征,且模型在三维任务中需要较高的计算复杂度.针对上述问题,本文提出一种跨模态Light-3Dformer的三维肺部肿瘤识别模型.本文的主要创新工作有以下几个方面.首先,采用主、辅网络结构,其中主干网络提取PET/CT图像特征,辅助网络提取PET图像和CT图像特征,并采用轻量化跨模态协同注意力实现多模态特征增强和交互式学习.其次,设计Light-3Dformer模块,在该模块中,将Transformer的2次矩阵乘法操作更新为全局注意力机制Lightformer的线性元素乘法操作;设计级联Lightformer结构,其输出特征图和最初的输入特征图融合,通过并行和融合更多的深浅层特征,可以实现轻量化和提取丰富的梯度信息;设计无参数的注意力,该机制能从通道、空间和断层3个方面增强肺部肿瘤特征提取能力.再次,设计轻量化跨模态协同注意力模块(Light Cross-modal Collaborative Attention Module,LCCAM),该模块能充分学习三维多模态影像的跨模态优势信息,对深浅层特征进行交互式学习.最后,进行消融实验和对比实验,在自建的肺部肿瘤三维多模态数据集中,本文模型在计算量和运行时间最优的前提下,准确率和曲线下面积(Area Under the Curve,AUC)值分别达到90.19%和89.81%,与3D-SwinTransformer-S模型相比,参数量降低117倍,计算量降低400倍.实验结果表明:本文模型能更好地提取肺部肿瘤病灶的多模态信息,这为深度学习三维模型轻量化和多模态交互提供了新思路. 展开更多
关键词 肺部肿瘤 模态图像 Transformer Light-3Dformer 轻量化模态协同注意力
在线阅读 下载PDF
基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离 被引量:1
7
作者 兰朝凤 蒋朋威 +4 位作者 陈欢 赵世龙 郭小霞 韩玉兰 韩闯 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第3期1005-1012,共8页
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型... 目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。 展开更多
关键词 语音分离 视听融合 跨模态注意力 双路径递归网络 Conv-TasNet
在线阅读 下载PDF
基于自适应图学习权重的多模态情感分析
8
作者 曲海成 徐波 《智能系统学报》 北大核心 2025年第2期516-528,共13页
在多模态情感分析任务中,由于不同模态表现方式的不一致性,模态间的情感信息密度具有较大的差异。为了平衡情感信息在不同模态中分布的不均匀性并减少多模态特征表示的冗余性,提出了一种基于自适应图学习权重的多模态情感分析方法。首先... 在多模态情感分析任务中,由于不同模态表现方式的不一致性,模态间的情感信息密度具有较大的差异。为了平衡情感信息在不同模态中分布的不均匀性并减少多模态特征表示的冗余性,提出了一种基于自适应图学习权重的多模态情感分析方法。首先,采用不同的特征提取方法捕获单一模态内的特定信息;其次,将不同模态通过公共编码器映射到同一空间中,利用跨模态注意力机制来显式构建模态间的关联;然后,将每种模态对任务分类的预测值以及模态表示嵌入到自适应图中,通过模态标签学习不同模态对最终分类任务的贡献度来动态调整不同模态之间的权重,以适应主导模态的变化;最后,引入信息瓶颈机制进行去噪,旨在学习一种无冗余的多模态特征表示进行情感预测。在公开的多模态情感分析数据集上对所提出的模型进行了评估。实验结果表明,其有效提升了多模态情感分析的准确性。 展开更多
关键词 模态 情感分析 模态差异性 信息冗余 自适应图学习 跨模态注意力 相似性约束 信息瓶颈
在线阅读 下载PDF
基于跨模态联合编码的多模态情感分析 被引量:1
9
作者 孙斌 江涛 +1 位作者 贾莉 崔伊明 《计算机工程与应用》 CSCD 北大核心 2024年第18期208-216,共9页
如何提高多模态融合特征的有效性是多模态情感分析领域的热点问题之一。以往的研究大多通过设计复杂的融合策略获取融合特征表示,这些方法往往忽略了模态间复杂的关联关系,同时存在着由于模态信息不一致所导致的融合特征有效性降低问题... 如何提高多模态融合特征的有效性是多模态情感分析领域的热点问题之一。以往的研究大多通过设计复杂的融合策略获取融合特征表示,这些方法往往忽略了模态间复杂的关联关系,同时存在着由于模态信息不一致所导致的融合特征有效性降低问题,进而影响模型的性能。针对上述问题,提出一种基于跨模态联合编码的多模态情感分析模型。在特征提取方面,利用预训练模型BERT和Facet模型分别提取文本和视觉特征,经过一维卷积操作获取相同维度的单模态特征表示。特征融合方面,利用跨模态注意力模块获得两模态的联合特征,使用联合特征分别调整单模态特征的权重,将两者拼接后获得多模态融合特征,最终输入到全连接层中进行情感识别。在公开数据集CMU-MOSI上的广泛实验表明,该模型的情感分析结果优于大多数现有先进的多模态情感分析方法,能够有效提升情感分析的性能。 展开更多
关键词 模态情感分析 联合编码 跨模态注意力 模态融合
在线阅读 下载PDF
情感分析的跨模态Transformer组合模型
10
作者 王亮 王屹 王军 《计算机工程与应用》 CSCD 北大核心 2024年第13期124-135,共12页
基于Transformer的端到端组合深度学习模型是多模态情感分析的主流模型。针对相关工作中此类模型存在的低资源(low-resource)模态数据的情感特征提取能力不足、不同模态非对齐数据的特征尺度差异导致对齐融合过程中易丢失关键特征信息... 基于Transformer的端到端组合深度学习模型是多模态情感分析的主流模型。针对相关工作中此类模型存在的低资源(low-resource)模态数据的情感特征提取能力不足、不同模态非对齐数据的特征尺度差异导致对齐融合过程中易丢失关键特征信息、基础注意力模型并行处理多模态数据导致多模态长期依赖机制不可靠的问题,提出了一种基于轻量级注意力聚合模块与跨模态Transformer的能使用多模态非对齐数据执行二分类和多分类任务的多模态情感分析模型LAACMT。LAACMT模型提出采用门控循环单元与改进的特征提取算法提取低资源模态信息,提出位置编码配合卷积放缩方法用于对齐多模态语境,提出跨模态多头注意力机制融合已对齐的多模态数据并建立可靠的跨模态长期依赖机制。LAACMT模型在包含文本、语音和视频的三种模态非对齐数据集CMU-MOSI上的实验结果表明该模型的性能评价指标较SOTA有稳定提升。其中Acc7提升了3.96%、Acc2提升了4.08%、F1分数提升了3.35%。消融实验结果数据证明所提模型解决了多模态情感分析相关工作中存在的问题,降低了基于Transformer的多模态情感分析模型的复杂度,提升了模型性能的同时避免了过拟合问题。 展开更多
关键词 模态情感分析 轻量级注意力聚合模块 模态Transformer 门控循环单元 模态多头注意力机制
在线阅读 下载PDF
面向跨模态数据协同分析的视觉问答方法综述 被引量:1
11
作者 崔政 胡永利 +1 位作者 孙艳丰 尹宝才 《北京工业大学学报》 CAS CSCD 北大核心 2022年第10期1088-1099,共12页
协同分析和处理跨模态数据一直是现代人工智能领域的难点和热点,其主要挑战是跨模态数据具有语义和异构鸿沟.近年来,随着深度学习理论和技术的快速发展,基于深度学习的算法在图像和文本处理领域取得了极大的进步,进而产生了视觉问答(vis... 协同分析和处理跨模态数据一直是现代人工智能领域的难点和热点,其主要挑战是跨模态数据具有语义和异构鸿沟.近年来,随着深度学习理论和技术的快速发展,基于深度学习的算法在图像和文本处理领域取得了极大的进步,进而产生了视觉问答(visual question answering,VQA)这一课题.VQA系统利用视觉信息和文本形式的问题作为输入,得出对应的答案,核心在于协同理解和处理视觉、文本信息.因此,对VQA方法进行了详细综述,按照方法原理将现有的VQA方法分为数据融合、跨模态注意力和知识推理3类方法,全面总结分析了VQA方法的最新进展,介绍了常用的VQA数据集,并对未来的研究方向进行了展望. 展开更多
关键词 模态数据 深度学习 视觉问答 数据融合 跨模态注意力 知识推理
在线阅读 下载PDF
结合社交网络图的多模态虚假信息检测模型 被引量:4
12
作者 叶舟波 罗舜 于娟 《计算机应用研究》 CSCD 北大核心 2024年第7期1992-1998,共7页
针对现有虚假信息检测方法主要基于单模态数据分析,检测时忽视了信息之间相关性的问题,提出了结合社交网络图的多模态虚假信息检测模型。该模型使用预训练Transformer模型和图像描述模型分别从多角度提取各模态数据的语义,并通过融合信... 针对现有虚假信息检测方法主要基于单模态数据分析,检测时忽视了信息之间相关性的问题,提出了结合社交网络图的多模态虚假信息检测模型。该模型使用预训练Transformer模型和图像描述模型分别从多角度提取各模态数据的语义,并通过融合信息传播过程中的社交网络图,在文本和图像模态中加入传播信息的特征,最后使用跨模态注意力机制分配各模态信息权重以进行虚假信息检测。在推特和微博两个真实数据集上进行对比实验,所提模型的虚假信息检测准确率稳定为约88%,高于EANN、PTCA等现有基线模型。实验结果表明所提模型能够有效融合多模态信息,从而提高虚假信息检测的准确率。 展开更多
关键词 网络舆情 虚假信息检测 模态融合 跨模态注意力 社交网络图
在线阅读 下载PDF
基于双编码器的多模态融合方法
13
作者 黄晓飞 郭卫斌 《计算机科学》 CSCD 北大核心 2024年第9期207-213,共7页
双编码器模型比融合编码器模型具有更快的推理速度,且能在推理过程中对图像和文本进行预计算。然而,双编码器模型中使用的浅交互模块不足以处理复杂的视觉语言理解任务。针对上述问题,提出了一种新的多模态融合方法。首先,提出一种前交... 双编码器模型比融合编码器模型具有更快的推理速度,且能在推理过程中对图像和文本进行预计算。然而,双编码器模型中使用的浅交互模块不足以处理复杂的视觉语言理解任务。针对上述问题,提出了一种新的多模态融合方法。首先,提出一种前交互式桥塔结构(PBTS),在单模态编码器的顶层和跨模态编码器的每层之间建立连接,使得不同语义层次的视觉和文本表示之间能够进行全面、自下而上的交互,从而实现更有效的跨模态对齐和融合。同时,为了更好地学习图像和文本的深度交互,提出了一种两阶段跨模态注意力双蒸馏方法(TCMDD),使用融合编码器模型作为教师模型,在预训练阶段和调优阶段同时对单模态编码器及融合模块的跨模态注意力矩阵进行知识蒸馏。使用400万张图片进行预训练并在3个公开数据集上进行调优来验证该方法的有效性。实验结果表明,所提多模态融合方法在多个视觉语言理解任务中获得了更优的性能。 展开更多
关键词 模态融合 双编码器 跨模态注意力蒸馏 桥塔结构
在线阅读 下载PDF
基于细粒度图像-方面的情感增强方面级情感分析
14
作者 余本功 陈明玥 《计算机应用研究》 北大核心 2025年第4期1073-1079,共7页
为了缩小模态间的异质性差异并缓解多个方面词带来的情感混淆,提出一种基于细粒度图像-方面的情感增强多模态方面级情感分析。具体地,该模型经过文本图像编码后,首先利用形容词-名词对将与方面词相关的图像信息加入到文本方面词中,并通... 为了缩小模态间的异质性差异并缓解多个方面词带来的情感混淆,提出一种基于细粒度图像-方面的情感增强多模态方面级情感分析。具体地,该模型经过文本图像编码后,首先利用形容词-名词对将与方面词相关的图像信息加入到文本方面词中,并通过细粒度图像-方面跨模态注意力机制优化图像表征,得到细粒度方面词-图像特征;接着,基于句法结构引入情感得分,得到基于方面词的文本情感特征;最后,进行模态融合得到最终情感预测结果。在Twitter-2015和Twitter-2017数据集上,与基线模型TMSC相比,提出模型值准确率分别提高了0.25百分点和0.16百分点,充分证明了细粒度的图文匹配和情感增强操作有助于提高分类效果。 展开更多
关键词 模态方面级情感分析 形容词-名词对 跨模态注意力机制 情感分数 模态融合
在线阅读 下载PDF
基于一对多关系的多模态虚假新闻检测 被引量:1
15
作者 袁玥 刘永彬 +2 位作者 欧阳纯萍 田纹龙 方文泷 《中文信息学报》 CSCD 北大核心 2023年第9期131-139,共9页
面向多模态的虚假新闻检测工作大部分是利用文本和图片之间的一对一关系,将文本特征和图片特征进行简单融合,忽略了帖子内多张图片内容的有效特征,对帖子间的语义关联建模不足。为了克服现有方法的局限性,该文提出了一种基于文图一对多... 面向多模态的虚假新闻检测工作大部分是利用文本和图片之间的一对一关系,将文本特征和图片特征进行简单融合,忽略了帖子内多张图片内容的有效特征,对帖子间的语义关联建模不足。为了克服现有方法的局限性,该文提出了一种基于文图一对多关系的多模态虚假新闻检测模型。利用跨模态注意力网络筛选多张图片的有效特征,通过多模态对比学习网络动态调整帖子间高层次的语义特征关联,增强融合图文特征的联合表示。在新浪微博数据集上的实验结果表明,该模型能充分利用文图一对多关系的有效信息和帖子之间的语义特征关系,比基线模型准确率提升了3.15%。 展开更多
关键词 虚假新闻检测 跨模态注意力机制 模态对比学习
在线阅读 下载PDF
基于多模态时-频特征融合的信号调制格式识别方法 被引量:2
16
作者 贺超 陈进杰 +1 位作者 金钊 雷印杰 《计算机科学》 CSCD 北大核心 2023年第4期226-232,共7页
自动调制识别(Automatic Modulation Recognition,AMR)是认知无线电中的关键技术,在无线通信中有着广泛应用。针对现有的自动调制识别方法大多都只利用了信号时域或频域的单模态信息,忽略了多模态信息之间的互补性的问题,提出了一种基... 自动调制识别(Automatic Modulation Recognition,AMR)是认知无线电中的关键技术,在无线通信中有着广泛应用。针对现有的自动调制识别方法大多都只利用了信号时域或频域的单模态信息,忽略了多模态信息之间的互补性的问题,提出了一种基于多模态时-频特征融合的信号调制格式识别方法。首先,在融合之前利用对比学习对齐信号的时域特征和频域特征,减小时-频特征间的异质性差异。然后,采用跨模态注意力实现时域特征和频域特征的互补性融合。最后,为了进一步提高模型整体的性能,在频域编码器中引入残差收缩模块来提取信号时频图的频域特征,并在时域编码器中引入复数双向门控循环单元,以提取I和Q两路信号之间的相关性特征及信号时序特征。在RadioML2016a上进行了实验,结果表明,所提方法具有较高的识别准确率和噪声鲁棒性。 展开更多
关键词 自动调制识别 跨模态注意力融合 对比学习 残差收缩模块 复数双向门控循环单元
在线阅读 下载PDF
联合双粒度图像信息的多模态方面级情感分析
17
作者 许威 张晓琳 +1 位作者 张换香 张景 《计算机科学与探索》 2025年第9期2479-2492,共14页
多模态方面级情感分析(MABSA)作为一种细粒度情感分析技术,旨在通过整合多种模态的特征数据来提高该领域的精度和效果。现有的多模态方面级情感分析的研究大多集中在文本和图像模态间的跨模态对齐上,忽略了图像的粗细粒度特征信息对MABS... 多模态方面级情感分析(MABSA)作为一种细粒度情感分析技术,旨在通过整合多种模态的特征数据来提高该领域的精度和效果。现有的多模态方面级情感分析的研究大多集中在文本和图像模态间的跨模态对齐上,忽略了图像的粗细粒度特征信息对MABSA子任务的潜在贡献。为此,提出一种联合双粒度图像信息的多模态方面级情感分析方法(CDGI)。在多模态方面词提取任务中,为增强图像与文本模态的交互,利用ClipCap获取图像的粗粒度特征描述文本,作为图像提示信息,辅助模型预测文本中的方面词及其属性。在多模态方面词情感分类中,为了捕获丰富的图像细粒度情感特征,通过跨模态注意力机制,将带有原始情感语义的图像底层特征与掩码后的文本经过多层深度交互,强化图像特征到文本特征的融合。在两个公共的Twitter数据集和Restaurant+数据集上的实验结果表明,CDGI的表现优于当前的基线模型,验证了图像粗细粒度特征对MABSA子任务不同贡献度的合理性。 展开更多
关键词 模态方面级情感分析 双粒度图像信息 模态交互 模态融合 跨模态注意力
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部