期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
基于多模态特征融合的车辆网络波束赋形方法
1
作者 聂佳莉 崔原豪 +3 位作者 张迪 张荣辉 穆俊生 景晓军 《雷达学报(中英文)》 北大核心 2025年第4期994-1004,共11页
波束赋形技术通过向特定方向发射信号,提高了接收信号的功率。然而,在高速动态的车辆网络场景下,频繁的信道状态更新与波束调整导致系统开销过大;波束与用户位置难以实时对齐,易出现错位现象,影响通信稳定性;复杂路况中的遮挡和信道衰... 波束赋形技术通过向特定方向发射信号,提高了接收信号的功率。然而,在高速动态的车辆网络场景下,频繁的信道状态更新与波束调整导致系统开销过大;波束与用户位置难以实时对齐,易出现错位现象,影响通信稳定性;复杂路况中的遮挡和信道衰落进一步限制了波束赋形的效果。为了解决上述问题,该文提出了一种基于卷积神经网络和注意力机制模型的多模态特征融合波束赋形方法,以实现感知辅助的高可靠通信。模型首先对传感器采集的雷达、激光雷达数据分别定制数据转换和标准化策略,解决数据异构问题。然后使用三维卷积残差块提取多层次高阶多模态特征后,利用注意力机制模型融合特征并预测最佳波束,实现通信性能的优化。实验结果表明,该文所提方法在高速场景下可达到接近90%的平均Top-3波束预测精度,相比单模态方案性能显著提升,验证了其在提升通信性能和可靠性方面的优越性。 展开更多
关键词 感知辅助通信 多模态特征融合 雷达信号处理 波束赋形 注意力机制
在线阅读 下载PDF
基于通道加权的多模态特征融合用于EEG疲劳驾驶检测
2
作者 程文鑫 闫光辉 +2 位作者 常文文 吴佰靖 黄亚宁 《浙江大学学报(工学版)》 北大核心 2025年第9期1775-1783,1802,共10页
针对疲劳驾驶检测方法泛化能力差、特征提取模式单一、模型不可解释等问题,提出多模态特征融合模型nsNMF-PCNN-GRU-MSA,通过分析驾驶员脑电图(EEG)信号实现疲劳程度的检测.在网络浅层设计通道加权模块,引入非平滑非负矩阵分解(nsNMF)算... 针对疲劳驾驶检测方法泛化能力差、特征提取模式单一、模型不可解释等问题,提出多模态特征融合模型nsNMF-PCNN-GRU-MSA,通过分析驾驶员脑电图(EEG)信号实现疲劳程度的检测.在网络浅层设计通道加权模块,引入非平滑非负矩阵分解(nsNMF)算法计算电极通道的贡献度;在网络中层设计多模态特征融合模块,引入格拉姆角场成像方法将一维EEG数据映射成二维图像,并采用PCNN-GRU并行方式融合不同模态的时空特征;在网络深层融合多头自注意力机制(MSA),完成疲劳驾驶状态分类任务.实验结果表明,该模型在数据集SEED-VIG和SAD的混合样本上的疲劳检测准确率分别为93.37%、90.78%,单个被试数据准确率最低分别为86.60%、85.59%,高于近年先进模型.将特征激活值映射到大脑拓扑图上的分析方法不仅提高了模型的可解释性,而且为疲劳驾驶检测提供了新视角. 展开更多
关键词 EEG 疲劳驾驶检测 nsNMF 格拉姆角场 多模态特征融合 模型可解释性
在线阅读 下载PDF
多模态特征融合与多任务学习的特种视频分类 被引量:7
3
作者 吴晓雨 顾超男 王生进 《光学精密工程》 EI CAS CSCD 北大核心 2020年第5期1177-1186,共10页
特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多模态特征融合时未考虑语义一致性等问题,本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别方法。首先,提取特种... 特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多模态特征融合时未考虑语义一致性等问题,本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别方法。首先,提取特种视频的表观信息和运动信息随时空变化的视觉语义特征及音频信息语义特征;然后,构建具有语义保持的共享特征子空间,以实现音视频多种模态特征的融合;最后,提出基于音视频特征的语义一致性度量和特种视频分类的多任务学习特种视频分类理论框架,设计了对应的损失函数,实现了端到端的特种视频智能识别。实验结果表明,本文提出的算法在Violent Flow和MediaEval VSD 2015两个数据集上平均精度分别为97.97%和39.76%,优于已有研究。结果证明了该算法的有效性,有助于提升特种视频监控的智能化水平。 展开更多
关键词 特种视频识别 特征提取 多模态特征融合 语义一致性度量 多任务学习
在线阅读 下载PDF
基于多模态特征融合的行人穿越意图预测方法 被引量:2
4
作者 陈龙 杨晨 +2 位作者 蔡英凤 王海 李祎承 《汽车工程》 EI CSCD 北大核心 2023年第10期1779-1790,共12页
行人行为预测是城市环境智能汽车决策规划系统面临的主要挑战之一,提升行人穿越意图的预测准确率对于行车安全意义重大。针对现有方法过度依赖行人的边界框位置信息,且很少考虑交通场景中环境信息及交通对象间的交互关系等问题,本文提... 行人行为预测是城市环境智能汽车决策规划系统面临的主要挑战之一,提升行人穿越意图的预测准确率对于行车安全意义重大。针对现有方法过度依赖行人的边界框位置信息,且很少考虑交通场景中环境信息及交通对象间的交互关系等问题,本文提出一种基于多模态特征融合的行人过街意图预测方法。首先结合多种注意力机制构建了一种新型全局场景上下文信息提取模块和局部场景时空特征提取模块来增强其提取车辆周边场景时空特征的能力,并依赖场景的语义解析结果来捕获行人与其周围环境之间的交互关系,解决了交通环境上下文信息与交通对象之间的交互信息应用不充分的问题。此外,本文设计了一种基于混合融合策略的多模态特征融合模块,根据不同信息源的复杂程度实现了对视觉特征和运动特征的联合推理,为行人穿越意图预测模块提供可靠信息。基于JAAD数据集的测试表明,所提出方法的预测Accuracy为0.84,较基线方法提升了10.5%,相比于现有的同类型模型,所提出方法的综合性能最佳,且具有更广泛的应用场景。 展开更多
关键词 自动驾驶汽车 行人意图预测 多模态特征融合 注意力机制
在线阅读 下载PDF
基于多模态特征融合嵌入的相似广告检索方法 被引量:5
5
作者 冯奕 周晓松 +5 位作者 李传艺 王挺 葛季栋 胡雨成 张小鹏 骆斌 《计算机学报》 EI CAS CSCD 北大核心 2022年第7期1500-1516,共17页
随着互联网人工智能技术的飞速发展,学习用户特征并精准投放广告能够显著提升广告的点击率(Click-Through-Rate,CTR)与转化率(Conversion Rate,CVR).人群智能定向是解决广告投放问题中极其重要的一环,其业界主流方法是使用转化用户和非... 随着互联网人工智能技术的飞速发展,学习用户特征并精准投放广告能够显著提升广告的点击率(Click-Through-Rate,CTR)与转化率(Conversion Rate,CVR).人群智能定向是解决广告投放问题中极其重要的一环,其业界主流方法是使用转化用户和非转化用户训练基于用户特征的判断其是否会成为转化用户的分类模型.这个分类器的优劣依赖广告的实际转化人群规模,规模越大,越能准确判断.但在实际应用中通常面临某些广告转化人群不足的问题,本文利用在学术与工业场景占据重要研究地位的基于内容的检索技术来扩充相似广告集合,从而扩充对应转化人群.现有的单模态检索方案只关注于单个模态的特征(文本/图像),忽视了不同模态间的内在共有联系,使得挖掘出的广告特征不全且包含大量噪声,最终导致相似广告的检索结果质量不高,从而导致相似转化人群的扩充质量低下.而近年来兴起的跨模态检索方案主要关注以文搜图或以图搜文,并且没有考虑到通用目标检测器并不适用于特定领域图像数据这一事实.为解决这些问题,本文提出一种以广告分类为基本训练目标的多模态商品广告特征融合建模方法,以提升相似广告检索的效果.具体来说,本文使用Transformer模型提取文本语义特征,使用目标检测YOLO模型挖掘图像中细粒度的视觉特征,并结合文本注意力机制识别图像中与商品相关的目标,以降低无关目标给广告特征带来的噪声影响.同时,本文提出了一种多模态融合注意力机制,以高效融合广告文本和图像特征.该模型命名为ToTYEmb(Text oriented Transformer-Yolo fusion Embedding).另外,本文还提出了一种算法框架,将相似广告扩充、转化人群扩充加入到现有的人群智能定向工作流中.实验结果表明,较多个基线模型,本文方案有效提升了相似商品广告的检索质量,避免了很多由单模态信息带来的错误.同时离线人群定向更新实验表明本文提出的利用相似广告扩充转化人群确实能在很大程度上优化现有的人群智能定向算法. 展开更多
关键词 多模态特征融合 相似广告检索 TRANSFORMER 注意力机制
在线阅读 下载PDF
基于多模态特征融合的轻量级人脸活体检测方法 被引量:7
6
作者 皮家甜 杨杰之 +5 位作者 杨琳希 彭明杰 邓雄 赵立军 唐万梅 吴至友 《计算机应用》 CSCD 北大核心 2020年第12期3658-3665,共8页
人脸活体检测是人脸识别过程中的一个重要环节,对于身份验证的安全性尤为重要。针对人脸识别过程存在照片、视频、面具、头套、头模等欺骗手段,通过Intel Realsense相机采集人脸RGB图和深度图信息,并在MobileNetV3的基础上提出了特征融... 人脸活体检测是人脸识别过程中的一个重要环节,对于身份验证的安全性尤为重要。针对人脸识别过程存在照片、视频、面具、头套、头模等欺骗手段,通过Intel Realsense相机采集人脸RGB图和深度图信息,并在MobileNetV3的基础上提出了特征融合的轻量级活体检测网络,将深度图与RGB图的特征融合起来并且进行端到端的训练。而为了解决深度学习中参数量较大以及网络尾部对于权重区域的区分的问题,提出在网络尾部采用Streaming Module以减少网络参数量并且对权重区域进行区分。在CASIA-SURF数据集以及所制作的CQNU-LN数据集上进行仿真实验,结果表明所提方法在两个数据集上均于TPR@FPR=10E-4的级别上达到了95%的精度,相较对比方法中精度最高的ShuffleNet分别提高了0.1%和0.05%;在所制作的CQNU-3Dmask数据集上,所提方法于TPR@FPR=10E-4的级别达到了95.2%的精度,比仅训练RGB图或仅训练深度图的方法分别提升了0.9%和6.5%,并且,模型的参数文件的大小仅为1.8 MB,每秒浮点数运算量(FLOPs)仅为1.5×10^6。该方法能够在实际应用中对提取到的人脸进行准确的实时检测。 展开更多
关键词 计算机视觉 卷积神经网络 人脸活体检测 多模态特征融合 轻量级网络
在线阅读 下载PDF
基于注意力机制和多模态特征融合的猕猴脑磁共振图像全脑分割 被引量:4
7
作者 吴雪扬 张煜 +1 位作者 张华 钟涛 《南方医科大学学报》 CAS CSCD 北大核心 2023年第12期2118-2125,共8页
目的提出并探讨一种新的基于注意力机制和多模态特征融合的深度学习算法(DDAM),实现对猕猴脑MRI图像的全脑分割。方法共收集68例年龄分布在13~36月的多模态猕猴脑MRI图像数据,且均包含对应的真实标签。针对多模态数据信息复杂且互补的特... 目的提出并探讨一种新的基于注意力机制和多模态特征融合的深度学习算法(DDAM),实现对猕猴脑MRI图像的全脑分割。方法共收集68例年龄分布在13~36月的多模态猕猴脑MRI图像数据,且均包含对应的真实标签。针对多模态数据信息复杂且互补的特点,采用多编码器结构分别适应不同模态并进行特征提取。在解码器部分引入注意力机制构建多模态特征融合模块(AMFF),利用模态间信息丰富且互补的特点,充分融合不同尺度和复杂度的多模态特征,进而提升分割性能。另外,进行消融实验分析并对结果进行统计学检验。结果多编码器结构以及注意力机制的引入能够有效地提升模型对多模态特征的融合能力,使得猕猴数据的全脑分割平均DSC达到0.904,ASD低至0.131(P<0.05)。消融实验结果验证了DDAM方法各组成部分的有效性。结论本文针对多模态数据特点构建深度学习算法模型,提出的DDAM方法,能够更有效地提取并融合多模态特征,从而实现全脑分割精度的显著提高。 展开更多
关键词 猕猴大脑 磁共振全脑分割 深度学习 注意力机制 多模态特征融合
在线阅读 下载PDF
基于多模态特征融合的自主驾驶车辆低辨识目标检测方法 被引量:8
8
作者 邹伟 殷国栋 +4 位作者 刘昊吉 耿可可 黄文涵 吴愿 薛宏伟 《中国机械工程》 EI CAS CSCD 北大核心 2021年第9期1114-1125,共12页
针对自主驾驶车辆在真实驾驶环境下对低辨识目标的识别问题,提出了基于多模态特征融合的目标检测方法。基于Faster R-CNN算法设计多模态深度卷积神经网络,融合彩色图像、偏振图像、红外图像特征,提高对低辨识目标的检测性能;开发多模态(... 针对自主驾驶车辆在真实驾驶环境下对低辨识目标的识别问题,提出了基于多模态特征融合的目标检测方法。基于Faster R-CNN算法设计多模态深度卷积神经网络,融合彩色图像、偏振图像、红外图像特征,提高对低辨识目标的检测性能;开发多模态(3种)图像低辨识度目标实时检测系统,探索多模态图像特征融合在自动驾驶智能感知系统中的应用。建立了人工标注过的多模态(3种)图像低辨识目标数据集,对深度学习神经网络进行训练,优化内部参数,使得该系统适用于复杂环境下对行人、车辆目标的检测和识别。实验结果表明,相对于传统的单模态目标检测算法,基于多模态特征融合的深度卷积神经网络对复杂环境下的低辨识目标具有更好的检测和识别性能。 展开更多
关键词 自主驾驶 多模态特征融合 深度卷积神经网络 低辨识目标 智能感知
在线阅读 下载PDF
基于多模态特征融合的人脸物理对抗样本性能预测算法 被引量:1
9
作者 周风帆 凌贺飞 +3 位作者 张锦元 夏紫薇 史宇轩 李平 《计算机科学》 CSCD 北大核心 2023年第8期280-285,共6页
人脸物理对抗样本攻击(Facial Physical Adversarial Attack,FPAA)指攻击者通过粘贴或佩戴物理对抗样本,如打印的眼镜、纸片等,在摄像头下被识别成特定目标的人脸,或者让人脸识别系统无法识别的攻击方式。已有FPAA的性能评测会受到多种... 人脸物理对抗样本攻击(Facial Physical Adversarial Attack,FPAA)指攻击者通过粘贴或佩戴物理对抗样本,如打印的眼镜、纸片等,在摄像头下被识别成特定目标的人脸,或者让人脸识别系统无法识别的攻击方式。已有FPAA的性能评测会受到多种环境因素的影响,且需要多个人工操作的环节,导致性能评测效率非常低下。为了减少人脸物理对抗样本性能评测方面的工作量,结合数字图片和环境因素之间的多模态性,提出了多模态特征融合预测算法(Multimodal Feature Fusion Prediction Algorithm,MFFP)。具体地,使用不同的网络提取攻击者人脸图片、受害者人脸图片和人脸数字对抗样本图片的特征,使用环境特征网络来提取环境因素中的特征,然后使用一个多模态特征融合网络对这些特征进行融合,多模态特征融合网络的输出即为所预测的人脸物理对抗样本图片和受害者图片之间的余弦相似度。MFFP算法在未知环境、未知FPAA算法的实验场景下取得了0.003的回归均方误差,其性能优于对比算法,验证了MFFP算法对FPAA性能预测的准确性,可以对FPAA性能进行快速评估,同时大幅降低人工操作的工作量。 展开更多
关键词 人工智能安全 对抗样本 人脸物理对抗样本攻击 性能预测 多模态特征融合
在线阅读 下载PDF
基于多模态特征融合的井下人员不安全行为识别 被引量:21
10
作者 王宇 于春华 +1 位作者 陈晓青 宋家威 《工矿自动化》 CSCD 北大核心 2023年第11期138-144,共7页
采用人工智能技术对井下人员的行为进行实时识别,对保证矿井安全生产具有重要意义。针对基于RGB模态的行为识别方法易受视频图像背景噪声影响、基于骨骼模态的行为识别方法缺乏人与物体的外观特征信息的问题,将2种方法进行融合,提出了... 采用人工智能技术对井下人员的行为进行实时识别,对保证矿井安全生产具有重要意义。针对基于RGB模态的行为识别方法易受视频图像背景噪声影响、基于骨骼模态的行为识别方法缺乏人与物体的外观特征信息的问题,将2种方法进行融合,提出了一种基于多模态特征融合的井下人员不安全行为识别方法。通过SlowOnly网络对RGB模态特征进行提取;使用YOLOX与Lite-HRNet网络获取骨骼模态数据,采用PoseC3D网络对骨骼模态特征进行提取;对RGB模态特征与骨骼模态特征进行早期融合与晚期融合,最后得到井下人员不安全行为识别结果。在X-Sub标准下的NTU60 RGB+D公开数据集上的实验结果表明:在基于单一骨骼模态的行为识别模型中,PoseC3D拥有比GCN(图卷积网络)类方法更高的识别准确率,达到93.1%;基于多模态特征融合的行为识别模型对比基于单一骨骼模态的识别模型拥有更高的识别准确率,达到95.4%。在自制井下不安全行为数据集上的实验结果表明:基于多模态特征融合的行为识别模型在井下复杂环境下识别准确率仍最高,达到93.3%,对相似不安全行为与多人不安全行为均能准确识别。 展开更多
关键词 智能矿山 行为识别 目标检测 姿态估计 多模态特征融合 RGB模态 骨骼模态 YOLOX
在线阅读 下载PDF
多模态分级特征映射与融合表征方法研究 被引量:1
11
作者 郭小宇 马静 陈杰 《计算机工程与应用》 北大核心 2025年第6期171-182,共12页
多模态特征表征是多模态任务的基础。为解决多模态特征表征方法融合层次单一、未能充分映射不同模态间的关联关系的问题,提出了一种多模态分级特征映射与融合表征方法。该方法在文本模型RoBERTa与图像模型DenseNet的基础上,从两个模型... 多模态特征表征是多模态任务的基础。为解决多模态特征表征方法融合层次单一、未能充分映射不同模态间的关联关系的问题,提出了一种多模态分级特征映射与融合表征方法。该方法在文本模型RoBERTa与图像模型DenseNet的基础上,从两个模型的中间层抽取由低级别到高级别的特征,基于特征重用的思想映射与融合文本与图像模态不同级别的特征,捕捉文本与图像模态之间的内部关联,充分融合两种模态之间的特征。将分级特征映射与融合表征馈入分类器,应用于多模态舆情的情感分类中,同时将构建的表征方法与基线表征方法进行对比分析。实验结果表明,提出的表征方法在微博舆情和MVSA-Multiple数据集上的情感分类性能均超越了所有基线模型,其中在微博数据集上F1值提升了0.0137,在MVSA-Multiple数据集上F1值提升了0.0222。图像特征能够提升文本单模态特征下的情感分类准确率,但是其提升程度与融合策略密切相关;多模态分级特征映射与融合表征方法能够有效映射文本与图像特征之间的关系,提升多模态舆情的情感分类效果。 展开更多
关键词 多模态特征融合 分级特征 映射与融合 情感分类 特征表示
在线阅读 下载PDF
多模态特征增强的双层融合知识推理方法 被引量:1
12
作者 荆博祥 王海荣 +1 位作者 王彤 杨振业 《计算机科学与探索》 北大核心 2025年第2期406-416,共11页
现有的多模态知识推理方法大多采用拼接或注意力的方式,将预训练模型提取到的多模态特征直接进行融合,往往忽略了不同模态之间的异构性和交互的复杂性。为此,提出了一种多模态特征增强的双层融合知识推理方法。结构信息嵌入模块采用自... 现有的多模态知识推理方法大多采用拼接或注意力的方式,将预训练模型提取到的多模态特征直接进行融合,往往忽略了不同模态之间的异构性和交互的复杂性。为此,提出了一种多模态特征增强的双层融合知识推理方法。结构信息嵌入模块采用自适应图注意力机制筛选并聚合关键的邻居信息,用来增强实体和关系嵌入的语义表达;多模态嵌入信息模块使用不同的注意力机制关注不同模态数据的独有特征,以及多模态数据间的共性特征,利用共性特征的互补信息进行模态交互,以减少模态间异构性差异;多模态特征融合模块采用将低秩多模态特征融合和决策融合相结合的双层融合策略,实现了多模态数据在模态间和模态内的动态复杂交互,并综合考虑每种模态在推理中的贡献度,得到更全面的预测结果。为了验证方法的有效性,分别在FB15K-237、DB15K和YAGO15K数据集上进行了实验。结果表明:该方法相比多模态推理方法,在FB15K-237数据集上MRR和Hits@1分别平均提升3.6%和2.2%;相比单模态推理方法,MRR和Hits@1分别平均提升13.7%和14.6%。 展开更多
关键词 多模态知识图谱 链接预测 知识推理 多模态特征融合
在线阅读 下载PDF
基于多模态特征融合和粒子群优化的无人机地形匹配算法
13
作者 梁丽月 余道杰 +4 位作者 杜剑平 白艺杰 柴梦娟 李涛 周佳乐 《强激光与粒子束》 2025年第11期180-188,共9页
为改善复杂电磁环境下无人机导航受影响需实现自主定位问题,提出一种基于多模态特征融合和粒子群算法优化的地形匹配算法。针对单一模态特征易受电磁干扰定向破坏的问题,并兼顾无人机机载内存与实时性要求,该算法从合成孔径雷达图像提... 为改善复杂电磁环境下无人机导航受影响需实现自主定位问题,提出一种基于多模态特征融合和粒子群算法优化的地形匹配算法。针对单一模态特征易受电磁干扰定向破坏的问题,并兼顾无人机机载内存与实时性要求,该算法从合成孔径雷达图像提取旋转不变均匀局部二值模式特征,以及从高程图提取频域能量分布特征。针对特征数值尺度差异导致的融合偏差问题,设计基于特征敏感度的动态权重特征融合方法,以融合后的堪培拉距离作为相似性测度标准。在匹配阶段,粒子群算法代替了传统遍历搜索,优化整个搜索匹配过程。实验结果表明,基于本文构建的包含山地、平原、特征稀疏沙漠等典型区域的测试数据集,所提地形匹配算法的匹配成功率均不低于90%。在分别注入高斯、相干斑和脉冲三种噪声后,该算法具有良好的鲁棒性,与单模态算法相比,匹配成功率上升30%。 展开更多
关键词 地形匹配算法 多模态特征融合 粒子群优化算法 堪培拉距离 特征敏感度
在线阅读 下载PDF
多视图相机传感器与多模态特征融合的三维重建
14
作者 尉艳丽 张素智 《传感器与微系统》 2025年第11期101-105,共5页
针对当前三维(3D)重建模型细节捕捉不足、多视图变化适应性差等问题。提出了一种多视图相机传感器与多模态特征融合的3D重建模型,使用多视图的相机传感器数据,通过多模态特征融合和全局—局部注意力机制,有效提高复杂场景的重建质量。另... 针对当前三维(3D)重建模型细节捕捉不足、多视图变化适应性差等问题。提出了一种多视图相机传感器与多模态特征融合的3D重建模型,使用多视图的相机传感器数据,通过多模态特征融合和全局—局部注意力机制,有效提高复杂场景的重建质量。另外,从多视图二维(2D)图像中提取颜色、深度、语义学等多模态特征,通过动态调整特征的重要性来准确捕捉关键区域。实验结果表明,本文模型在局部光场融合(LLFF)和丹麦技术大学(DTU)数据集上的3D重建表现优于现有主流模型,模型在3视图、6视图和9视图输入的峰值信噪比(PSNR)指标分别达到20.01、23.56和24.58。本文模型在复杂场景和多视图变化中表现出较强的鲁棒性,验证了模型的有效性和可靠性。 展开更多
关键词 多视图相机传感器 多模态特征融合 三维重建
在线阅读 下载PDF
基于优先融合与模态注意力机制的虚假新闻检测
15
作者 张廷 袁虎 赵小兵 《计算机应用研究》 北大核心 2025年第5期1392-1400,共9页
针对现有多模态虚假新闻检测方法侧重提取图像语义层面特征,忽略图像的频域特征,缺乏对图像内容的细粒度编码,所导致的文本和图像信息不匹配以及融合不充分的问题,提出了一种基于优先融合与模态注意力机制的虚假新闻检测模型。该模型通... 针对现有多模态虚假新闻检测方法侧重提取图像语义层面特征,忽略图像的频域特征,缺乏对图像内容的细粒度编码,所导致的文本和图像信息不匹配以及融合不充分的问题,提出了一种基于优先融合与模态注意力机制的虚假新闻检测模型。该模型通过优先融合模块有效整合文本特征、图像频域特征和图像空间域特征,并利用模态注意力机制动态调整各模态特征的权重,增强多模态信息间的协同作用以进行虚假新闻检测。在Weibo和Gossipcop两个公开多模态数据集上进行对比实验,所提出的模型准确率分别达到了91.3%和90.5%。实验结果表明,该模型能够捕捉模态间特征的复杂交互,有效融合不同模态的信息,提高了虚假新闻检测的准确率。 展开更多
关键词 虚假新闻检测 多模态特征融合 优先融合机制 深度学习
在线阅读 下载PDF
基于多模态特征对齐的弱对齐RGBT显著目标检测
16
作者 刘成壮 翟素兰 +1 位作者 刘海庆 王鲲鹏 《计算机科学》 北大核心 2025年第7期142-150,共9页
可见光和热红外(RGBT)显著目标检测(SOD)旨在从可见光和热红外图像中识别共同的显著物体。然而,现有技术大多在完全对齐的图像对上进行训练,忽略了实际成像过程中由传感器差异造成的“弱对齐”问题,即同一物体在不同模态中虽然结构相关... 可见光和热红外(RGBT)显著目标检测(SOD)旨在从可见光和热红外图像中识别共同的显著物体。然而,现有技术大多在完全对齐的图像对上进行训练,忽略了实际成像过程中由传感器差异造成的“弱对齐”问题,即同一物体在不同模态中虽然结构相关,但是它们的位置、尺度存在差异。因此,如果不经对齐处理,直接使用弱对齐RGBT图像训练模型,会导致检测性能严重下降。为应对这一挑战,提出了一个多模态特征对齐融合网络(AFNet),专门针对弱对齐RGBT SOD。该网络由3个主要模块组成:分布对齐模块(DAM)、注意力引导的可变形卷积对齐模块(AGDCM)和交叉融合模块(CAM)。DAM基于最优传输理论,使热红外和RGB特征的分布尽可能接近,实现特征的初步对齐。AGDCM基于可变形卷积,在学习特征偏移量的过程中引入注意力权重,使不同的区域可以学习到适合自身的偏移量,实现多模态特征的精准对齐。CAM通过交叉注意力机制融合对齐后的特征,增强融合特征的判别能力并提高计算效率。通过在对齐和弱对齐数据集上进行大量实验,证明了所提方法的高效性。 展开更多
关键词 弱对齐RGBT图像 显著目标检测 多模态特征对齐 多模态特征融合 注意力机制
在线阅读 下载PDF
基于多模态特征小波分解的深度学习股价概率预测
17
作者 张永宇 郭晨娟 魏涵玥 《计算机科学》 北大核心 2025年第S1期758-768,共11页
构建了一种创新的基于多模态特征小波分解的深度学习股价概率预测模型(MWDPF)。该模型融合了动态连续特征、动态分类特征、静态连续特征和静态分类特征等多源异构信息,通过并行融合的策略充分挖掘不同特征子空间的互补信息,全面刻画影... 构建了一种创新的基于多模态特征小波分解的深度学习股价概率预测模型(MWDPF)。该模型融合了动态连续特征、动态分类特征、静态连续特征和静态分类特征等多源异构信息,通过并行融合的策略充分挖掘不同特征子空间的互补信息,全面刻画影响股价波动的多重维度。该模型采用自回归递归神经网络架构,能够直接输出股价变化的概率分布预测,而非单一确定值预测,更加贴近实际股价呈概率分布的特征。另外,该模型引入小波分解技术,对原始时间序列进行去噪,自适应地过滤掉不同尺度下的噪声成分,提高了对内在波动规律的捕捉能力。实证分析阶段,采集了来自金融数据库和互联网论坛的多模态数据,通过缺失值填充、去极值、时间对齐等一系列预处理,以及精心的特征工程和模型优化,实现了优秀的预测性能,显著优于传统的统计学模型和深度学习模型,评价指标均有大幅改善。该模型产生的预测结果被用于构建了一个多因子选股策略,在实际回测中取得了可观的超额收益,进一步验证了该模型在实际投资决策中的有效性。该研究为股价预测提供了一种行之有效的解决方案,丰富了量化投资的理论和方法,具有重要的理论意义和应用价值。 展开更多
关键词 概率密度预测 多模态异构特征融合 小波分解时频分析 自回归递归神经网络 投资组合超额收益
在线阅读 下载PDF
面向电力多模态融合的语义差异性和感知能力差异性分析方法 被引量:4
18
作者 王红霞 王波 +3 位作者 董旭柱 姚良忠 张嘉鑫 马恒瑞 《高电压技术》 EI CAS CSCD 北大核心 2024年第9期4037-4047,I0021,共12页
多模态融合是实现电力系统数字化的重要技术手段,但多模态特征间的差异性限制了融合感知效果。因此,首先对电力多模态数据融合中的语义差异性和感知能力差异性现象进行了深入分析,对差异性产生的特征同化和权重决策问题进行了剖析。然后... 多模态融合是实现电力系统数字化的重要技术手段,但多模态特征间的差异性限制了融合感知效果。因此,首先对电力多模态数据融合中的语义差异性和感知能力差异性现象进行了深入分析,对差异性产生的特征同化和权重决策问题进行了剖析。然后,针对语义差异性问题,使用角度差对多模态语义差异进行表征,并基于此寻找联合表征空间,实现电力多模态特征同化;其次,针对感知能力差异性问题,使用交叉损失熵对电力多模态感知能力进行表征,并基于此构建权重决策模块,实现多模态特征融合权重计算。最后,以前期所提融合框架为基础,提出了针对多模态差异性问题的高容错性特征融合模型。仿真以输变电线路应急抢修场景为例,基于所提分阶段训练策略进行模型训练,并从融合感知、特征同化以及权重决策机制3个方面验证了所提方法的有效性。 展开更多
关键词 多模态特征融合 语义差异性 感知能力差异性 特征同化 权重决策
在线阅读 下载PDF
融合多模态特征的社会多媒体谣言检测技术研究 被引量:10
19
作者 金志威 曹娟 +2 位作者 王博 王蕊 张勇东 《南京信息工程大学学报(自然科学版)》 CAS 2017年第6期583-592,共10页
以微博为代表的社会媒体的蓬勃发展在加速信息交流的同时,也促使虚假谣言信息迅速在社会网络上传播,造成严重的后果.自动谣言检测问题受到了国内外学术界、产业界的广泛关注.围绕社会多媒体谣言检测这一问题,本文总结了融合多模态特征... 以微博为代表的社会媒体的蓬勃发展在加速信息交流的同时,也促使虚假谣言信息迅速在社会网络上传播,造成严重的后果.自动谣言检测问题受到了国内外学术界、产业界的广泛关注.围绕社会多媒体谣言检测这一问题,本文总结了融合多模态特征的谣言检测相关技术.首先从基本概念出发,阐述了谣言的定义和社会多媒体的特点,给出了社会多媒体谣言检测问题的定义.针对谣言检测面临的多模态特征抽取和模型构建两大难点,分别总结和归纳了各种类型的特征及其提取方法和不同的机器学习检测模型.这些特征和算法是检测谣言的基本手段,也是接下来研究的基础,可为进一步谣言检测的研究提供参考. 展开更多
关键词 谣言检测 社会媒体计算 多媒体计算 深度学习 多模态特征融合 新闻认证
在线阅读 下载PDF
一种基于多模态深度特征融合的视觉问答模型 被引量:6
20
作者 邹芸竹 杜圣东 +1 位作者 滕飞 李天瑞 《计算机科学》 CSCD 北大核心 2023年第2期123-129,共7页
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推... 大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。 展开更多
关键词 视觉问答 多模态特征融合 注意力机制 深度学习 数据融合
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部