期刊文献+
共找到708篇文章
< 1 2 36 >
每页显示 20 50 100
跨模态自适应特征融合的视觉问答方法
1
作者 陈巧红 项深祥 +1 位作者 方贤 孙麒 《哈尔滨工业大学学报》 北大核心 2025年第4期94-104,共11页
为提高视觉问答(VQA)中跨模态融合与交互的精确度,减少多模态特征信息的丢失,提出了一种新颖的基于跨模态自适应特征融合的视觉问答方法。首先,该方法设计了卷积自注意力单元,包含自注意力层和空洞卷积层,前者用于捕捉全局特征信息,后... 为提高视觉问答(VQA)中跨模态融合与交互的精确度,减少多模态特征信息的丢失,提出了一种新颖的基于跨模态自适应特征融合的视觉问答方法。首先,该方法设计了卷积自注意力单元,包含自注意力层和空洞卷积层,前者用于捕捉全局特征信息,后者用于捕捉视觉对象间的空间关系。其次,通过自适应特征融合层,将全局关系与空间关系进行有效结合,使模型在处理图像特征时能够同时考虑全局关系和视觉对象之间的关联性,从而克服了传统注意力机制忽视空间关系的问题。最后,基于不同模态特征在答案预测中贡献程度的差异,该方法还构建了多模态门控融合模块,根据多模态特征间的重要程度自适应地融合特征,减少多模态信息的丢失,同时不会带来额外的计算资源开销。研究结果表明,该方法在未使用额外数据集预训练的情况下,在VQA2.0的测试-开发集、测试-标准集和GQA数据集上的整体准确率分别达到71.58%、72.00%、58.14%,显著优于传统自注意力方法,该研究成果可为跨模态特征融合领域提供了重要的参考和借鉴。 展开更多
关键词 视觉问答(VQA) 特征融合 多模态 注意力机制 门控机制
在线阅读 下载PDF
基于特征交互与自适应分组融合的多模态目标检测
2
作者 叶志晖 武健 +2 位作者 赵晓忠 王文娟 邵新光 《红外技术》 北大核心 2025年第4期468-474,共7页
为提升目标检测方法在复杂场景下的检测效果,将深度学习算法与多模态信息融合技术相结合,提出了一种基于特征交互与自适应分组融合的多模态目标检测模型。模型采用红外和可见光目标图像为输入,以PP-LCNet网络为基础构建对称双支路特征... 为提升目标检测方法在复杂场景下的检测效果,将深度学习算法与多模态信息融合技术相结合,提出了一种基于特征交互与自适应分组融合的多模态目标检测模型。模型采用红外和可见光目标图像为输入,以PP-LCNet网络为基础构建对称双支路特征提取结构,并引入特征交互模块,保证不同模态目标特征在提取过程中的信息互补;其次,设计二值化分组注意力机制,利用全局池化结合Sign函数将交互模块的输出特征以所属目标类别进行特征分组,再分别采用空间注意力机制增强各特征组中的目标信息;最后,基于分组增强后的特征,提取不同尺度下的同类特征组,通过自适应加权方式由深至浅进行多尺度融合,并根据融合后的各尺度特征实现目标预测。实验结果表明,所提方法在多模态特征交互、关键特征增强以及多尺度融合方面都有较大的提升作用,并且在复杂场景下,模型也具有更高的鲁棒性,可以更好地适用于不同场景中。 展开更多
关键词 多模态 目标检测 特征交互 二值化分组 自适应融合
在线阅读 下载PDF
基于多层级特征融合的多模态医学图像配准 被引量:1
3
作者 常青 李梦珂 +1 位作者 陆晨豪 张扬 《中国科学院大学学报(中英文)》 北大核心 2025年第5期645-654,共10页
多模态医学图像的灰度和纹理结构差别较大,难以提取相对应的特征,导致配准精度较低。针对这一问题,提出基于多层级特征融合的配准模型,并行提取参考图和浮动图的特征,在多层级结构中使用双输入空间注意力模块实现多模态特征渐进融合,获... 多模态医学图像的灰度和纹理结构差别较大,难以提取相对应的特征,导致配准精度较低。针对这一问题,提出基于多层级特征融合的配准模型,并行提取参考图和浮动图的特征,在多层级结构中使用双输入空间注意力模块实现多模态特征渐进融合,获取其相关性,并将这种相关性映射到图像配准变换中。同时使用基于密集对称尺度不变特征变换的局部特征相似性引导网络进行迭代优化,实现多模态图像的无监督配准。 展开更多
关键词 多层级特征融合 多模态 密集对称尺度不变特征变换 无监督配准
在线阅读 下载PDF
基于双分支多尺度特征融合的跨模态语义分割算法
4
作者 陈广秋 任天蓉 +1 位作者 段锦 黄丹丹 《电子测量与仪器学报》 北大核心 2025年第5期144-154,共11页
针对单模态可见光RGB图像语义分割在夜晚或光线变化环境下存在分割效果差、目标边缘分割不清晰等问题,以及现有的跨模态语义分割在获取全局上下文信息和融合跨模态特征时还存在大量不足。为此提出了一种基于双分支多尺度特征融合的跨模... 针对单模态可见光RGB图像语义分割在夜晚或光线变化环境下存在分割效果差、目标边缘分割不清晰等问题,以及现有的跨模态语义分割在获取全局上下文信息和融合跨模态特征时还存在大量不足。为此提出了一种基于双分支多尺度特征融合的跨模态语义分割算法。采用Segformer作为主干网络提取特征,捕获长距离依赖关系,采用特征增强模块提升浅层特征图的对比度和边缘信息的判别性,利用有效注意力增强模块和跨模态特征融合模块,对不同模态特征图像素点间的关系进行建模,聚合互补信息,发挥跨模态特征优势。最后,采用轻量级的All-MLP解码器重建图像,预测分割结果。相比较于已有主流算法,该算法在MFNet城市街景数据集上的各项评估指标均为最优,平均准确率(mAcc)和平均交并比(mIoU)分别达到了76.9%和59.8%。实验结果表明,该算法在处理复杂场景时,能够有效改善目标边缘轮廓分割不清晰的问题,提高图像的分割精度。 展开更多
关键词 多模态深度学习 语义分割 特征融合 模态 Segformer
在线阅读 下载PDF
多模态特征融合的RGB-T目标跟踪网络
5
作者 金静 刘建琴 翟凤文 《光学精密工程》 北大核心 2025年第12期1940-1954,共15页
近年来,RGB-T跟踪方法因可见光与热红外图像的互补特性而在视觉跟踪领域得到广泛应用。然而,现有方法在模态互补信息利用方面仍存在局限,特别是基于Transformer的算法缺乏模态间的直接交互,难以充分挖掘RGB和TIR模态的语义信息。针对这... 近年来,RGB-T跟踪方法因可见光与热红外图像的互补特性而在视觉跟踪领域得到广泛应用。然而,现有方法在模态互补信息利用方面仍存在局限,特别是基于Transformer的算法缺乏模态间的直接交互,难以充分挖掘RGB和TIR模态的语义信息。针对这些问题,提出了一种多模态特征融合的RGB-T目标跟踪网络(Multi-Modal Feature Fusion Tracking Network for RGB-T,MMFFTN)。该网络首先在骨干网络提取初步特征后,引入通道特征融合模块(Channel Feature Fusion Module,CFFM),实现RGB和TIR通道特征的直接交互与融合。其次,针对RGB和TIR模态差异可能导致的融合效果不理想问题,设计了跨模态特征融合模块(Cross-Modal Feature Fusion Module,CMFM),通过自适应融合策略进一步融合RGB和TIR的全局特征,以提升跟踪的准确性。对本文提出的跟踪模型在GTOT,RGBT234和LasHeR三个数据集上进行了详细的实验评估。实验结果表明,与当前先进的基于Transformer的跟踪器ViPT相比,MMFFTN在成功率(Success Rate)和精确率(Precision Rate)上分别提升了3.0%和4.7%;与基于Transformer的跟踪器SDSTrack相比,成功率和精确率分别提升了2.4%和3.3%。 展开更多
关键词 RGB-T目标跟踪 TRANSFORMER 通道特征融合 模态特征融合
在线阅读 下载PDF
高频信息物体多层多元特征权重自适应融合三维重建网络
6
作者 王标 李影 +3 位作者 融百川 刘璟 张进 王永红 《光学精密工程》 北大核心 2025年第15期2424-2440,共17页
为解决光度立体深度学习在实现物体表面法向量重建过程中存在的表面纹理的高频信息丢失而导致重建精度偏差大的问题,提出了一种多层多元特征权重自适应融合三维重建网络(MMF-Net)。网络主要将PS-FCN作为基准模型,引入对称式编码-解码结... 为解决光度立体深度学习在实现物体表面法向量重建过程中存在的表面纹理的高频信息丢失而导致重建精度偏差大的问题,提出了一种多层多元特征权重自适应融合三维重建网络(MMF-Net)。网络主要将PS-FCN作为基准模型,引入对称式编码-解码结构,增强网络的学习和特征表达能力,提升了不同层级之间特征整合能力;设计独立层间权重自适应调节的多元卷积层,通过增加额外的可训练权重,兼顾具有形状信息与纹理信息,并且能够更好地捕捉到表面纹理的细节变化信息,使得该网络在高频信息较密集场景下的表现更加稳定和准确;辅助增加跳跃连接结构,通过中间层特征跨层连接至后续层级,保留物体高频信息且强化低频信息,以实现物体高低频特征信息的融合性应用。利用DiLiGenT基准数据集进行了相关测试,实验结果表明,MMF-Net能够实现平均MAE达到6.94°,对比PS-FCN(Norm)的7.39°提升了6%,在其中两幅含有高频信息物体的平均重建误差为11.03°,对比先前方法FUPS-Net的12.52°提升了12%。MMF-Net实现了光度立体物体表面低频信息和高频信息的有效性获取,为以物体表面法向量为基础的三维高精度重建提供参考。 展开更多
关键词 深度学习 光度立体视觉 多元卷积 特征融合 自适应权重
在线阅读 下载PDF
基于跨模态特征交互和多尺度重建的红外与可见光图像融合
7
作者 姚睿 王凯 +2 位作者 郭浩帆 胡文涛 田祥瑞 《红外与激光工程》 北大核心 2025年第8期259-270,共12页
针对弱光环境下红外与可见光图像融合存在的纹理细节丢失、视觉效果和实时性差等问题,提出了一种基于跨模态特征交互和多尺度重建(Cross-modal Feature Interaction and Multi-scale Reconstruction,CFIMR)的红外与可见光图像融合算法CF... 针对弱光环境下红外与可见光图像融合存在的纹理细节丢失、视觉效果和实时性差等问题,提出了一种基于跨模态特征交互和多尺度重建(Cross-modal Feature Interaction and Multi-scale Reconstruction,CFIMR)的红外与可见光图像融合算法CFIMRFusion。该算法构建了包括卷积注意力增强模块、编码器网络、跨模态特征交互融合模块和基于多尺度重建的解码器网络的四阶段融合框架。首先,设计卷积注意力增强模块提升弱可见光图像的对比度和纹理可见性,并利用编码器网络从红外图像和增强后的可见光图像中提取深层多尺度特征。然后,提出基于通道-空间注意力的跨模态特征交互融合模块,对红外显著特征和可见光细节特征进行互补融合。最后,为解决使用普通解码器重建图像时出现特征消失等问题,将融合得到的多尺度特征以跳跃连接的方式输入到解码器各级,重建高保真的融合图像。实验结果表明,CFIMRFusion融合图像的细节特征和整体视觉效果优于对比算法;且与最优对比算法相比,融合图像在TNO数据集中平均梯度、边缘强度分别提升了15.8%、18.2%,在LLVIP数据集中互信息、标准差分别提升了11.5%、9.5%,在MSRS数据集中边缘强度提升了10.1%;三个数据集上的融合速度分别为最快对比算法的24.1%、23.86%和25.2%。 展开更多
关键词 图像融合 图像增强 注意力机制 自编码网络 模态特征交互
在线阅读 下载PDF
基于多层注意力机制跨模态自适应融合的情感分析模型研究
8
作者 贺萍 祁铧颖 王诗怡 《计算机应用与软件》 北大核心 2025年第9期203-209,共7页
与面向文本、图像进行情感分析的研究相比,面向视频进行情感分析的研究较少,且不同模式之间跨模态关系抽取依然存在噪声与信息冗余的问题。因此,结合文本、视频两种数据模态提出一种基于多层注意力机制的跨模态自适应融合的情感分析模型... 与面向文本、图像进行情感分析的研究相比,面向视频进行情感分析的研究较少,且不同模式之间跨模态关系抽取依然存在噪声与信息冗余的问题。因此,结合文本、视频两种数据模态提出一种基于多层注意力机制的跨模态自适应融合的情感分析模型(MACSF)。该文将提取到的文本与视频特征在多头层次注意(MHA)下跨模态分层融合两次,得到具有交互语义的二次融合特征;将文本特征和二次融合的特征通过自适应跨模态集成得到最终融合特征;将融合特征输入多层感知机和Softmax函数得到情感分类结果。在公开数据集MOSI和MOSEI上实验验证,该文模型有效弥补了跨模态交互中存在的噪声问题,提高了情感分类的效果。 展开更多
关键词 模态 特征融合 情感分析 注意力机制
在线阅读 下载PDF
多模态融合与时序特征相残差的异常流量检测方法
9
作者 刘会景 唐永旺 郑登峰 《计算机应用与软件》 北大核心 2025年第3期102-109,共8页
针对当前基于深度学习的方法无法有效融合流量多模特征的问题,提出一种多模融合与时序特征相残差的异常流量检测方法。以会话为单位切分原始流量,获取流量记录的多模态特征;通过跨模态注意力机制进行多模特征融合,进而利用Transformer... 针对当前基于深度学习的方法无法有效融合流量多模特征的问题,提出一种多模融合与时序特征相残差的异常流量检测方法。以会话为单位切分原始流量,获取流量记录的多模态特征;通过跨模态注意力机制进行多模特征融合,进而利用Transformer挖掘流量记录的时序特征;采用残差学习的方法联合多模态融合特征和时序特征进行检测。在CSE-CIC-IDS2018数据集上验证,二分类和多分类的准确率分别为95.19%和90.52%,相较于对比方法,在准确率和精度最优时误报率最低。 展开更多
关键词 深度学习 多模态融合 时序特征 残差学习 注意力机制 异常流量
在线阅读 下载PDF
融合场景特征的跨模态图像美学评价
10
作者 牛玉贞 陈珊珊 +1 位作者 李悦洲 刘文犀 《计算机辅助设计与图形学学报》 北大核心 2025年第7期1270-1282,共13页
现有的图像美学评价方法通常依赖图像本身而忽略了用户评论中的丰富语义信息,因此在性能方面呈现一定的局限性.一些研究尝试结合用户评论辅助进行图像美学评价,但未能充分地挖掘图像特征,且未能较好地对图像-文本特征的复杂关系进行建模... 现有的图像美学评价方法通常依赖图像本身而忽略了用户评论中的丰富语义信息,因此在性能方面呈现一定的局限性.一些研究尝试结合用户评论辅助进行图像美学评价,但未能充分地挖掘图像特征,且未能较好地对图像-文本特征的复杂关系进行建模,导致图像-文本信息利用不充分且交互不够紧密.为解决上述问题,提出一种融合场景特征的跨模态图像美学评价方法.由于图像场景通常会影响人们对图像的美学评价,因此首先提取图像的场景特征和美学特征,并使用多尺度特征融合模块将两者深度融合;考虑图像-文本特征之间的内在相关性,使用多头交叉注意力机制在图像特征和文本特征之间进行交叉注意力计算,将图像-文本模态信息进行交互融合;最后将融合后的跨模态特征用于美学评价.在通用的大型图像美学评价数据集AVA上的广泛实验结果表明,所提方法在ACC,SRCC和PLCC指标上分别达到了86.96%,0.8523和0.8648,超越了文中对比的跨模态图像美学评价方法. 展开更多
关键词 图像美学评价 模态学习 场景特征 多头交叉注意力机制 多尺度特征融合
在线阅读 下载PDF
自适应特征融合的多模态实体对齐研究 被引量:10
11
作者 郭浩 李欣奕 +2 位作者 唐九阳 郭延明 赵翔 《自动化学报》 EI CAS CSCD 北大核心 2024年第4期758-770,共13页
多模态数据间交互式任务的兴起对于综合利用不同模态的知识提出了更高的要求,因此融合不同模态知识的多模态知识图谱应运而生.然而,现有多模态知识图谱存在图谱知识不完整的问题,严重阻碍对信息的有效利用.缓解此问题的有效方法是通过... 多模态数据间交互式任务的兴起对于综合利用不同模态的知识提出了更高的要求,因此融合不同模态知识的多模态知识图谱应运而生.然而,现有多模态知识图谱存在图谱知识不完整的问题,严重阻碍对信息的有效利用.缓解此问题的有效方法是通过实体对齐进行知识图谱补全.当前多模态实体对齐方法以固定权重融合多种模态信息,在融合过程中忽略不同模态信息贡献的差异性.为解决上述问题,设计一套自适应特征融合机制,根据不同模态数据质量动态融合实体结构信息和视觉信息.此外,考虑到视觉信息质量不高、知识图谱之间的结构差异也影响实体对齐的效果,本文分别设计提升视觉信息有效利用率的视觉特征处理模块以及缓和结构差异性的三元组筛选模块.在多模态实体对齐任务上的实验结果表明,提出的多模态实体对齐方法的性能优于当前最好的方法. 展开更多
关键词 多模态知识图谱 实体对齐 预训练模型 特征融合
在线阅读 下载PDF
多模态分级特征映射与融合表征方法研究 被引量:1
12
作者 郭小宇 马静 陈杰 《计算机工程与应用》 北大核心 2025年第6期171-182,共12页
多模态特征表征是多模态任务的基础。为解决多模态特征表征方法融合层次单一、未能充分映射不同模态间的关联关系的问题,提出了一种多模态分级特征映射与融合表征方法。该方法在文本模型RoBERTa与图像模型DenseNet的基础上,从两个模型... 多模态特征表征是多模态任务的基础。为解决多模态特征表征方法融合层次单一、未能充分映射不同模态间的关联关系的问题,提出了一种多模态分级特征映射与融合表征方法。该方法在文本模型RoBERTa与图像模型DenseNet的基础上,从两个模型的中间层抽取由低级别到高级别的特征,基于特征重用的思想映射与融合文本与图像模态不同级别的特征,捕捉文本与图像模态之间的内部关联,充分融合两种模态之间的特征。将分级特征映射与融合表征馈入分类器,应用于多模态舆情的情感分类中,同时将构建的表征方法与基线表征方法进行对比分析。实验结果表明,提出的表征方法在微博舆情和MVSA-Multiple数据集上的情感分类性能均超越了所有基线模型,其中在微博数据集上F1值提升了0.0137,在MVSA-Multiple数据集上F1值提升了0.0222。图像特征能够提升文本单模态特征下的情感分类准确率,但是其提升程度与融合策略密切相关;多模态分级特征映射与融合表征方法能够有效映射文本与图像特征之间的关系,提升多模态舆情的情感分类效果。 展开更多
关键词 多模态特征融合 分级特征 映射与融合 情感分类 特征表示
在线阅读 下载PDF
基于深度特征交互与层次化多模态融合的情感识别模型 被引量:1
13
作者 王健 赵小明 +2 位作者 王成龙 张石清 赵舒畅 《计算机应用研究》 北大核心 2025年第7期1978-1985,共8页
多模态情感识别近年来成为情感计算领域的重要研究方向,旨在通过融合语音、文本等多种模态以更精确地识别和理解人类情感状态。然而,现有方法在提取特征时缺乏模态间的关联性处理以及融合特征时忽视多尺度情感线索。为了解决上述问题,... 多模态情感识别近年来成为情感计算领域的重要研究方向,旨在通过融合语音、文本等多种模态以更精确地识别和理解人类情感状态。然而,现有方法在提取特征时缺乏模态间的关联性处理以及融合特征时忽视多尺度情感线索。为了解决上述问题,提出一种基于深度特征交互与层次化多模态融合的情感识别模型(DFIHMF)。在特征提取阶段,该模型通过引入本地知识令牌(local knowledge token,LKT)与跨模态交互令牌(cross-modal interaction token,CIT)来增强不同模态之间的交互并提取多尺度信息。在特征融合阶段,该模型利用层次化融合策略来融合模态间复杂的多模态特征与多尺度情感线索。在MOSI与MOSEI数据集上的实验结果显示,该模型在ACC7评价指标上的准确率分别达45.6%和53.5%,证明了所提方法在多模态情感识别任务上优于现有技术。 展开更多
关键词 多模态情感识别 层次化融合 多尺度融合 特征融合
在线阅读 下载PDF
多层次时空特征自适应集成与特有-共享特征融合的双模态情感识别 被引量:5
14
作者 孙强 陈远 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期574-587,共14页
在结合脑电(EEG)信号与人脸图像的双模态情感识别领域中,通常存在两个挑战性问题:(1)如何从EEG信号中以端到端方式学习到更具显著性的情感语义特征;(2)如何充分利用双模态信息,捕捉双模态特征中情感语义的一致性与互补性。为此,提出了... 在结合脑电(EEG)信号与人脸图像的双模态情感识别领域中,通常存在两个挑战性问题:(1)如何从EEG信号中以端到端方式学习到更具显著性的情感语义特征;(2)如何充分利用双模态信息,捕捉双模态特征中情感语义的一致性与互补性。为此,提出了多层次时空特征自适应集成与特有-共享特征融合的双模态情感识别模型。一方面,为从EEG信号中获得更具显著性的情感语义特征,设计了多层次时空特征自适应集成模块。该模块首先通过双流结构捕捉EEG信号的时空特征,再通过特征相似度加权并集成各层次的特征,最后利用门控机制自适应地学习各层次相对重要的情感特征。另一方面,为挖掘EEG信号与人脸图像之间的情感语义一致性与互补性,设计了特有-共享特征融合模块,通过特有特征的学习和共享特征的学习来联合学习情感语义特征,并结合损失函数实现各模态特有语义信息和模态间共享语义信息的自动提取。在DEAP和MAHNOB-HCI两种数据集上,采用跨实验验证和5折交叉验证两种实验手段验证了提出模型的性能。实验结果表明,该模型取得了具有竞争力的结果,为基于EEG信号与人脸图像的双模态情感识别提供了一种有效的解决方案。 展开更多
关键词 模态情感识别 脑电 人脸图像 多层次时空特征 特征融合
在线阅读 下载PDF
多模态特征增强的双层融合知识推理方法 被引量:1
15
作者 荆博祥 王海荣 +1 位作者 王彤 杨振业 《计算机科学与探索》 北大核心 2025年第2期406-416,共11页
现有的多模态知识推理方法大多采用拼接或注意力的方式,将预训练模型提取到的多模态特征直接进行融合,往往忽略了不同模态之间的异构性和交互的复杂性。为此,提出了一种多模态特征增强的双层融合知识推理方法。结构信息嵌入模块采用自... 现有的多模态知识推理方法大多采用拼接或注意力的方式,将预训练模型提取到的多模态特征直接进行融合,往往忽略了不同模态之间的异构性和交互的复杂性。为此,提出了一种多模态特征增强的双层融合知识推理方法。结构信息嵌入模块采用自适应图注意力机制筛选并聚合关键的邻居信息,用来增强实体和关系嵌入的语义表达;多模态嵌入信息模块使用不同的注意力机制关注不同模态数据的独有特征,以及多模态数据间的共性特征,利用共性特征的互补信息进行模态交互,以减少模态间异构性差异;多模态特征融合模块采用将低秩多模态特征融合和决策融合相结合的双层融合策略,实现了多模态数据在模态间和模态内的动态复杂交互,并综合考虑每种模态在推理中的贡献度,得到更全面的预测结果。为了验证方法的有效性,分别在FB15K-237、DB15K和YAGO15K数据集上进行了实验。结果表明:该方法相比多模态推理方法,在FB15K-237数据集上MRR和Hits@1分别平均提升3.6%和2.2%;相比单模态推理方法,MRR和Hits@1分别平均提升13.7%和14.6%。 展开更多
关键词 多模态知识图谱 链接预测 知识推理 多模态特征融合
在线阅读 下载PDF
基于时空特征融合与候选策略的智能汽车多模态轨迹预测 被引量:1
16
作者 杨智勇 杨俊 许沁欣 《计算机工程与应用》 北大核心 2025年第13期217-226,共10页
针对现有轨迹预测模型在捕捉复杂时空动态方面的局限性,以及部分预测轨迹不符合实际场景约束等问题,提出了一种基于时空特征融合和候选策略的智能汽车多模态轨迹预测模型。在场景编码和特征融合阶段,设计了非对称双向门控循环单元以捕... 针对现有轨迹预测模型在捕捉复杂时空动态方面的局限性,以及部分预测轨迹不符合实际场景约束等问题,提出了一种基于时空特征融合和候选策略的智能汽车多模态轨迹预测模型。在场景编码和特征融合阶段,设计了非对称双向门控循环单元以捕获历史轨迹序列之间的双向依赖性;引入一种基于交叉注意力的混合特征注意力方法,以建模车道与交通参与者间的隐式交互,并在车道图节点中深度融合车道空间特征和轨迹的时序特征。在解码器前引入直接使用车道拓扑结构的候选策略,该策略将利用先验知识指导预测过程,并通过覆盖目标车辆可能的未来轨迹,确保解码器能够输出可靠的多模态轨迹。该模型在公开数据集nuScenes上进行验证,实验结果表明,在预测5条和10条轨迹时,minADE和MR分别较最佳对比模型提高了7.5%、11.5%和5.5%、21.4%。可视化结果展现出更强的稳健性和解释性。 展开更多
关键词 智能驾驶 轨迹预测 时空特征融合 注意力机制 多模态预测
在线阅读 下载PDF
基于特征过滤和自适应融合机制的不规则场景文本检测算法
17
作者 杨帅磊 李岐龙 +2 位作者 陈杰 凡高娟 张重生 《哈尔滨工业大学学报》 北大核心 2025年第10期165-170,共6页
自然场景图像中的文本存在背景复杂、形状各异、方向多样、光线多变等特点,为提升场景文本尤其是不规则场景文本的检测性能,提出一种基于特征过滤和自适应特征融合机制的不规则场景文本检测网络FGANet(feature guided adaptive network)... 自然场景图像中的文本存在背景复杂、形状各异、方向多样、光线多变等特点,为提升场景文本尤其是不规则场景文本的检测性能,提出一种基于特征过滤和自适应特征融合机制的不规则场景文本检测网络FGANet(feature guided adaptive network),其特征聚合引导模块通过空洞卷积扩大感受野、提升网络的特征表达能力,其自适应特征融合模块能够将深层的语义信息与浅层的细节信息进行综合利用,使算法获得更强的文本感知能力。结果表明,在场景文本检测方面,FGANet相较于对比算法,在ICDAR2015、CTW1500、MSRA-TD500和Total Text 4个基准数据集上的F值分别提升了2.4%、1.3%、1.8%和1.4%,性能提升较为显著。 展开更多
关键词 自然场景图像 场景文本检测 特征过滤 自适应特征融合 文本感知能力
在线阅读 下载PDF
基于特征解耦与融合的不完全多模态骨肿瘤图像分类
18
作者 曾青海 李传璞 +3 位作者 阳维 宋丽文 赵英华 杨谊 《南方医科大学学报》 北大核心 2025年第6期1327-1335,共9页
目的 提出了一种基于特征解耦与融合的骨肿瘤分类模型,用于合理处理模态缺失并融合多模态信息,以提升分类准确率。方法 设计解耦补全模块,先提取包含已有模态的局部与全局信息的骨肿瘤图像特征,再将该特征分解为共享特征和特定特征。利... 目的 提出了一种基于特征解耦与融合的骨肿瘤分类模型,用于合理处理模态缺失并融合多模态信息,以提升分类准确率。方法 设计解耦补全模块,先提取包含已有模态的局部与全局信息的骨肿瘤图像特征,再将该特征分解为共享特征和特定特征。利用共享特征作为缺失模态特征的补全表示,从而减少因模态差异带来的补全偏差。考虑到模态差异可能会使多模态信息难以融合,采用基于交叉注意力机制的融合模块。提升模型学习跨模态信息的能力并对特定特征进行充分融合,从而提高骨肿瘤分类的准确性。结果 实验采用在南方医科大学第三附属医院收集的骨肿瘤数据集进行训练和测试。在7种可用模态组合中,本文方法中骨肿瘤分类的平均AUC、准确率、特异性分别为0.766、0.621、0.793,与现有的模态缺失处理方法相比分别提高了2.6%、3.5%、1.7%。全模态情况下骨肿瘤分类效果最佳,AUC为0.837;仅有MRI模态时AUC仍能达到0.826。结论 本文方法能合理地处理模态缺失并有效融合多模态信息,在多种复杂的缺失情境下表现出良好的骨肿瘤分类性能。 展开更多
关键词 骨肿瘤分类 多模态图像 模态缺失 特征解耦 注意力融合
在线阅读 下载PDF
基于注意力机制和跨模态层级特征融合的群养肉牛个体质量估测
19
作者 宋平 杨颖 +3 位作者 刘刚 姚冲 李子若 毛天赐 《农业工程学报》 北大核心 2025年第10期221-231,共11页
为解决群养场景下肉牛个体质量称量复杂、精度低的问题,该研究提出了基于注意力机制和跨模态层级特征融合模型CMHFF-ResNet(cross-modal hierarchical feature fusion resnet)。首先,无接触式地采集俯视视角下日常活动的肉牛的RGB(red-g... 为解决群养场景下肉牛个体质量称量复杂、精度低的问题,该研究提出了基于注意力机制和跨模态层级特征融合模型CMHFF-ResNet(cross-modal hierarchical feature fusion resnet)。首先,无接触式地采集俯视视角下日常活动的肉牛的RGB(red-green-blue)图像与深度图像,使用引入定向边界框OBB(oriented bounding box)的YOLOv8网络对肉牛进行旋转目标检测和识别,精准定位群养场景中的个体目标;其次,以ResNet50为骨干网络构建双流估重模型,分别提取RGB和深度模态特征,并引入CBAM(convolutional block attention module)注意力机制以增强关键特征表达能力。设计跨模态的层级特征融合,有效结合RGB流和深度流的特征并充分利用浅层特征;第三,引入肉牛的身份信息便于网络学习肉牛身份与其体质量之间的对应关系,为优化模型效率,将全连接层替换为KAN(kolmogorov-arnold networks),显著减少参数量;最后,将双流的输出结果融合,回归肉牛体质量值。在试验中,构建了包含2546对RGB-D图像的数据集,包括2373对训练数据和173对验证数据。结果表明,CMHFF-ResNet在验证集上的平均绝对误差为14.19 kg。与基于RGB和深度的单流模型相比,双流模型在平均绝对误差上分别降低16.943%和26.133%。同时,该方法优于其他现有肉牛体质量估测方法:与多元线性回归、改进MobileNetv2模型、改进DenseNet201模型和改进跨模态特征融合模型CFF-ResNet相比,在平均绝对误差上分别减少57.233%、34.699%、24.761%和20.991%,提升了群养环境下肉牛个体质量估测的精度与泛化性,能够有效地学习跨模态的层级特征表示。该研究为大规模群养环境中肉牛个体质量的高精度估测提供了参考。 展开更多
关键词 模型 计算机视觉 目标检测 体质量估测 注意力机制 模态层级特征融合 双流网络
在线阅读 下载PDF
基于多模态特征融合的车辆网络波束赋形方法
20
作者 聂佳莉 崔原豪 +3 位作者 张迪 张荣辉 穆俊生 景晓军 《雷达学报(中英文)》 北大核心 2025年第4期994-1004,共11页
波束赋形技术通过向特定方向发射信号,提高了接收信号的功率。然而,在高速动态的车辆网络场景下,频繁的信道状态更新与波束调整导致系统开销过大;波束与用户位置难以实时对齐,易出现错位现象,影响通信稳定性;复杂路况中的遮挡和信道衰... 波束赋形技术通过向特定方向发射信号,提高了接收信号的功率。然而,在高速动态的车辆网络场景下,频繁的信道状态更新与波束调整导致系统开销过大;波束与用户位置难以实时对齐,易出现错位现象,影响通信稳定性;复杂路况中的遮挡和信道衰落进一步限制了波束赋形的效果。为了解决上述问题,该文提出了一种基于卷积神经网络和注意力机制模型的多模态特征融合波束赋形方法,以实现感知辅助的高可靠通信。模型首先对传感器采集的雷达、激光雷达数据分别定制数据转换和标准化策略,解决数据异构问题。然后使用三维卷积残差块提取多层次高阶多模态特征后,利用注意力机制模型融合特征并预测最佳波束,实现通信性能的优化。实验结果表明,该文所提方法在高速场景下可达到接近90%的平均Top-3波束预测精度,相比单模态方案性能显著提升,验证了其在提升通信性能和可靠性方面的优越性。 展开更多
关键词 感知辅助通信 多模态特征融合 雷达信号处理 波束赋形 注意力机制
在线阅读 下载PDF
上一页 1 2 36 下一页 到第
使用帮助 返回顶部