期刊文献+
共找到3,686篇文章
< 1 2 185 >
每页显示 20 50 100
选择与突显:基于语料库的“一带一路”多模态修辞框架探赜
1
作者 席蕊 《外语研究》 北大核心 2026年第1期29-38,67,共11页
框架理论强调的选择和突显与隐喻和转喻的运作机制相得益彰。职是之故,认知语言学和传播学在融媒体时代的跨界联姻孕生了多模态修辞框架理论。本研究借助质性分析软件Nvivo 12和语料库检索工具AntConc 4.2,基于自建的《中国日报》“一... 框架理论强调的选择和突显与隐喻和转喻的运作机制相得益彰。职是之故,认知语言学和传播学在融媒体时代的跨界联姻孕生了多模态修辞框架理论。本研究借助质性分析软件Nvivo 12和语料库检索工具AntConc 4.2,基于自建的《中国日报》“一带一路”多模态语料库,解构内嵌其中的多模态隐喻和转喻框架,挖掘视觉立体框架与语言线性框架的互文性运作机理,管窥多模态修辞框架在建构国家战略议题方面的理论和实践意义。定量定性研究发现:漫画语言文本通过高频词和共现搭配突显了6种认知框架,即全球共同体共建共赢、政治多边平等合作、经济发展繁荣共享、文化包容交流互鉴、安全和平健康、生态绿色可持续。多模态文本建构了4种多模态根隐喻和9种多模态根转喻,运用源域、目标域的视觉表征选择和映射属性及意指高频符号突显,视觉廓清并具象化透现了语言框架,在复调舆论场域助力了“一带一路”的深刻意蕴与海内外受众的认知对接,因此是建构国家战略议题行之有效的框架装置。 展开更多
关键词 “一带一路” 多模态修辞框架 多模态隐喻 多模态转喻 框架理论 多模态语料库
在线阅读 下载PDF
基于全局-局部交互与对比学习的多模态对话情感识别
2
作者 钮焱 乐颖 李军 《计算机应用研究》 北大核心 2026年第2期353-360,共8页
为解决多模态对话情感识别中模态融合缺乏全局引导、跨模态语义对齐困难及模态学习不平衡的问题,提出一种基于全局-局部交互与对比学习的情感识别方法。该方法通过全局语义中枢引导模态间的深度交互,实现自适应注意力分配与特征融合;构... 为解决多模态对话情感识别中模态融合缺乏全局引导、跨模态语义对齐困难及模态学习不平衡的问题,提出一种基于全局-局部交互与对比学习的情感识别方法。该方法通过全局语义中枢引导模态间的深度交互,实现自适应注意力分配与特征融合;构建文本-音频-视觉三模态对比学习框架,在共享语义空间中促进跨模态对齐与信息互补;并设计模态动态平衡优化器,依据模态性能动态调整学习率,抑制模态主导现象。实验在IEMOCAP和MELD数据集上分别取得76.09%和69.66%的准确率,加权F1值达76.20%和68.79%,显著优于现有主流方法,验证了所提方法在多模态协同建模与情感识别性能提升方面的有效性。 展开更多
关键词 多模态情感识别 多模态融合 全局-局部交互机制 对比学习 模态平衡优化
在线阅读 下载PDF
面向开源情报“模糊性”的多模态数据交互模式构建
3
作者 李颖 李骄阳 《情报杂志》 北大核心 2026年第2期131-139,共9页
该研究旨在深入探讨开源情报工作中遇到的数据质量挑战,并通过多维度分析,揭示多模态数据交互在提升开源情报工作效能方面的潜在积极作用,为改善我国开源情报工作的现状提供理论支持和技术参考。首先,详细分析多模态数据对开源情报工作... 该研究旨在深入探讨开源情报工作中遇到的数据质量挑战,并通过多维度分析,揭示多模态数据交互在提升开源情报工作效能方面的潜在积极作用,为改善我国开源情报工作的现状提供理论支持和技术参考。首先,详细分析多模态数据对开源情报工作的变革性影响,并归纳总结开源情报中的主要质量问题类型。随后,梳理实现有效多模态数据交互的关键技术,构建针对不同开源情报质量问题的多模态交互框架。最后,基于上述分析,提出推动我国开源情报工作发展的策略建议。基于深度学习与推理的多模态交互框架理论上能够对开源情报的收集与分析阶段的数据困境起到缓解作用,进而助力开源情报工作中情报价值的精确提取,提升情报的准确性和可靠性,为决策者提供更为稳定和高效的情报流。 展开更多
关键词 开源情报 多模态数据 数据交互 多模态交互 深度学习 情报质量
在线阅读 下载PDF
多模态检索增强生成驱动的文档问答综述(特邀)
4
作者 李泽鸣 王树良 +1 位作者 尚子贺 盛明 《计算机工程》 北大核心 2026年第4期1-21,共21页
传统检索增强生成(RAG)方法主要面向纯文本场景,其检索与生成机制难以有效建模多模态文档中普遍存在的视觉元素、空间布局与结构语义,在图文混合、长文档及跨文档推理任务中表现受限。为此,多模态检索增强生成(MRAG)通过联合建模文本、... 传统检索增强生成(RAG)方法主要面向纯文本场景,其检索与生成机制难以有效建模多模态文档中普遍存在的视觉元素、空间布局与结构语义,在图文混合、长文档及跨文档推理任务中表现受限。为此,多模态检索增强生成(MRAG)通过联合建模文本、图像与版式结构,在生成过程中引入多模态证据检索与调度,已然发展为视觉富文档问答与推理的核心技术范式。本文系统综述MRAG在文档问答任务中的研究进展。首先,围绕多模态文档理解的实际需求,分析MRAG在多模态对齐、长上下文建模、证据可追溯性及系统鲁棒性等面临的关键挑战。其次,立足MRAG系统支持生成过程的方式,分别从嵌入范式、文档检索范围、布局感知机制与多模态检索策略4个维度,梳理对比代表性方法,聚焦讨论不同设计选择对生成稳定性、推理精度与系统复杂度的影响。再次,总结现有多模态文档问答数据集与评测体系的特点与不足,分析当前评测在多模态证据粒度与推理可解释性方面的局限。最后,指出MRAG正由面向静态相似度匹配的检索机制,演进为以生成与推理需求为中心的动态证据规划范式,应通过多模态、多粒度协同建模,持续提升复杂文档问答系统的可靠性与可解释性。 展开更多
关键词 多模态文档 多模态检索增强生成 文档问答 生成驱动检索 布局感知建模 多模态推理
在线阅读 下载PDF
多模态知识图谱补全方法综述
5
作者 王雪 张丽萍 +2 位作者 闫盛 李娜 张学飞 《计算机应用》 北大核心 2026年第2期341-353,共13页
传统知识图谱(KG)虽然为网络中的信息提供了一种统一的且机器可理解的表示方式,但在处理多模态应用时逐渐暴露出局限性。为了应对这些局限性,研究者提出多模态知识图谱(MMKG)作为有效解决方案。然而,KG引入多模态数据后广泛存在模态融... 传统知识图谱(KG)虽然为网络中的信息提供了一种统一的且机器可理解的表示方式,但在处理多模态应用时逐渐暴露出局限性。为了应对这些局限性,研究者提出多模态知识图谱(MMKG)作为有效解决方案。然而,KG引入多模态数据后广泛存在模态融合不充分和推理困难的问题,这制约了MMKG的应用和发展。而多模态知识图谱补全(MMKGC)技术不仅能够在构建阶段充分融合跨模态信息,还能够在构建完成阶段预测缺失的链接,从而解决在模态融合和推理时遇到的问题。因此,对MMKG方法进行综述。首先,详尽阐述MMKGC的基本概述以及常用的基准数据集和评价指标;其次,将现有方法分为针对MMKG构建阶段的融合任务和构建完成阶段的推理任务,前者聚焦于关键技术如实体对齐和实体链接,后者则涵盖关系推理、信息缺失补全及多模态扩展这3类技术;再次,详细介绍了各类MMKGC方法,并分析它们的特点;最后,分析MMKGC方法面临的问题与挑战并总结前面的内容。 展开更多
关键词 多模态数据 多模态知识图谱 多模态知识图谱补全 实体对齐 关系推理
在线阅读 下载PDF
无人机多模态超宽谱认知仪研究
6
作者 施云鹤 张小飞 吴启晖 《数据采集与处理》 北大核心 2026年第1期28-52,共25页
本文设计了一种无人机(Unmanned aerial vehicle,UAV)多模态超宽谱认知仪,通过深度融合可见光、红外、合成孔径雷达(Synthetic aperture radar,SAR)及无线频谱等多模态传感器构建智能遥感系统,旨在攻克传统无人机遥感的根本性瓶颈:续航... 本文设计了一种无人机(Unmanned aerial vehicle,UAV)多模态超宽谱认知仪,通过深度融合可见光、红外、合成孔径雷达(Synthetic aperture radar,SAR)及无线频谱等多模态传感器构建智能遥感系统,旨在攻克传统无人机遥感的根本性瓶颈:续航时间短严重制约探测范围、有效载荷不足限制多模态感知能力、机载算力薄弱导致实时处理延迟、通信容量有限阻碍高保真态势评估。本文设计方案针对续航挑战,采用活塞发动机与锂电池协同的混合能源构型,结合垂直起降(Vertical take-off and landing,VTOL)飞翼布局,显著提升航时效能;为应对载荷限制,开发复眼多目相机实现大视场高分辨率成像,集成W波段轻小型SAR突破亚毫米级振动补偿技术,支撑空-时-频多维度协同感知;为化解实时处理困境,基于时空配准框架与轻量化深度学习模型,构建数据层-特征层-语义层多层次融合机制,将低可观测目标检测精度提升至90%以上;针对通信瓶颈,创新生成式编码技术结合知识图谱驱动的态势重建,通过无参考质量评估模型量化语义保真度,实现超400倍压缩下的高保真三维态势生成。该仪器在国防侦察领域成功实现复杂电磁环境中隐蔽目标实时追踪,在应急救援中完成洪涝灾害监测与三维重建等关键任务,验证了多模态超宽谱认知在复杂场景的实用价值。 展开更多
关键词 无人机 混合能源 多模态载荷集成 多模态融合 质量评估
在线阅读 下载PDF
教育数字化转型背景下国际中文教师多模态教学能力指标体系研究 被引量:1
7
作者 雷莉 陈雯 雷思佳 《四川师范大学学报(社会科学版)》 北大核心 2026年第1期91-99,201,共10页
随着数字化转型的加速,国际中文教学生态向智慧化、多模态方向升级,这一变化对教师专业素养提出了更高要求。培养国际中文教师的多模态教学能力,可助力教师从单纯的技术工具应用迈向多模态协同设计的深度融合。参考《国际中文教师专业... 随着数字化转型的加速,国际中文教学生态向智慧化、多模态方向升级,这一变化对教师专业素养提出了更高要求。培养国际中文教师的多模态教学能力,可助力教师从单纯的技术工具应用迈向多模态协同设计的深度融合。参考《国际中文教师专业能力标准》,综合运用咨询访谈、量表调查与文本分析等研究方法,在明确国际中文教师多模态教学能力的概念内涵的基础上,构建了包含5个一级指标与14个二级指标的多模态教学能力指标框架,并借助案例分析对能力指标进行详细阐释,为国际中文教师多模态教学能力的量化评估与系统提升奠定基础。研究成果可为国际中文教育的师资专业化建设和教学智能化转型提供新的思考维度与实践路径,推动国际中文教育在数字时代的高质量、内涵式发展。 展开更多
关键词 国际中文教师 多模态教学能力 能力指标 数字化转型
在线阅读 下载PDF
自适应融合的多模态实体对齐方法
8
作者 王艺焱 王海荣 +1 位作者 王怡梦 王文龙 《计算机工程与科学》 北大核心 2026年第2期372-380,共9页
针对多模态实体对齐存在的特征融合时信息易丢失问题,以及对齐时仅关注联合实体向量导致实体无法被正确对齐的问题,提出了自适应融合的多模态实体对齐方法ADMMEA。该方法利用FastText、ResNet-152和GAT模型提取多模态实体特征,同时获取... 针对多模态实体对齐存在的特征融合时信息易丢失问题,以及对齐时仅关注联合实体向量导致实体无法被正确对齐的问题,提出了自适应融合的多模态实体对齐方法ADMMEA。该方法利用FastText、ResNet-152和GAT模型提取多模态实体特征,同时获取实体名称、图像和结构数据的特征表示;采用布雷-柯蒂斯(Bray-Curtis)相异矩阵与莱文斯坦(Levenshtein)距离,计算源实体与目标实体间的相似度,生成各模态的距离矩阵;通过自适应融合策略融合图文距离矩阵,将其与结构信息矩阵拼接,得到最终的融合矩阵;利用排序思想匹配对融合矩阵按照相似度分数进行降序排列实现多模态实体对齐。在DBP15K数据集的ZH-EN,JA-EN和FR-EN子数据集上进行方法实验,并将实验结果与JAPE,RDGCN,MOGNN和MIMEA等13种方法进行对比,结果表明ADMMEA在ZH-EN,JA-EN和FR-EN这3个数据集上的Hits@1指标分别达到了0.985,0.995和0.994,证明了ADMMEA方法的有效性。 展开更多
关键词 多模态知识图谱 多模态实体对齐 嵌入模型 自适应融合 匹配问题
在线阅读 下载PDF
多模态对地观测大模型:架构、关键技术和未来展望
9
作者 许文嘉 于睿卿 +6 位作者 薛铭浩 汪雪怡 张源奔 魏智威 张柘 彭木根 吴一戎 《雷达学报(中英文)》 北大核心 2026年第1期361-386,共26页
近年来,人工智能技术和对地观测领域的结合已成为领域发展的前沿热点,多模态大语言模型(MLLM)的快速发展为智能解译带来新的机遇和挑战。多模态对地观测大模型通过构建大语言模型与视觉模型之间的桥接机制并采用联合训练方式,深度融合... 近年来,人工智能技术和对地观测领域的结合已成为领域发展的前沿热点,多模态大语言模型(MLLM)的快速发展为智能解译带来新的机遇和挑战。多模态对地观测大模型通过构建大语言模型与视觉模型之间的桥接机制并采用联合训练方式,深度融合光学影像、合成孔径雷达影像与文本等多模态信息,有效推动对地观测智能解译由浅层语义匹配向高层的世界知识理解跃迁。该文系统性回顾了多模态对地观测大模型的相关研究成果,以期为新的研究方向提供依据。具体而言,该文首先明确了多模态对地观测大模型(EO-MLLM)的概念定义,并梳理了多模态对地观测大模型的发展脉络。随后,详细阐述了多模态对地观测大模型的模型架构、训练方法、适用任务及其对应的基准数据集,并介绍了对地观测智能体。最后,探讨了多模态对地观测大模型的研究现状和未来发展方向。 展开更多
关键词 大语言模型 多模态大语言模型 多模态对地观测大模型 视觉语言模型 对地观测智能体
在线阅读 下载PDF
水电工程施工安全隐患图文多模态智能识别方法
10
作者 聂本武 陈述 +3 位作者 陈云 田雪琪 曹坤煜 李智 《中国安全科学学报》 北大核心 2026年第3期104-112,共9页
为解决水电工程施工安全隐患识别存在单模态特征表达不完整、图文特征融合效率低等问题,提出水电工程施工安全隐患图文多模态智能识别方法。首先,针对水电工程施工特点,定义12种施工安全隐患分类特征,建立水电工程施工安全隐患图文多模... 为解决水电工程施工安全隐患识别存在单模态特征表达不完整、图文特征融合效率低等问题,提出水电工程施工安全隐患图文多模态智能识别方法。首先,针对水电工程施工特点,定义12种施工安全隐患分类特征,建立水电工程施工安全隐患图文多模态数据集;其次,利用双向变换器模型(BERT)和视觉变换器(ViT)模型分别提取隐患文本与图像特征,引入门控融合网络(GFN),动态调节图文特征贡献度,捕捉多模态关联特征信息,通过多层感知器提高对多模态分类识别精度;最后,通过对比试验,检验模型识别的准确性与可靠性。结果表明:该方法通过增强识别稳定性,实现对多模态隐患特征的优化贡献,多模态隐患识别准确率高达84.99%,较文本模型提升1.73%,较图像模型提升12.24%,隐患识别分类优于已有基准模型,有助于提升安全隐患智能识别的鲁棒性。 展开更多
关键词 水电工程 施工安全隐患 多模态 门控融合网络(GFN) 智能识别
在线阅读 下载PDF
融合生成扩散模型的不完全多模态情绪识别
11
作者 马飞 王玉婷 +1 位作者 杨飞霞 徐光宪 《计算机科学与探索》 北大核心 2026年第1期206-216,共11页
人类多模态情绪识别将文本、视觉和声音等各种异构模态数据用于感知并理解人类情感。与单一模态相比,多模态数据中的互补信息有助于更稳健地理解情感。然而,在实际多模态场景中常存在不完全或缺失模态信息,严重阻碍对多模态特征的理解,... 人类多模态情绪识别将文本、视觉和声音等各种异构模态数据用于感知并理解人类情感。与单一模态相比,多模态数据中的互补信息有助于更稳健地理解情感。然而,在实际多模态场景中常存在不完全或缺失模态信息,严重阻碍对多模态特征的理解,从而导致情绪识别精度下降。针对以往的多模态情绪识别方法未能有效地处理模态在不完全或缺失情况下产生的识别精度下降的问题,提出了一种融合生成扩散模型的不完全多模态情绪识别方法,通过重构不完全模态数据信息,以提升情绪识别的精度。构建基于跨模态条件随机微分方程的生成扩散模型,在逆扩散过程中将可用模态信息通过可学习投影转化为漂移项的动态约束,生成不完全模态信息特征;构建不完全模态生成网络与融合重构模块的双向协同优化框架,利用联合目标函数实现生成质量与特征融合的梯度反向传播交互,通过分层注意力机制建立补全的不完全模态特征与真实特征的情感语义一致性约束。经过几组数据集测试结果表明,所提出的多模态情绪识别方法在多种不完全模态场景中取得了优越的情绪识别性能。 展开更多
关键词 多模态情绪识别 得分网络补全 融合重构
在线阅读 下载PDF
基于MTICC-DiPCA的磨煤机多模态运行过程监测方法
12
作者 刘卫东 任少君 +1 位作者 吴婷婷 司风琪 《锅炉技术》 北大核心 2026年第1期34-40,共7页
在负荷和燃料的双向扰动下,磨煤机运行参数的多模态特征显著,对其进行故障诊断的难度增大。针对此问题,提出了一种基于混合托普利兹逆协方差和动态内部主成分分析(MTICC-DiPCA)的磨煤机多模态运行过程监测方法。该方法通过混合托普利兹... 在负荷和燃料的双向扰动下,磨煤机运行参数的多模态特征显著,对其进行故障诊断的难度增大。针对此问题,提出了一种基于混合托普利兹逆协方差和动态内部主成分分析(MTICC-DiPCA)的磨煤机多模态运行过程监测方法。该方法通过混合托普利兹逆协方差提取连续时间窗口内数据在空间和时间上的依赖关系,获得可解释的模态划分结果。采用动态内部主成分分析提取每个模态数据的动态和静态潜变量,利用预测误差平方和和T^(2)的综合指标对磨煤机运行过程进行实时监测。基于Matlab/Simulink软件构建MPS型中速磨煤机仿真模型,得到不同水分燃料下的磨煤机运行仿真数据,分析燃料特性对磨煤机运行模态的影响关系。通过仿真故障数据验证MTICC-DiPCA方法的有效性,结果表明:该方法诊断精度明显优于单一模型方法。 展开更多
关键词 多模态过程 故障诊断 磨煤机 MTICC-DiPCA
在线阅读 下载PDF
一种基于P4的多模态网络控制与安全检测方案
13
作者 李冬 高源 +2 位作者 于俊清 曾木虹 陈俊鑫 《信息网络安全》 北大核心 2026年第1期115-124,共10页
可编程网络技术通过软件定义和编程技术控制网络设备与数据报文,提升网络灵活性、可扩展性和自动化能力,为多模态网络发展奠定基础。文章基于可编程架构设计了身份、内容、地理位置、弹性地址空间、IPv4、IPv6等6种模态的数据报文路由... 可编程网络技术通过软件定义和编程技术控制网络设备与数据报文,提升网络灵活性、可扩展性和自动化能力,为多模态网络发展奠定基础。文章基于可编程架构设计了身份、内容、地理位置、弹性地址空间、IPv4、IPv6等6种模态的数据报文路由转发机制,并在数据平面实现报文解析、路由寻址与转发。同时,构建多模态网络控制系统,支持报文解析、拓扑管理、流表生成与下发、网络测量等功能,并集成资源协调与调度算法,可实时分析网络状态、计算路由规则并下发流表。文章通过流量特征提取实现安全检测,并基于深度学习构建多模态流量时序模型,实现异常检测与识别,引入内生安全特性,保障系统可用性和可靠性。实验结果表明,文章方案可实现多模态网络统一通信与控制,支持多种模态;控制系统功能完善且性能稳定,拓扑规模超过2000节点,平均端到端时延小于100 ms;安全检测功能可实时识别异常流量与网络模态,其中,异常流量检测准确率达到96.49%,模态识别准确率达到99.72%。 展开更多
关键词 多模态网络 软件定义网络 网络测量 异常检测
在线阅读 下载PDF
基于多模态提示的开放词汇面部表情识别方法
14
作者 马飞 王元 +1 位作者 杨飞霞 徐光宪 《计算机工程与应用》 北大核心 2026年第7期183-195,共13页
近年来,基于深度学习的面部表情识别方法取得了显著进展,然而现有方法对于未知类别泛化能力不足,无法对训练集以外的表情进行开放词汇识别。随着数据规模与模型规模的不断增长,多模态大模型的出现为开放词汇识别提供了新的可能。因此,... 近年来,基于深度学习的面部表情识别方法取得了显著进展,然而现有方法对于未知类别泛化能力不足,无法对训练集以外的表情进行开放词汇识别。随着数据规模与模型规模的不断增长,多模态大模型的出现为开放词汇识别提供了新的可能。因此,在多模态预训练模型CLIP的基础上,提出一种微调高效化的面部表情识别算法MPT-FER。利用多模态提示对预训练好的CLIP进行微调,在推理阶段,针对未知类别的识别,通过计算图像特征与可能相关的文本描述之间的余弦相似度,判断所属类别进行分类。此外,在训练阶段,冻结预训练模型大部分固定参数,仅对多模态提示模块中的可训练参数进行微调,以提升训练效率。实验结果表明,在多个标准数据集上分别取得96.97%、68.33%和100.00%的准确率,并在Old-to-New和零样本测试中表现优异。保证良好性能的同时,所需训练参数量相较原始预训练模型CLIP训练参数量下降98.53%。 展开更多
关键词 面部表情识别 参数高效化微调 多模态提示 预训练 零样本学习
在线阅读 下载PDF
基于多模态因素与用户分类的区域短期负荷可解释预测方法
15
作者 牛东晓 杜若芸 +3 位作者 赵焰佩 赵伟博 邱敏 许晓敏 《智慧电力》 北大核心 2026年第1期110-117,共8页
区域短期负荷的准确预测对保障电力系统稳定运行、优化能源资源配置具有重要作用。然而,区域短期负荷受到多种因素的综合影响,且不同用户群体的用电特性差异显著,传统预测方法在可解释性与精度方面存在不足。为此,提出一种基于多模态影... 区域短期负荷的准确预测对保障电力系统稳定运行、优化能源资源配置具有重要作用。然而,区域短期负荷受到多种因素的综合影响,且不同用户群体的用电特性差异显著,传统预测方法在可解释性与精度方面存在不足。为此,提出一种基于多模态影响因素与用户分类的区域短期负荷可解释性预测方法。首先,从日期属性、气象条件、社会经济指标等多个维度提取多模态特征,并采用标签编码法将多模态特征转换为数值标签作为后续负荷预测的输入特征;其次,考虑农业、工业、商业、居民等用户群体的用电行为与负荷响应的差异,构建基于贝叶斯优化(Optuna)的极端梯度提升(XGBoost)模型,分别进行负荷功率预测,并通过叠加4类用户的预测结果得到区域总负荷;最后,引入夏普利加可解释性(SHAP)方法分析各影响因素对负荷预测的贡献度以及不同因素之间的交互作用,提高模型的可解释性。以我国西北某区域实际数据为例进行验证,结果表明,所提组合模型具有更好的预测效果和更高的预测精度。 展开更多
关键词 区域短期负荷预测 Optuna XGBoost 多模态影响因素 用户分类 可解释性预测
在线阅读 下载PDF
结合多模态检测头的小蠹类害虫细粒度识别模型
16
作者 李巨虎 路佳 +2 位作者 徐玉立 李世豪 蔡祥 《农业工程学报》 北大核心 2026年第1期273-283,共11页
为解决小蠹类害虫(Dendroctonus spp)物种多样性高、近缘种形态相似且常同域分布导致的种类鉴定困难问题。该研究提出了能够细粒度识别小蠹虫种类的FGRS-Net(fine-grained recognition for scolytidae network)模型。首先,为缓解样本不... 为解决小蠹类害虫(Dendroctonus spp)物种多样性高、近缘种形态相似且常同域分布导致的种类鉴定困难问题。该研究提出了能够细粒度识别小蠹虫种类的FGRS-Net(fine-grained recognition for scolytidae network)模型。首先,为缓解样本不足导致的识别偏差,该研究自主设计了基于多模态嵌入的检测头模块;其次,为提取跨尺度鉴别特征,利用注意力机制混合模块ACmix(attention convolution mixer)实现了融合特征捕捉;为进一步获取特征并降低参数量,引入了全维度动态卷积模块ODConv(omni-dimensional dynamic convolution)重点关注昆虫细粒度特征;并通过剪枝以及知识蒸馏轻量化模型;为全面评估模型在实际应用中的可靠性,该研究在低照度、模糊及复杂背景遮挡等多种干扰条件下进行了系统的鲁棒性测试,并在不同计算架构的边缘设备上完成了部署验证。试验结果显示,FGRS-Net的平均精度均值达到89.3%,召回率为98%,浮点运算量降低16%,NVIDIA RTX 5090 GPU部署帧率达到289帧/s;双平台开发板部署帧率分别为11、27帧/s。实践表明,FGRS-Net模型具有精确度高和轻量化的优点,相比于现有主流模型具有较好的竞争力,该研究方法可为后续细粒度小蠹虫识别提供参考。 展开更多
关键词 小蠹虫检测 细粒度分类 多模态学习 轻量化模型 动态卷积
在线阅读 下载PDF
基于多模态场景记忆与指令提示的目标导航方法
17
作者 董敏 赖酉城 毕盛 《华南理工大学学报(自然科学版)》 北大核心 2026年第2期1-15,共15页
目标导航要求机器人能够根据自然语言指令或目标类别,在工作环境中自动规划路径并准确到达指定目标位置。现有目标导航方法主要分为端到端学习和基于规划两大类,其中端到端方法虽然能够直接学习从感知到动作的映射,但普遍存在泛化能力... 目标导航要求机器人能够根据自然语言指令或目标类别,在工作环境中自动规划路径并准确到达指定目标位置。现有目标导航方法主要分为端到端学习和基于规划两大类,其中端到端方法虽然能够直接学习从感知到动作的映射,但普遍存在泛化能力不足与可解释性差等问题;而基于规划的方法在一定程度上提升了泛化性和可解释性,但仍存在未针对已知环境进行优化、忽略自然语言指令中的提示信息、难以实现对目标指定距离的精确停靠等问题,且执行效率较低。针对上述问题,该文提出了一种基于多模态场景记忆与指令提示的目标导航方法(MEMO-Nav),旨在提升机器人在已知环境下的目标导航效果。该方法采用分层架构,上层规划层维护多模态场景记忆以记录环境信息,并利用大语言模型解析自然语言指令中的目标与提示信息,进而结合场景记忆与指令信息进行高效的路径点筛选和导航规划;底层执行层则负责基础导航功能,完成机器人的定位与移动,并集成目标检测模型与深度相机实现对目标物体的精确定位。规划层与执行层构成完整的目标导航系统,最终实现根据自然指令找到目标并停靠在目标指定距离的功能。该文在GAZEBO仿真平台和真实环境上开展了多次实验,结果表明,在已知环境下所提方法的导航效率、成功率以及停靠距离精度等指标相较于已有方法均有明显提升。综上,该文提出的方法为移动机器人在实际场景下实现高效、可解释且精确的目标导航提供了可行的实现方法。 展开更多
关键词 移动机器人 目标导航 路径规划 大语言模型 多模态
在线阅读 下载PDF
融合多模态感知的机器人抓取策略研究
18
作者 禹鑫燚 何威 欧林林 《小型微型计算机系统》 北大核心 2026年第4期894-901,共8页
物体抓取是机器人的基本技能,而在复杂场景中实现多样的操作抓取是一项具有挑战性的任务.针对复杂操作任务中机器人抓取系统面临的认知局限与动态场景适应性问题,本文提出了任务自适应的多模态感知融合框架.首先,结合视觉语言模型的图... 物体抓取是机器人的基本技能,而在复杂场景中实现多样的操作抓取是一项具有挑战性的任务.针对复杂操作任务中机器人抓取系统面临的认知局限与动态场景适应性问题,本文提出了任务自适应的多模态感知融合框架.首先,结合视觉语言模型的图像理解和语义推理以及图像分割模型的检测识别,构建了多模态信息感知模型,实现任务场景的图文推理和物体识别.其次,融合语言提示和视觉提示提出了动态任务链分解机制,根据场景复杂程度实时调整任务操作步骤的分解并增强感知模型对图像物体的视觉理解.其次,针对机器人末端平行夹爪需适应不同场景的抓取任务问题,提出了一种视觉引导的抓取姿态优化网络,通过引入2×2网格策略进行抓取点预测以及编码器-解码器架构的姿态优化网络,联合优化姿态的几何精度与物理可行性.最后,为了快速适应不同场景下新工具或新物体抓取操作的零样本泛化任务,提出策略优化架构,综合考虑子任务完成、路径平滑性和时间效率,设计多维度奖励函数,使机器人能够适应动态环境并实时调整策略.通过设计复杂操作任务场景进行机器人的抓取实验,证实了所提的方法在不同应用场景的操作扩展性能,对于各种复杂抓取任务有着良好的泛化性和鲁棒性. 展开更多
关键词 多模态感知 机器人抓取 策略优化 抓取姿态优化
在线阅读 下载PDF
多模态信息融合下的监控视频人员身份重识别
19
作者 吴军 陈慧 +2 位作者 徐刚 赵雪梅 陈睿星 《仪器仪表学报》 北大核心 2026年第1期270-286,共17页
针对目前监控视频人员身份重识别任务难以有效应对低分辨率小目标、人员姿(形)态变化及遮挡检测问题,以YOLOv9为基础网络并结合多模态预训练神经网络(CLIP)模型提出一种多模态信息融合下的监控视频人员身份识别新方法,主要涉及两个方面... 针对目前监控视频人员身份重识别任务难以有效应对低分辨率小目标、人员姿(形)态变化及遮挡检测问题,以YOLOv9为基础网络并结合多模态预训练神经网络(CLIP)模型提出一种多模态信息融合下的监控视频人员身份识别新方法,主要涉及两个方面工作:1)通过引入感受野增强模块与可变形卷积计算提高目标人员不同姿态(形)态下的特征检测性能、引入空间增强注意力机制学习特征间的关系以恢复被遮挡人员特征、引入基于归一化高斯距离的损失度量以增强低分辨率目标人员特征检测敏感性等系列模块设计,构建网络ReID-YOLO有效增强监控视频在不同姿态、形态及低分辨率、遮挡条件下的目标人员特征检测精度、鲁棒性;2)将CLIP跨模态信息融合优势迁移到视频人员身份重识别任务并利用CLIP图像-文本信息对齐优势对前一阶段提取的人员目标特征进行身份预测,在利用ReID-YOLO人员视觉特征有效区分能力缓解CLIP全局场景过度依赖的同时,借助CLIP模型场景泛化优势有效克服YOLO系列网络在整合场景信息深入解析目标方面的不足,从而整体提高网络模型的监控视频人员身份重识别精度与场景泛化能力。在低分辨率、消融与身份重叠等条件下的实验结果表明,所提方法视频人员身份重识别性能表现出色,优于YOLO系列网络及其他7个主流的视频人员身份重识别网络模型,具有良好应用前景。 展开更多
关键词 视频监控 人员身份识别 YOLO目标检测 多模态模型CLIP
在线阅读 下载PDF
基于多模态语义信息的文本生成图像方法
20
作者 杨冰 周家辉 +1 位作者 姚金良 向学勤 《浙江大学学报(工学版)》 北大核心 2026年第2期360-369,共10页
针对文本语义与图像语义不一致以及图像细节表现不足的问题,提出新的文本生成图像方法.基于多模态语义信息建立鉴别依据,在文本语义基础上引入真实图像语义,以解决文本描述信息密度低的问题,有效缓解生成图像细节缺失或失真的现象.在生... 针对文本语义与图像语义不一致以及图像细节表现不足的问题,提出新的文本生成图像方法.基于多模态语义信息建立鉴别依据,在文本语义基础上引入真实图像语义,以解决文本描述信息密度低的问题,有效缓解生成图像细节缺失或失真的现象.在生成器中集成可变形卷积和星模块卷积,增强生成器表达能力,提高生成图像的细节表现和整体质量.为了验证所提方法的有效性,在CUB数据集和COCO数据集上进行模型训练及评估.与生成式对抗对比语言-图像预训练模型(GALIP)相比,所提方法在保证高效生成的同时,在细节表现、语义一致性及整体质量上具有显著优势. 展开更多
关键词 文本生成图像 多模态语义 可变形卷积 星模块卷积 语义对齐鉴别器
在线阅读 下载PDF
上一页 1 2 185 下一页 到第
使用帮助 返回顶部