期刊文献+
共找到1,528篇文章
< 1 2 77 >
每页显示 20 50 100
基于模型预测控制的高精度混合视觉伺服机械臂控制方法
1
作者 刘新 王辉 《中南大学学报(自然科学版)》 北大核心 2025年第6期2266-2277,共12页
机械臂在各领域应用广泛,其控制系统对精度与稳定性方面的要求日益增加,然而,传统控制方法在复杂动态环境中的适应性不强。针对这一问题,本文提出一种基于模型预测控制的机械臂混合视觉伺服控制方法。首先,通过对混合视觉伺服系统进行建... 机械臂在各领域应用广泛,其控制系统对精度与稳定性方面的要求日益增加,然而,传统控制方法在复杂动态环境中的适应性不强。针对这一问题,本文提出一种基于模型预测控制的机械臂混合视觉伺服控制方法。首先,通过对混合视觉伺服系统进行建模,分析系统误差函数中旋转部分和平移部分的动态变化特性,推导误差与相机速度之间的关联关系模型。其次,提出一种基于模型预测控制的机械臂控制方法,通过结合系统误差和相机速度信息构建状态空间模型,实时预测系统的未来动态并优化控制输入,实现误差补偿和快速收敛。最后,在ViSP仿真平台和实物运动控制平台上分别进行验证。研究结果表明:与传统控制方法相比,所提出的方法有效降低了稳态误差,提高了控制精度,特别是在动态复杂环境中具有更强的抗干扰能力和适应性。 展开更多
关键词 机械臂 混合视觉伺服 模型预测控制 状态空间模型 最优控制
在线阅读 下载PDF
进化视角下基于概念模型建构的“眼球结构与视觉形成”的跨学科教学设计
2
作者 田春华 赵瑶瑶 《生物学教学》 北大核心 2025年第6期46-49,共4页
通过概念模型建构的策略引导学生逐步建构眼球的结构模型,结合进化视角,帮助学生逐步构建眼球结构,运用模型来解释视觉形成的过程,有效落实生命观念的同时,培养学生的科学思维。
关键词 模型建构 进化 眼球结构 视觉形成 概念教学
在线阅读 下载PDF
基于视觉大模型的砂岩岩石结构智能评价方法
3
作者 任义丽 曾昌民 +10 位作者 李欣 刘茜 胡延旭 苏乾潇 王孝明 林志威 周屹霄 郑紫路 胡蕙滢 杨艳宁 惠芳 《石油勘探与开发》 北大核心 2025年第2期488-498,共11页
针对现有砂岩岩石结构评价方法依赖于肉眼观察、效率低,且磨圆度等仍处于半定量分析、粒度分析无法分类型统计等问题,提出一种基于视觉大模型(SAM)的砂岩岩石结构智能评价方法。通过设计基于秩-分解矩阵适配器的SAM轻量化微调方法,构建... 针对现有砂岩岩石结构评价方法依赖于肉眼观察、效率低,且磨圆度等仍处于半定量分析、粒度分析无法分类型统计等问题,提出一种基于视觉大模型(SAM)的砂岩岩石结构智能评价方法。通过设计基于秩-分解矩阵适配器的SAM轻量化微调方法,构建多光谱岩石颗粒分割模型(CoreSAM),实现岩石颗粒边缘提取与类型识别,在此基础上提出一套岩石结构量化评价方法,评价粒度、分选性、磨圆度、颗粒接触关系及胶结类型等指标。实验结果表明,CoreSAM在岩石颗粒分割精度上优于现有方法,且在CT图像、岩心照片等不同类型图像上展现出良好的泛化性,能够实现全样本、分类型的粒度分析以及磨圆度等参数的量化表征,推动储层评价向精准、量化、直观、全面的方向发展。 展开更多
关键词 砂岩 岩石结构 智能评价 视觉大模型(sam) 微调 颗粒边缘提取 类型识别
在线阅读 下载PDF
视觉大模型SAM在医学图像分割中的应用综述 被引量:7
4
作者 孙兴 蔡肖红 +2 位作者 李明 张帅 马金刚 《计算机工程与应用》 CSCD 北大核心 2024年第17期1-16,共16页
随着大模型技术的不断发展,以分割一切模型(segment anything model,SAM)为代表的视觉大模型在图像分割领域取得重要突破。SAM通过提示驱动完成一系列下游分割任务,旨在统一解决所有的图像分割问题。因此,将SAM应用于医学图像分割具有... 随着大模型技术的不断发展,以分割一切模型(segment anything model,SAM)为代表的视觉大模型在图像分割领域取得重要突破。SAM通过提示驱动完成一系列下游分割任务,旨在统一解决所有的图像分割问题。因此,将SAM应用于医学图像分割具有重要意义,其泛化性能够适应多种医学图像,为医生提供更全面的解剖结构和病变信息。介绍了图像分割常用的数据集;对SAM的网络结构和泛化性进行细致阐述;重点对SAM应用在全切片成像、磁共振成像、计算机断层扫描、超声和多模态图像的五大类医学图像进行梳理分析,总结优缺点和相应的改进方法;结合当前医学图像分割领域中存在的实际问题,讨论并展望了SAM未来的发展方向。 展开更多
关键词 视觉大模型 分割一切模型(sam) 医学图像 图像分割
在线阅读 下载PDF
扩散模型在计算机视觉领域的研究现状 被引量:1
5
作者 管凤旭 张涵宇 +3 位作者 路斯棋 赖海涛 杜雪 郑岩 《智能系统学报》 北大核心 2025年第2期265-282,共18页
扩散模型是受分子热力学启发而来的一类新的生成模型,具有训练稳定、对模型设置依赖性弱等优点。近年来,扩散模型被广泛应用于各项任务,并且取得了相比于以往生成模型更多样、更高质量的结果。目前,扩散模型已成为计算机视觉领域热门的... 扩散模型是受分子热力学启发而来的一类新的生成模型,具有训练稳定、对模型设置依赖性弱等优点。近年来,扩散模型被广泛应用于各项任务,并且取得了相比于以往生成模型更多样、更高质量的结果。目前,扩散模型已成为计算机视觉领域热门的基准方法。为更好地促进扩散模型在计算机视觉领域的发展,对扩散模型进行综述:首先对比了扩散模型与其他生成模型的优劣,介绍了扩散模型的数学原理;随后,从扩散模型存在的普遍问题出发,介绍了相关学者近年来所做的改进工作,以及扩散模型在多种视觉任务上的应用实例;最后,探讨了扩散模型存在的问题,并提出了一些未来可能的发展趋势。 展开更多
关键词 扩散模型 去噪扩散概率模型 分数扩散模型 深度学习 计算机视觉 图像生成 生成模型 生成对抗网络
在线阅读 下载PDF
视觉基础模型驱动的像素级图像异常检测方法
6
作者 薛振华 李强 黄超 《计算机应用》 北大核心 2025年第3期823-831,共9页
现有的异常检测方法能在特定应用场景下实现高精度检测,然而这些方法难以适用于其他应用场景,且自动化程度有限。因此,提出一种视觉基础模型(VFM)驱动的像素级图像异常检测方法SSMOD-Net(State Space Model driven-Omni Dimensional Ne... 现有的异常检测方法能在特定应用场景下实现高精度检测,然而这些方法难以适用于其他应用场景,且自动化程度有限。因此,提出一种视觉基础模型(VFM)驱动的像素级图像异常检测方法SSMOD-Net(State Space Model driven-Omni Dimensional Net),旨在实现更精确的工业缺陷检测。与现有方法不同,SSMOD-Net实现SAM(Segment Anything Model)的自动化提示且不需要微调SAM,因此特别适用于需要处理大规模工业视觉数据的场景。SSMOD-Net的核心是一个新颖的提示编码器,该编码器由状态空间模型驱动,能够根据SAM的输入图像动态地生成提示。这一设计允许模型在保持SAM架构不变的同时,通过提示编码器引入额外的指导信息,从而提高检测精度。提示编码器内部集成一个残差多尺度模块,该模块基于状态空间模型构建,能够综合利用多尺度信息和全局信息。这一模块通过迭代搜索,在提示空间中寻找最优的提示,并将这些提示以高维张量的形式提供给SAM,从而增强模型对工业异常的识别能力。而且所提方法不需要对SAM进行任何修改,从而避免复杂的对训练计划的微调需求。在多个数据集上的实验结果表明,所提方法展现出了卓越的性能,与AutoSAM和SAM-EG(SAM with Edge Guidance framework for efficient polyp segmentation)等方法相比,所提方法在mE(mean E-measure)和平均绝对误差(MAE)、Dice和交并比(IoU)上都取得了较好的结果。 展开更多
关键词 深度学习 像素级异常检测 视觉基础模型 sam 自动提示
在线阅读 下载PDF
基于集成自监督的工业视觉大模型算法研究
7
作者 林而贤 张潮 +1 位作者 周雄图 张永爱 《小型微型计算机系统》 北大核心 2025年第4期907-913,共7页
针对工业视觉检测场景多样,模型迁移相较其他计算机视觉任务频繁更多,同时工业质检领域还存在小样本,缺乏异常数据的问题,本文将掩码自编码器(Masked Autoencoders,MAE)与对比自监督相结合,提出了一种适用于工业大模型训练的集成自监督... 针对工业视觉检测场景多样,模型迁移相较其他计算机视觉任务频繁更多,同时工业质检领域还存在小样本,缺乏异常数据的问题,本文将掩码自编码器(Masked Autoencoders,MAE)与对比自监督相结合,提出了一种适用于工业大模型训练的集成自监督算法(Integrated Autoencoders,IAE),在工业场景下开发原创的工业视觉大模型训练方法以帮助工业视觉大模型在工业图片上抽取更好的特征,提高下游任务图像分类准确率,以及算法训练效率和模型的泛化性.对比传统MAE算法,本文提出的IAE算法训练出来的大模型预训练权重在迁移到同一下游工业站点的小数据集分类任务上精度提高了2.42%;大数据集分类任务上精度提高了0.86%. 展开更多
关键词 工业视觉 IAE 大模型 预训练
在线阅读 下载PDF
图像处理中CNN与视觉Transformer混合模型研究综述 被引量:5
8
作者 郭佳霖 智敏 +1 位作者 殷雁君 葛湘巍 《计算机科学与探索》 北大核心 2025年第1期30-44,共15页
卷积神经网络(CNN)与视觉Transformer是目前图像处理领域中两大重要的深度学习模型,两者经过多年来不断的研究与进步,已在该领域取得了非凡的成就。近些年来,CNN与视觉Transformer的混合模型正在逐步兴起,广泛的研究不断克服两种模型存... 卷积神经网络(CNN)与视觉Transformer是目前图像处理领域中两大重要的深度学习模型,两者经过多年来不断的研究与进步,已在该领域取得了非凡的成就。近些年来,CNN与视觉Transformer的混合模型正在逐步兴起,广泛的研究不断克服两种模型存在的弱项,高效地发挥出各自的亮点,在图像处理任务中表现出优异的效果。基于CNN与视觉Transformer混合模型进行深入阐述。总体概述了CNN与Vision Transformer模型的架构和优缺点,并总结混合模型的概念及优势。围绕串行结构融合方式、并行结构融合方式、层级交叉结构融合方式以及其他融合方式等四个方面全面回顾梳理了混合模型的研究现状和实际进展,并针对各种融合方式的主要代表模型进行总结与剖析,从多方面对典型混合模型进行评价对比。多角度叙述了混合模型在图像识别、图像分类、目标检测和图像分割等实际图像处理特定领域中应用研究,展现出混合模型在具体实践中的适用性和高效性。深入分析混合模型未来研究方向,并为后续该模型在图像处理中的研究与应用提出展望。 展开更多
关键词 卷积神经网络(CNN) 视觉Transformer 混合模型 图像处理 深度学习
在线阅读 下载PDF
多模态文本视觉大模型机器人地形感知算法研究
9
作者 孙浩 谢滔 +5 位作者 何龙 郭文忠 虞永方 吴其军 王建伟 东辉 《图学学报》 北大核心 2025年第3期558-567,共10页
为提升机器人在动态复杂环境下对地形的智能感知能力,提出了一种基于多模态文本视觉大模型信息融合地形分割算法,集成了SLIC图像数据预处理、CLIP和SAM掩码生成模块、Dice系数后处理。首先,对原始输入图像进行SLIC预处理,得到图像分割子... 为提升机器人在动态复杂环境下对地形的智能感知能力,提出了一种基于多模态文本视觉大模型信息融合地形分割算法,集成了SLIC图像数据预处理、CLIP和SAM掩码生成模块、Dice系数后处理。首先,对原始输入图像进行SLIC预处理,得到图像分割子块,通过增加提示点提高后续掩码质量,可显著提高地形分类准确度。然后,通过文本-图像预训练大模型CLIP,将输入视觉图像和预设地形文本信息进行匹配,并借助其可解释性和零次学习,生成各地形提示点集合。由SAM大模型接受上述集合生成带有语义标签的掩码数据,并通过Dice系数后处理筛选可用掩码。以Cityscapes数据集为地形分割样本,验证了该算法相较于监督和无监督学习框架下主流分割算法的优越性,在无需标记数据的情况下,实现了76.58%的有效掩码生成率,IoU达到90.14%。针对四足机器人地形感知任务,添加U-net编/解码器网络量化验证模块。以生成掩码作为数据集,构建轻量化地形分割模型,部署在四足机器人的边缘计算设备,并在真实环境中开展地形分割实验。实验结果表明,2种掩码优化方法分别使模型MIo U提升了2.36%和2.56%,最终轻量化模型MIoU达到96.34%,地形分割精度可靠,该算法有效指导了机器人快速地从起点安全行进到目标地,并有效避开草地等非几何障碍物。 展开更多
关键词 深度学习 文本视觉大模型 足式机器人 地形感知 计算机视觉
在线阅读 下载PDF
基于视觉语言大模型的腿臂机器人实验系统设计
10
作者 陈腾 肖仕钧 +2 位作者 荣学文 李贻斌 荣海林 《实验室研究与探索》 北大核心 2025年第8期67-71,93,共6页
针对移动作业机器人自然语言交互性不足、多模态自主感知能力弱以及自主行为控制复杂等问题,设计了一套基于视觉语言大模型的腿臂机器人自主行为控制实验系统。首先明确了系统的硬件组成,搭建了腿臂机器人实验平台;然后通过自然语言识... 针对移动作业机器人自然语言交互性不足、多模态自主感知能力弱以及自主行为控制复杂等问题,设计了一套基于视觉语言大模型的腿臂机器人自主行为控制实验系统。首先明确了系统的硬件组成,搭建了腿臂机器人实验平台;然后通过自然语言识别与语义解析获取移动作业任务,再利用视觉语言大模型的场景感知与逻辑推理,提出复杂任务分解下智能行为调度策略;同时依托轻量化网络通信实现运动指令下发与机器人状态播报反馈。系列实验验证了该实验系统在综合任务中的自主性与智能性。 展开更多
关键词 腿臂机器人 视觉语言大模型 环境感知 自主行为控制
在线阅读 下载PDF
MeterReader++:基于视觉语言大模型的指针表计识读框架及应用
11
作者 王昌鹏 闫云凤 +2 位作者 齐冬莲 沈潇军 储海东 《高电压技术》 北大核心 2025年第4期1773-1784,共12页
指针式表计识读是工业数智化的关键任务,当前主要依赖目标检测、关键点定位等传统识别算法,存在低泛化性、强数据依赖等瓶颈。该文通过视觉语言大模型模拟人类认知识读过程,提出一种通用的指针表计识读框架:1)为突破数据依赖瓶颈,构建... 指针式表计识读是工业数智化的关键任务,当前主要依赖目标检测、关键点定位等传统识别算法,存在低泛化性、强数据依赖等瓶颈。该文通过视觉语言大模型模拟人类认知识读过程,提出一种通用的指针表计识读框架:1)为突破数据依赖瓶颈,构建工业场景下的识读多模态数据合成管道,可自动生成20000条以上问答对;2)为克服大模型“幻觉”瓶颈,使用DeepSeek-R1模拟人类认知识读,解耦表计语义理解和识读推理过程,平均参考误差比基础模型Qwen2.5-VL降低10%;3)为提升泛化性,设计基于广义策略优化的容差自适应强化学习优化方法,将绝对精度约束转化为可学习容忍区间以增强分布外数据(out-of-distribution data,OOD)泛化,在OOD测试中,该文方法识读误差降到2%。实验表明,该文所提框架在模拟工业表计测试集的平均参考误差为1.2%,在公开真实表计测试集达到3.16%,超越QWen2.5-VL-72B和GPT4o等先进大模型。该文研究为视觉语言大模型在精细化视觉理解和推理计算任务的落地应用,提供了思路参考。 展开更多
关键词 指针式表计识读 视觉语言模型 深度学习 强化学习 课程学习
在线阅读 下载PDF
面向计算机视觉应用的扩散模型综述 被引量:2
12
作者 韩烜宇 王安志 +1 位作者 杨成帮 唐洁亮 《贵州师范大学学报(自然科学版)》 北大核心 2025年第1期115-128,共14页
作为一种强大的生成模型,扩散模型在深度学习领域引起了广泛关注,成为当前的研究热点。受扩散模型在图像生成任务中取得巨大成功的启发,一些开创性的工作开始研究如何将扩散模型用于视觉领域的其他重要方向,并取得了显著的成果。对扩散... 作为一种强大的生成模型,扩散模型在深度学习领域引起了广泛关注,成为当前的研究热点。受扩散模型在图像生成任务中取得巨大成功的启发,一些开创性的工作开始研究如何将扩散模型用于视觉领域的其他重要方向,并取得了显著的成果。对扩散模型的视觉应用进行梳理、分析与总结。首先阐述了3种主流扩散模型的原理:去噪扩散概率模型、基于分数的生成模型与随机微分方程的生成模型。其次,进一步分析了基于扩散模型改进与优化的相关衍生模型。并系统梳理扩散模型在视觉领域的重要应用研究进展。最后,总结了扩散模型在视觉应用中存在的问题,对其未来发展方向进行展望。 展开更多
关键词 扩散模型 计算机视觉 目标检测 目标分割
在线阅读 下载PDF
MHVTs:多尺度混合视觉自注意力模型
13
作者 高丽丽 应文豪 +2 位作者 钟珊 胡文军 吴晓宇 《计算机工程与设计》 北大核心 2025年第5期1395-1402,共8页
为提高ViT模型在小型数据集上从零开始训练的性能,提出一种多尺度混合ViT模型(MHVT),由多尺度扩张局部聚集模块(MDLA)和多尺度先下采样再上采样模块(MPUA)组成。MDLA利用不同膨胀率的深度可分卷积在不同通道上提取不同尺度的局部特征。M... 为提高ViT模型在小型数据集上从零开始训练的性能,提出一种多尺度混合ViT模型(MHVT),由多尺度扩张局部聚集模块(MDLA)和多尺度先下采样再上采样模块(MPUA)组成。MDLA利用不同膨胀率的深度可分卷积在不同通道上提取不同尺度的局部特征。MPUA在自注意力计算前,在不同的通道上对查询、键和值进行不同粒度的池化处理,保持计算效率的同时捕获多尺度的全局特征。在各种小尺寸数据集上的大量实验验证了MHVT在精度和速度方面均获得了更好的权衡。 展开更多
关键词 视觉自注意力模型 局部相关性 多尺度特征交互 卷积神经网络 小型数据集 自注意力模型 卷积神经网络
在线阅读 下载PDF
铁路行业视觉大模型构建及应用 被引量:1
14
作者 代明睿 李文浩 +3 位作者 史维峰 李国华 杨涛存 杜文然 《中国铁路》 北大核心 2025年第1期1-12,共12页
铁路领域的视觉应用场景往往具有场景复杂多变、有效样本量少等困难,单独设计面向各场景的小模型耗费大量时间精力且难以满足业务要求,因此构建铁路行业视觉大模型具有重要意义。研究挖掘视觉大模型的潜在应用场景,提出铁路视觉大模型... 铁路领域的视觉应用场景往往具有场景复杂多变、有效样本量少等困难,单独设计面向各场景的小模型耗费大量时间精力且难以满足业务要求,因此构建铁路行业视觉大模型具有重要意义。研究挖掘视觉大模型的潜在应用场景,提出铁路视觉大模型构建方案,基于UPerNet网络,利用InternImage代替原主干网络,更好地捕捉图像目标细节,并将Semantic-Aware Nor⁃malization(SAN)与Semantic-Aware Whitening(SAW)注意力机制代替原金字塔池化模块,提升模型整体鲁棒性,将空间注意力与通道注意力融合代替原解码部分,实现动态地调整对不同区域的关注度,最后通过半自动化标注构建一批铁路场景数据集。实验结果表明,研究提出的改进的UPerNet_InternImage铁路行业视觉大模型在提高分割效果的准确性和鲁棒性方面具有一定潜力,并在面对后续具体场景的分割任务时,收敛速度更快、模型效果更好,为解决铁路视觉场景中的问题提供了新的思路和方法。 展开更多
关键词 人工智能 可变形卷积 注意力机制 语义分割 视觉大模型 铁路行业大模型
在线阅读 下载PDF
基于视觉伺服的可重构海洋浮体定相对位姿鲁棒模型预测控制
15
作者 石冉博 付东飞 王继龙 《中国海洋大学学报(自然科学版)》 北大核心 2025年第7期163-176,共14页
针对在GPS信号弱/拒止和环境感知欠缺的环境下可重构海洋浮体的协同控制问题,本文提出了一种基于定相对位姿(Determined relative pose,DRP)视觉伺服模型的鲁棒非线性模型预测控制(Nonlinear model predictive control,NMPC)方案。可重... 针对在GPS信号弱/拒止和环境感知欠缺的环境下可重构海洋浮体的协同控制问题,本文提出了一种基于定相对位姿(Determined relative pose,DRP)视觉伺服模型的鲁棒非线性模型预测控制(Nonlinear model predictive control,NMPC)方案。可重构海洋浮体的视觉伺服问题难点主要包括环境干扰强、系统非线性程度高、视觉伺服易陷入局部极值和可见性约束强。为应对这些难题,该视觉伺服控制策略需要实现:被控船仅依靠视觉信息进行多船协同控制;视觉伺服模型收敛性好;控制器具有一定鲁棒性且处理非线性系统和约束条件的能力强。为此,本研究首先建立了单浮体的动力学模型;然后将视觉模型、被控船艏摇信息及相机云台转角信息整合到系统状态中,形成了DRP模型,从而保证了双浮体视觉伺服控制结束后相对位姿的唯一性;接着结合浮体动力学模型和DRP模型,建立了基于图像的视觉伺服(Image based visual servo,IBVS)的系统模型,并对该系统模型进行分析,进而据此设计了鲁棒的NMPC控制器,以保证视觉伺服任务可以在强外界干扰的环境下进行;最后通过大量数值仿真实验验证了该方案的有效性。这些实验结果不仅证明了控制策略的稳定性和准确性,还展示了其在复杂环境下的鲁棒性能。 展开更多
关键词 预测控制 信息物理系统 图像的视觉伺服(IBVS) 定相对位姿视觉伺服模型 可重构海洋浮体
在线阅读 下载PDF
基于三维模型的航空电连接器插孔视觉识别方法
16
作者 王云涛 张尚安 +1 位作者 徐瀛鹏 耿俊浩 《郑州大学学报(工学版)》 北大核心 2025年第3期143-152,共10页
基于增强现实或机械臂的航空电连接器智能插接辅助技术依赖于精准的插孔位置和排序等先验信息,而当前先验信息的获取完全依赖人工采集,精度和完整度不高。针对这些问题,提出了一种基于三维模型的航空电连接器插孔视觉识别方法。该方法... 基于增强现实或机械臂的航空电连接器智能插接辅助技术依赖于精准的插孔位置和排序等先验信息,而当前先验信息的获取完全依赖人工采集,精度和完整度不高。针对这些问题,提出了一种基于三维模型的航空电连接器插孔视觉识别方法。该方法将基于深度学习和基于图像处理的方法耦合,通过融合深度学习的两步插孔精确定位方法实现了针对航空电连接器三维模型插孔的精准检测和定位信息获取,然后基于环状分层思想对已定位的插孔进行补全和排序,最终实现了对复杂航空电连接器三维模型插孔的全自动智能化精准视觉识别,得到了精准的插孔位置及排序信息。实验结果表明:所提方法在识别率和定位精度上均优于单一深度学习方法,其中融合YOLOv7的效果最佳,平均识别率为97.85%,平均定位误差为0.025 mm,平均定位时间为69 ms,漏识别插孔补全率为100%,排序正确率为100%,能够为基于增强现实或机械臂的航空电连接器智能插接辅助提供精准有效的先验信息。 展开更多
关键词 电连接器 三维模型 视觉识别 插孔定位 插孔补全 插孔排序
在线阅读 下载PDF
基于视觉-语言预训练模型的开集交通目标检测算法
17
作者 黄琦强 安国成 熊刚 《计算机工程》 北大核心 2025年第6期375-384,共10页
交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其... 交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其能够适应开集目标的定位问题,并将损失函数改进为交并比(IoU)损失,有效提升定位精度;其次,构建一种新的基于VLP的标签匹配网络(VLP-LMN),对预测框进行标签匹配,VLP模型作为一个强大的知识库,可有效匹配区域图像和标签文本,同时,VLP-LMN的提示工程和微调网络模块可以更好地发掘出VLP模型的性能,有效提高VLP模型标签匹配的准确性。实验结果表明,该算法在PASCAL VOC07+12数据集上实现了60.3%的新类目标检测平均准确率,这证明了其具有良好的开集目标检测性能;同时在交通数据集上的新类目标检测平均准确率达到了58.9%,作为零样本检测,仅比基类目标低14.5%,证明了该算法在交通目标检测上具有良好的泛化能力。 展开更多
关键词 视觉-语言预训练模型 Faster R-CNN 开集目标检测 交通目标检测
在线阅读 下载PDF
基于视觉的工人高处攀爬不安全行为识别模型
18
作者 张泽辉 张乾隆 +3 位作者 徐晓滨 赵祖国 王海泉 李昊 《中国安全科学学报》 北大核心 2025年第2期144-151,共8页
为精准识别高处作业人员攀爬过程中出现的不安全行为,提出一种基于视觉的工人高处攀爬不安全行为识别模型,由人体姿态估计算法和一维卷积不安全行为识别算法组成。人体姿态估计研究者采用量子化自编码器对人体关键点进行结构化建模,实... 为精准识别高处作业人员攀爬过程中出现的不安全行为,提出一种基于视觉的工人高处攀爬不安全行为识别模型,由人体姿态估计算法和一维卷积不安全行为识别算法组成。人体姿态估计研究者采用量子化自编码器对人体关键点进行结构化建模,实现人体关键点坐标的检测;结合高处作业安全行为知识,基于一维卷积神经网络(1DCNN)模型构建高处攀爬不安全行为识别算法,并通过实验进行验证。结果表明:该模型在人员无遮挡情况和有部分遮挡情况下,分别达到93.91%和90.34%的精度;与支持向量机(SVM)、K最邻近算法(KNN)相比,该模型具有更强的泛化能力。 展开更多
关键词 计算机视觉 工人高处攀爬 不安全行为 识别模型 一维卷积神经网络(1DCNN) 人体姿态估计
在线阅读 下载PDF
基于解耦知识蒸馏的视觉大模型轻量化技术研究
19
作者 马增琛 孙彦文 +2 位作者 南博 武永祥 张凯歌 《火力与指挥控制》 北大核心 2025年第7期199-207,共9页
面向复杂战场环境的目标提取任务,构建了一种基于解耦知识蒸馏与模型微调的视觉分割大模型轻量化机制。对基础模型中参数量较大的图像编码器单独进行知识蒸馏,在此基础上对全模型进行任务导向的领域自适应微调训练。实验表明,方法能够... 面向复杂战场环境的目标提取任务,构建了一种基于解耦知识蒸馏与模型微调的视觉分割大模型轻量化机制。对基础模型中参数量较大的图像编码器单独进行知识蒸馏,在此基础上对全模型进行任务导向的领域自适应微调训练。实验表明,方法能够在保证精度的前提下,提高对轻量化模型训练速度,实现复杂背景环境目标的有效提取。 展开更多
关键词 视觉大模型 sam 知识蒸馏 模型微调 图像分割
在线阅读 下载PDF
Sora类文生视频模型驱动主流意识形态视觉叙事的困境及突破之道 被引量:1
20
作者 杨章文 《理论月刊》 北大核心 2025年第3期15-25,159,共12页
主流意识形态视觉叙事不仅是创新我国意识形态工作的可靠支点,也是应对由Sora类文生视频模型引发的信息传播模式变革、廓清西方意识形态渗透“迷雾”的重要路径。在文生视频时代,主流意识形态视觉叙事本然在于复归感性的对象性活动本位... 主流意识形态视觉叙事不仅是创新我国意识形态工作的可靠支点,也是应对由Sora类文生视频模型引发的信息传播模式变革、廓清西方意识形态渗透“迷雾”的重要路径。在文生视频时代,主流意识形态视觉叙事本然在于复归感性的对象性活动本位,实然在于建构虚实共生的沉浸场景,应然在于实现技术驱动下的价值引领。基于“认知—情感—意动”理论的视角,Sora类文生视频模型驱动主流意识形态视觉叙事正面临着认知模式原子化、情感询唤虚拟化、意动行为畸形化的现实困境。破解主流意识形态视觉叙事的现实之困,实现叙事过程中的“知情意行同构”,应循守“致知”“激情”“诚意”“励行”的实践逻辑。其中,“知”重在筑牢认知高度,“情”力在追求情感温度,“意”旨在提升思想厚度,“行”意在突出实践力度,只有四者之间互动融合,才能不断优化主流意识形态视觉叙事的实践路径。 展开更多
关键词 SORA 文生视频模型 主流意识形态 视觉叙事 “认知—情感—意动”理论
在线阅读 下载PDF
上一页 1 2 77 下一页 到第
使用帮助 返回顶部