期刊文献+
共找到1,561篇文章
< 1 2 79 >
每页显示 20 50 100
视觉—语言—动作模型综述:从前史到前沿 被引量:2
1
作者 张慧 梁姝彤 +5 位作者 李明轩 田永林 葛经纬 于慧 李灵犀 王飞跃 《自动化学报》 北大核心 2025年第9期1922-1950,共29页
视觉-语言-动作(VLA)模型作为具身智能发展的核心方向,旨在构建统一的多模态表示与感知–决策–执行一体化架构,以突破传统模块化系统在功能割裂、语义对齐不足及泛化能力有限等方面的瓶颈.本文系统回顾前VLA时代的技术积淀,梳理模块化... 视觉-语言-动作(VLA)模型作为具身智能发展的核心方向,旨在构建统一的多模态表示与感知–决策–执行一体化架构,以突破传统模块化系统在功能割裂、语义对齐不足及泛化能力有限等方面的瓶颈.本文系统回顾前VLA时代的技术积淀,梳理模块化、端到端和混合三类主流建模范式,分析其结构特点、能力优势与面临的关键挑战.在此基础上,总结当前代表性VLA模型的体系结构、训练机制、多模态融合策略及应用成效,并对典型数据集与评测基准进行分类比较.最后,结合跨模态协同、知识注入、长时序规划与真实环境泛化等方面,展望未来VLA模型的发展趋势与研究方向. 展开更多
关键词 具身智能 视觉—语言—动作模型 多模态融合 端到端学习 任务泛化
在线阅读 下载PDF
基于模型预测控制的高精度混合视觉伺服机械臂控制方法
2
作者 刘新 王辉 《中南大学学报(自然科学版)》 北大核心 2025年第6期2266-2277,共12页
机械臂在各领域应用广泛,其控制系统对精度与稳定性方面的要求日益增加,然而,传统控制方法在复杂动态环境中的适应性不强。针对这一问题,本文提出一种基于模型预测控制的机械臂混合视觉伺服控制方法。首先,通过对混合视觉伺服系统进行建... 机械臂在各领域应用广泛,其控制系统对精度与稳定性方面的要求日益增加,然而,传统控制方法在复杂动态环境中的适应性不强。针对这一问题,本文提出一种基于模型预测控制的机械臂混合视觉伺服控制方法。首先,通过对混合视觉伺服系统进行建模,分析系统误差函数中旋转部分和平移部分的动态变化特性,推导误差与相机速度之间的关联关系模型。其次,提出一种基于模型预测控制的机械臂控制方法,通过结合系统误差和相机速度信息构建状态空间模型,实时预测系统的未来动态并优化控制输入,实现误差补偿和快速收敛。最后,在ViSP仿真平台和实物运动控制平台上分别进行验证。研究结果表明:与传统控制方法相比,所提出的方法有效降低了稳态误差,提高了控制精度,特别是在动态复杂环境中具有更强的抗干扰能力和适应性。 展开更多
关键词 机械臂 混合视觉伺服 模型预测控制 状态空间模型 最优控制
在线阅读 下载PDF
视觉图灵三境界:大模型时代下视觉智能进展与展望
3
作者 黄凯奇 武美奇 +2 位作者 陈宏昊 丰效坤 张岱凌 《图学学报》 北大核心 2025年第5期919-930,共12页
视觉图灵是通过图灵评测的方式对计算机视觉模型进行评估,为计算机视觉的发展提供了类人评估基准。随着大模型时代的到来,计算机视觉技术的飞速发展极大提升了视觉能力,尤其在图像分类、物体检测分割以及视频理解等领域表现出色。然而,... 视觉图灵是通过图灵评测的方式对计算机视觉模型进行评估,为计算机视觉的发展提供了类人评估基准。随着大模型时代的到来,计算机视觉技术的飞速发展极大提升了视觉能力,尤其在图像分类、物体检测分割以及视频理解等领域表现出色。然而,与人类视觉相比,这些算法在适应性、跨场景泛化和高层次认知推理等方面仍存在显著差距。本文从视觉图灵的三重境界(看所见、看所知和看所想)出发对视觉智能发展进行了梳理,对大模型时代下智能技术面临的瓶颈与挑战进行了整理和分析,介绍了视觉智能从物理世界感知到语义理解认知再到主观心理建模的能力跃迁路径,为推动计算机视觉技术更加接近人类的视觉感知与认知能力的发展提供了思路。 展开更多
关键词 视觉图灵三境界 视觉图灵 多模态大模型 视觉智能 类人智能
在线阅读 下载PDF
基于距离误差模型的焊接机器人双目视觉融合目标定位方法研究
4
作者 钟利军 甘荣飞 《传感技术学报》 北大核心 2025年第9期1655-1660,共6页
为了提高焊接机器人对焊缝目标的定位精度,提出一种基于距离误差模型的焊接机器人双目视觉融合目标定位方法。基于双目视觉系统左右相机采集的图像,提取目标图像感兴趣区域。利用二值矩阵去除噪点;通过最小二乘法补全焊缝信息,提取焊缝... 为了提高焊接机器人对焊缝目标的定位精度,提出一种基于距离误差模型的焊接机器人双目视觉融合目标定位方法。基于双目视觉系统左右相机采集的图像,提取目标图像感兴趣区域。利用二值矩阵去除噪点;通过最小二乘法补全焊缝信息,提取焊缝直线特征。通过双目视觉融合的方式将焊缝划分为多个直焊缝,通过直线拟合极线得到各个焊点的坐标位置。建立焊接机器人距离误差模型,对测距误差展开补偿,确定焊缝的最终位置。实验结果表明,所提方法应用后,目标定位结果和实际焊点之间距离较近,距离误差补偿后的均方根误差平均值为0.18446,定位目标耗时在60 ms以下,可以准确定位焊缝位置,同时耗时更短。 展开更多
关键词 视觉传感定位 双目视觉融合定位 距离误差模型 焊接机器人
在线阅读 下载PDF
进化视角下基于概念模型建构的“眼球结构与视觉形成”的跨学科教学设计
5
作者 田春华 赵瑶瑶 《生物学教学》 北大核心 2025年第6期46-49,共4页
通过概念模型建构的策略引导学生逐步建构眼球的结构模型,结合进化视角,帮助学生逐步构建眼球结构,运用模型来解释视觉形成的过程,有效落实生命观念的同时,培养学生的科学思维。
关键词 模型建构 进化 眼球结构 视觉形成 概念教学
在线阅读 下载PDF
基于视觉大模型的砂岩岩石结构智能评价方法
6
作者 任义丽 曾昌民 +10 位作者 李欣 刘茜 胡延旭 苏乾潇 王孝明 林志威 周屹霄 郑紫路 胡蕙滢 杨艳宁 惠芳 《石油勘探与开发》 北大核心 2025年第2期488-498,共11页
针对现有砂岩岩石结构评价方法依赖于肉眼观察、效率低,且磨圆度等仍处于半定量分析、粒度分析无法分类型统计等问题,提出一种基于视觉大模型(SAM)的砂岩岩石结构智能评价方法。通过设计基于秩-分解矩阵适配器的SAM轻量化微调方法,构建... 针对现有砂岩岩石结构评价方法依赖于肉眼观察、效率低,且磨圆度等仍处于半定量分析、粒度分析无法分类型统计等问题,提出一种基于视觉大模型(SAM)的砂岩岩石结构智能评价方法。通过设计基于秩-分解矩阵适配器的SAM轻量化微调方法,构建多光谱岩石颗粒分割模型(CoreSAM),实现岩石颗粒边缘提取与类型识别,在此基础上提出一套岩石结构量化评价方法,评价粒度、分选性、磨圆度、颗粒接触关系及胶结类型等指标。实验结果表明,CoreSAM在岩石颗粒分割精度上优于现有方法,且在CT图像、岩心照片等不同类型图像上展现出良好的泛化性,能够实现全样本、分类型的粒度分析以及磨圆度等参数的量化表征,推动储层评价向精准、量化、直观、全面的方向发展。 展开更多
关键词 砂岩 岩石结构 智能评价 视觉大模型(sam) 微调 颗粒边缘提取 类型识别
在线阅读 下载PDF
视觉大模型SAM在医学图像分割中的应用综述 被引量:8
7
作者 孙兴 蔡肖红 +2 位作者 李明 张帅 马金刚 《计算机工程与应用》 CSCD 北大核心 2024年第17期1-16,共16页
随着大模型技术的不断发展,以分割一切模型(segment anything model,SAM)为代表的视觉大模型在图像分割领域取得重要突破。SAM通过提示驱动完成一系列下游分割任务,旨在统一解决所有的图像分割问题。因此,将SAM应用于医学图像分割具有... 随着大模型技术的不断发展,以分割一切模型(segment anything model,SAM)为代表的视觉大模型在图像分割领域取得重要突破。SAM通过提示驱动完成一系列下游分割任务,旨在统一解决所有的图像分割问题。因此,将SAM应用于医学图像分割具有重要意义,其泛化性能够适应多种医学图像,为医生提供更全面的解剖结构和病变信息。介绍了图像分割常用的数据集;对SAM的网络结构和泛化性进行细致阐述;重点对SAM应用在全切片成像、磁共振成像、计算机断层扫描、超声和多模态图像的五大类医学图像进行梳理分析,总结优缺点和相应的改进方法;结合当前医学图像分割领域中存在的实际问题,讨论并展望了SAM未来的发展方向。 展开更多
关键词 视觉大模型 分割一切模型(sam) 医学图像 图像分割
在线阅读 下载PDF
多模态文本视觉大模型机器人地形感知算法研究 被引量:1
8
作者 孙浩 谢滔 +5 位作者 何龙 郭文忠 虞永方 吴其军 王建伟 东辉 《图学学报》 北大核心 2025年第3期558-567,共10页
为提升机器人在动态复杂环境下对地形的智能感知能力,提出了一种基于多模态文本视觉大模型信息融合地形分割算法,集成了SLIC图像数据预处理、CLIP和SAM掩码生成模块、Dice系数后处理。首先,对原始输入图像进行SLIC预处理,得到图像分割子... 为提升机器人在动态复杂环境下对地形的智能感知能力,提出了一种基于多模态文本视觉大模型信息融合地形分割算法,集成了SLIC图像数据预处理、CLIP和SAM掩码生成模块、Dice系数后处理。首先,对原始输入图像进行SLIC预处理,得到图像分割子块,通过增加提示点提高后续掩码质量,可显著提高地形分类准确度。然后,通过文本-图像预训练大模型CLIP,将输入视觉图像和预设地形文本信息进行匹配,并借助其可解释性和零次学习,生成各地形提示点集合。由SAM大模型接受上述集合生成带有语义标签的掩码数据,并通过Dice系数后处理筛选可用掩码。以Cityscapes数据集为地形分割样本,验证了该算法相较于监督和无监督学习框架下主流分割算法的优越性,在无需标记数据的情况下,实现了76.58%的有效掩码生成率,IoU达到90.14%。针对四足机器人地形感知任务,添加U-net编/解码器网络量化验证模块。以生成掩码作为数据集,构建轻量化地形分割模型,部署在四足机器人的边缘计算设备,并在真实环境中开展地形分割实验。实验结果表明,2种掩码优化方法分别使模型MIo U提升了2.36%和2.56%,最终轻量化模型MIoU达到96.34%,地形分割精度可靠,该算法有效指导了机器人快速地从起点安全行进到目标地,并有效避开草地等非几何障碍物。 展开更多
关键词 深度学习 文本视觉大模型 足式机器人 地形感知 计算机视觉
在线阅读 下载PDF
扩散模型在计算机视觉领域的研究现状 被引量:1
9
作者 管凤旭 张涵宇 +3 位作者 路斯棋 赖海涛 杜雪 郑岩 《智能系统学报》 北大核心 2025年第2期265-282,共18页
扩散模型是受分子热力学启发而来的一类新的生成模型,具有训练稳定、对模型设置依赖性弱等优点。近年来,扩散模型被广泛应用于各项任务,并且取得了相比于以往生成模型更多样、更高质量的结果。目前,扩散模型已成为计算机视觉领域热门的... 扩散模型是受分子热力学启发而来的一类新的生成模型,具有训练稳定、对模型设置依赖性弱等优点。近年来,扩散模型被广泛应用于各项任务,并且取得了相比于以往生成模型更多样、更高质量的结果。目前,扩散模型已成为计算机视觉领域热门的基准方法。为更好地促进扩散模型在计算机视觉领域的发展,对扩散模型进行综述:首先对比了扩散模型与其他生成模型的优劣,介绍了扩散模型的数学原理;随后,从扩散模型存在的普遍问题出发,介绍了相关学者近年来所做的改进工作,以及扩散模型在多种视觉任务上的应用实例;最后,探讨了扩散模型存在的问题,并提出了一些未来可能的发展趋势。 展开更多
关键词 扩散模型 去噪扩散概率模型 分数扩散模型 深度学习 计算机视觉 图像生成 生成模型 生成对抗网络
在线阅读 下载PDF
视觉基础模型驱动的像素级图像异常检测方法
10
作者 薛振华 李强 黄超 《计算机应用》 北大核心 2025年第3期823-831,共9页
现有的异常检测方法能在特定应用场景下实现高精度检测,然而这些方法难以适用于其他应用场景,且自动化程度有限。因此,提出一种视觉基础模型(VFM)驱动的像素级图像异常检测方法SSMOD-Net(State Space Model driven-Omni Dimensional Ne... 现有的异常检测方法能在特定应用场景下实现高精度检测,然而这些方法难以适用于其他应用场景,且自动化程度有限。因此,提出一种视觉基础模型(VFM)驱动的像素级图像异常检测方法SSMOD-Net(State Space Model driven-Omni Dimensional Net),旨在实现更精确的工业缺陷检测。与现有方法不同,SSMOD-Net实现SAM(Segment Anything Model)的自动化提示且不需要微调SAM,因此特别适用于需要处理大规模工业视觉数据的场景。SSMOD-Net的核心是一个新颖的提示编码器,该编码器由状态空间模型驱动,能够根据SAM的输入图像动态地生成提示。这一设计允许模型在保持SAM架构不变的同时,通过提示编码器引入额外的指导信息,从而提高检测精度。提示编码器内部集成一个残差多尺度模块,该模块基于状态空间模型构建,能够综合利用多尺度信息和全局信息。这一模块通过迭代搜索,在提示空间中寻找最优的提示,并将这些提示以高维张量的形式提供给SAM,从而增强模型对工业异常的识别能力。而且所提方法不需要对SAM进行任何修改,从而避免复杂的对训练计划的微调需求。在多个数据集上的实验结果表明,所提方法展现出了卓越的性能,与AutoSAM和SAM-EG(SAM with Edge Guidance framework for efficient polyp segmentation)等方法相比,所提方法在mE(mean E-measure)和平均绝对误差(MAE)、Dice和交并比(IoU)上都取得了较好的结果。 展开更多
关键词 深度学习 像素级异常检测 视觉基础模型 sam 自动提示
在线阅读 下载PDF
图像处理中CNN与视觉Transformer混合模型研究综述 被引量:6
11
作者 郭佳霖 智敏 +1 位作者 殷雁君 葛湘巍 《计算机科学与探索》 北大核心 2025年第1期30-44,共15页
卷积神经网络(CNN)与视觉Transformer是目前图像处理领域中两大重要的深度学习模型,两者经过多年来不断的研究与进步,已在该领域取得了非凡的成就。近些年来,CNN与视觉Transformer的混合模型正在逐步兴起,广泛的研究不断克服两种模型存... 卷积神经网络(CNN)与视觉Transformer是目前图像处理领域中两大重要的深度学习模型,两者经过多年来不断的研究与进步,已在该领域取得了非凡的成就。近些年来,CNN与视觉Transformer的混合模型正在逐步兴起,广泛的研究不断克服两种模型存在的弱项,高效地发挥出各自的亮点,在图像处理任务中表现出优异的效果。基于CNN与视觉Transformer混合模型进行深入阐述。总体概述了CNN与Vision Transformer模型的架构和优缺点,并总结混合模型的概念及优势。围绕串行结构融合方式、并行结构融合方式、层级交叉结构融合方式以及其他融合方式等四个方面全面回顾梳理了混合模型的研究现状和实际进展,并针对各种融合方式的主要代表模型进行总结与剖析,从多方面对典型混合模型进行评价对比。多角度叙述了混合模型在图像识别、图像分类、目标检测和图像分割等实际图像处理特定领域中应用研究,展现出混合模型在具体实践中的适用性和高效性。深入分析混合模型未来研究方向,并为后续该模型在图像处理中的研究与应用提出展望。 展开更多
关键词 卷积神经网络(CNN) 视觉Transformer 混合模型 图像处理 深度学习
在线阅读 下载PDF
基于集成自监督的工业视觉大模型算法研究
12
作者 林而贤 张潮 +1 位作者 周雄图 张永爱 《小型微型计算机系统》 北大核心 2025年第4期907-913,共7页
针对工业视觉检测场景多样,模型迁移相较其他计算机视觉任务频繁更多,同时工业质检领域还存在小样本,缺乏异常数据的问题,本文将掩码自编码器(Masked Autoencoders,MAE)与对比自监督相结合,提出了一种适用于工业大模型训练的集成自监督... 针对工业视觉检测场景多样,模型迁移相较其他计算机视觉任务频繁更多,同时工业质检领域还存在小样本,缺乏异常数据的问题,本文将掩码自编码器(Masked Autoencoders,MAE)与对比自监督相结合,提出了一种适用于工业大模型训练的集成自监督算法(Integrated Autoencoders,IAE),在工业场景下开发原创的工业视觉大模型训练方法以帮助工业视觉大模型在工业图片上抽取更好的特征,提高下游任务图像分类准确率,以及算法训练效率和模型的泛化性.对比传统MAE算法,本文提出的IAE算法训练出来的大模型预训练权重在迁移到同一下游工业站点的小数据集分类任务上精度提高了2.42%;大数据集分类任务上精度提高了0.86%. 展开更多
关键词 工业视觉 IAE 大模型 预训练
在线阅读 下载PDF
基于视觉语言大模型的腿臂机器人实验系统设计
13
作者 陈腾 肖仕钧 +2 位作者 荣学文 李贻斌 荣海林 《实验室研究与探索》 北大核心 2025年第8期67-71,93,共6页
针对移动作业机器人自然语言交互性不足、多模态自主感知能力弱以及自主行为控制复杂等问题,设计了一套基于视觉语言大模型的腿臂机器人自主行为控制实验系统。首先明确了系统的硬件组成,搭建了腿臂机器人实验平台;然后通过自然语言识... 针对移动作业机器人自然语言交互性不足、多模态自主感知能力弱以及自主行为控制复杂等问题,设计了一套基于视觉语言大模型的腿臂机器人自主行为控制实验系统。首先明确了系统的硬件组成,搭建了腿臂机器人实验平台;然后通过自然语言识别与语义解析获取移动作业任务,再利用视觉语言大模型的场景感知与逻辑推理,提出复杂任务分解下智能行为调度策略;同时依托轻量化网络通信实现运动指令下发与机器人状态播报反馈。系列实验验证了该实验系统在综合任务中的自主性与智能性。 展开更多
关键词 腿臂机器人 视觉语言大模型 环境感知 自主行为控制
在线阅读 下载PDF
基于视觉大模型隐私保护的监控图像定位 被引量:1
14
作者 李强 白少雄 +1 位作者 熊源 袁薇 《计算机应用》 北大核心 2025年第3期832-839,共8页
监控图像的视觉定位是工业智能领域的关键技术。针对现有视觉定位算法缺少对图像中隐私信息的保护,在数据传输过程中容易导致敏感内容泄露的问题,提出一种基于视觉大模型(LVM)的监控图像定位方法。首先,设计基于LVM隐私保护的视觉定位架... 监控图像的视觉定位是工业智能领域的关键技术。针对现有视觉定位算法缺少对图像中隐私信息的保护,在数据传输过程中容易导致敏感内容泄露的问题,提出一种基于视觉大模型(LVM)的监控图像定位方法。首先,设计基于LVM隐私保护的视觉定位架构,以利用少量文本提示和参考图像对输入图像进行风格迁移;其次,提出面向风格迁移图像的特征匹配算法用于相机位姿的估计。在公开数据集上的实验结果表明,所提方法的定位结果误差较小,在保证定位精度的前提下大幅减少了隐私泄露。 展开更多
关键词 扩散模型 监控定位 视觉大模型 视觉定位 隐私保护
在线阅读 下载PDF
MeterReader++:基于视觉语言大模型的指针表计识读框架及应用
15
作者 王昌鹏 闫云凤 +2 位作者 齐冬莲 沈潇军 储海东 《高电压技术》 北大核心 2025年第4期1773-1784,共12页
指针式表计识读是工业数智化的关键任务,当前主要依赖目标检测、关键点定位等传统识别算法,存在低泛化性、强数据依赖等瓶颈。该文通过视觉语言大模型模拟人类认知识读过程,提出一种通用的指针表计识读框架:1)为突破数据依赖瓶颈,构建... 指针式表计识读是工业数智化的关键任务,当前主要依赖目标检测、关键点定位等传统识别算法,存在低泛化性、强数据依赖等瓶颈。该文通过视觉语言大模型模拟人类认知识读过程,提出一种通用的指针表计识读框架:1)为突破数据依赖瓶颈,构建工业场景下的识读多模态数据合成管道,可自动生成20000条以上问答对;2)为克服大模型“幻觉”瓶颈,使用DeepSeek-R1模拟人类认知识读,解耦表计语义理解和识读推理过程,平均参考误差比基础模型Qwen2.5-VL降低10%;3)为提升泛化性,设计基于广义策略优化的容差自适应强化学习优化方法,将绝对精度约束转化为可学习容忍区间以增强分布外数据(out-of-distribution data,OOD)泛化,在OOD测试中,该文方法识读误差降到2%。实验表明,该文所提框架在模拟工业表计测试集的平均参考误差为1.2%,在公开真实表计测试集达到3.16%,超越QWen2.5-VL-72B和GPT4o等先进大模型。该文研究为视觉语言大模型在精细化视觉理解和推理计算任务的落地应用,提供了思路参考。 展开更多
关键词 指针式表计识读 视觉语言模型 深度学习 强化学习 课程学习
在线阅读 下载PDF
面向计算机视觉应用的扩散模型综述 被引量:2
16
作者 韩烜宇 王安志 +1 位作者 杨成帮 唐洁亮 《贵州师范大学学报(自然科学版)》 北大核心 2025年第1期115-128,共14页
作为一种强大的生成模型,扩散模型在深度学习领域引起了广泛关注,成为当前的研究热点。受扩散模型在图像生成任务中取得巨大成功的启发,一些开创性的工作开始研究如何将扩散模型用于视觉领域的其他重要方向,并取得了显著的成果。对扩散... 作为一种强大的生成模型,扩散模型在深度学习领域引起了广泛关注,成为当前的研究热点。受扩散模型在图像生成任务中取得巨大成功的启发,一些开创性的工作开始研究如何将扩散模型用于视觉领域的其他重要方向,并取得了显著的成果。对扩散模型的视觉应用进行梳理、分析与总结。首先阐述了3种主流扩散模型的原理:去噪扩散概率模型、基于分数的生成模型与随机微分方程的生成模型。其次,进一步分析了基于扩散模型改进与优化的相关衍生模型。并系统梳理扩散模型在视觉领域的重要应用研究进展。最后,总结了扩散模型在视觉应用中存在的问题,对其未来发展方向进行展望。 展开更多
关键词 扩散模型 计算机视觉 目标检测 目标分割
在线阅读 下载PDF
MHVTs:多尺度混合视觉自注意力模型
17
作者 高丽丽 应文豪 +2 位作者 钟珊 胡文军 吴晓宇 《计算机工程与设计》 北大核心 2025年第5期1395-1402,共8页
为提高ViT模型在小型数据集上从零开始训练的性能,提出一种多尺度混合ViT模型(MHVT),由多尺度扩张局部聚集模块(MDLA)和多尺度先下采样再上采样模块(MPUA)组成。MDLA利用不同膨胀率的深度可分卷积在不同通道上提取不同尺度的局部特征。M... 为提高ViT模型在小型数据集上从零开始训练的性能,提出一种多尺度混合ViT模型(MHVT),由多尺度扩张局部聚集模块(MDLA)和多尺度先下采样再上采样模块(MPUA)组成。MDLA利用不同膨胀率的深度可分卷积在不同通道上提取不同尺度的局部特征。MPUA在自注意力计算前,在不同的通道上对查询、键和值进行不同粒度的池化处理,保持计算效率的同时捕获多尺度的全局特征。在各种小尺寸数据集上的大量实验验证了MHVT在精度和速度方面均获得了更好的权衡。 展开更多
关键词 视觉自注意力模型 局部相关性 多尺度特征交互 卷积神经网络 小型数据集 自注意力模型 卷积神经网络
在线阅读 下载PDF
铁路行业视觉大模型构建及应用 被引量:2
18
作者 代明睿 李文浩 +3 位作者 史维峰 李国华 杨涛存 杜文然 《中国铁路》 北大核心 2025年第1期1-12,共12页
铁路领域的视觉应用场景往往具有场景复杂多变、有效样本量少等困难,单独设计面向各场景的小模型耗费大量时间精力且难以满足业务要求,因此构建铁路行业视觉大模型具有重要意义。研究挖掘视觉大模型的潜在应用场景,提出铁路视觉大模型... 铁路领域的视觉应用场景往往具有场景复杂多变、有效样本量少等困难,单独设计面向各场景的小模型耗费大量时间精力且难以满足业务要求,因此构建铁路行业视觉大模型具有重要意义。研究挖掘视觉大模型的潜在应用场景,提出铁路视觉大模型构建方案,基于UPerNet网络,利用InternImage代替原主干网络,更好地捕捉图像目标细节,并将Semantic-Aware Nor⁃malization(SAN)与Semantic-Aware Whitening(SAW)注意力机制代替原金字塔池化模块,提升模型整体鲁棒性,将空间注意力与通道注意力融合代替原解码部分,实现动态地调整对不同区域的关注度,最后通过半自动化标注构建一批铁路场景数据集。实验结果表明,研究提出的改进的UPerNet_InternImage铁路行业视觉大模型在提高分割效果的准确性和鲁棒性方面具有一定潜力,并在面对后续具体场景的分割任务时,收敛速度更快、模型效果更好,为解决铁路视觉场景中的问题提供了新的思路和方法。 展开更多
关键词 人工智能 可变形卷积 注意力机制 语义分割 视觉大模型 铁路行业大模型
在线阅读 下载PDF
基于剪枝-蒸馏的视觉Transformer模型压缩
19
作者 郑洋 蒋晓天 +2 位作者 付东豪 郭开泰 梁继民 《西安电子科技大学学报》 北大核心 2025年第4期55-65,共11页
现如今,视觉Transformer在计算机视觉领域的许多任务中都取得了卓越的表现,但其复杂的网络结构通常需要占用大量的存储和计算资源,因此难以在计算资源受限设备上广泛部署。为此提出了一种基于剪枝和蒸馏的视觉Transformer模型压缩方法,... 现如今,视觉Transformer在计算机视觉领域的许多任务中都取得了卓越的表现,但其复杂的网络结构通常需要占用大量的存储和计算资源,因此难以在计算资源受限设备上广泛部署。为此提出了一种基于剪枝和蒸馏的视觉Transformer模型压缩方法,旨在保证模型性能的前提下缩减模型大小。首先,通过对视觉Transformer的结构分析,确定宽度剪枝的对象为多头自注意力的注意力头和多层感知机中隐藏层的神经元,并采用基于模型损失函数变化的参数重要性评估策略对其进行参数重要性评估。其次,通过剪枝后蒸馏策略在模型宽度维度进行裁剪并恢复剪枝后宽度子网络的精度。最后,在深度维度上,通过剪枝后蒸馏得到最终的压缩模型。所提出方法在Tiny ImageNet、CIFAR-100和CIFAR-10数据集上对视觉Transformer进行了压缩实验。其中,在Tiny ImageNet上,ViT-S模型在参数量和计算量减少30%时,精度仅降低0.3%,而ViT-B模型精度甚至提升了0.6%。实验结果表明,所提方法能够有效实现模型精度和压缩率的平衡。 展开更多
关键词 模型压缩 视觉Transformer 剪枝 知识蒸馏
在线阅读 下载PDF
论“情感真实”——对生成式视觉大模型下新闻真实范式迭代的探讨
20
作者 喻国明 黄容 张洛瑜 《编辑之友》 北大核心 2025年第10期53-60,共8页
文章聚焦“技术—情感—真实”的互动关系,探讨生成式视觉大模型驱动下新闻业的情感转向与情感要素服务新闻真实的构建实践。面对新闻业的新兴生产实践,传统新闻真实范式的可解释性遭遇瓶颈。基于此,文章提出“情感真实”的概念,从范式... 文章聚焦“技术—情感—真实”的互动关系,探讨生成式视觉大模型驱动下新闻业的情感转向与情感要素服务新闻真实的构建实践。面对新闻业的新兴生产实践,传统新闻真实范式的可解释性遭遇瓶颈。基于此,文章提出“情感真实”的概念,从范式层面解析新闻真实的范式转换,从技术驯化、认知冲突、范式重构三重路径分析“情感真实”正当性确立的过程。面对“情感真实”进入真实性范畴所带来的风险挑战,文章从真实性溯源、情感调控、认知助推三个方面提出相应的技术治理路径,以促进新闻业在创新与规制的平衡中稳步前行。 展开更多
关键词 SORA 生成式视觉大模型 情感真实 新闻真实
在线阅读 下载PDF
上一页 1 2 79 下一页 到第
使用帮助 返回顶部