期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于视觉大模型的砂岩岩石结构智能评价方法
1
作者 任义丽 曾昌民 +10 位作者 李欣 刘茜 胡延旭 苏乾潇 王孝明 林志威 周屹霄 郑紫路 胡蕙滢 杨艳宁 惠芳 《石油勘探与开发》 北大核心 2025年第2期488-498,共11页
针对现有砂岩岩石结构评价方法依赖于肉眼观察、效率低,且磨圆度等仍处于半定量分析、粒度分析无法分类型统计等问题,提出一种基于视觉大模型(SAM)的砂岩岩石结构智能评价方法。通过设计基于秩-分解矩阵适配器的SAM轻量化微调方法,构建... 针对现有砂岩岩石结构评价方法依赖于肉眼观察、效率低,且磨圆度等仍处于半定量分析、粒度分析无法分类型统计等问题,提出一种基于视觉大模型(SAM)的砂岩岩石结构智能评价方法。通过设计基于秩-分解矩阵适配器的SAM轻量化微调方法,构建多光谱岩石颗粒分割模型(CoreSAM),实现岩石颗粒边缘提取与类型识别,在此基础上提出一套岩石结构量化评价方法,评价粒度、分选性、磨圆度、颗粒接触关系及胶结类型等指标。实验结果表明,CoreSAM在岩石颗粒分割精度上优于现有方法,且在CT图像、岩心照片等不同类型图像上展现出良好的泛化性,能够实现全样本、分类型的粒度分析以及磨圆度等参数的量化表征,推动储层评价向精准、量化、直观、全面的方向发展。 展开更多
关键词 砂岩 岩石结构 智能评价 视觉大模型(SAM) 微调 颗粒边缘提取 类型识别
在线阅读 下载PDF
多模态文本视觉大模型机器人地形感知算法研究
2
作者 孙浩 谢滔 +5 位作者 何龙 郭文忠 虞永方 吴其军 王建伟 东辉 《图学学报》 北大核心 2025年第3期558-567,共10页
为提升机器人在动态复杂环境下对地形的智能感知能力,提出了一种基于多模态文本视觉大模型信息融合地形分割算法,集成了SLIC图像数据预处理、CLIP和SAM掩码生成模块、Dice系数后处理。首先,对原始输入图像进行SLIC预处理,得到图像分割子... 为提升机器人在动态复杂环境下对地形的智能感知能力,提出了一种基于多模态文本视觉大模型信息融合地形分割算法,集成了SLIC图像数据预处理、CLIP和SAM掩码生成模块、Dice系数后处理。首先,对原始输入图像进行SLIC预处理,得到图像分割子块,通过增加提示点提高后续掩码质量,可显著提高地形分类准确度。然后,通过文本-图像预训练大模型CLIP,将输入视觉图像和预设地形文本信息进行匹配,并借助其可解释性和零次学习,生成各地形提示点集合。由SAM大模型接受上述集合生成带有语义标签的掩码数据,并通过Dice系数后处理筛选可用掩码。以Cityscapes数据集为地形分割样本,验证了该算法相较于监督和无监督学习框架下主流分割算法的优越性,在无需标记数据的情况下,实现了76.58%的有效掩码生成率,IoU达到90.14%。针对四足机器人地形感知任务,添加U-net编/解码器网络量化验证模块。以生成掩码作为数据集,构建轻量化地形分割模型,部署在四足机器人的边缘计算设备,并在真实环境中开展地形分割实验。实验结果表明,2种掩码优化方法分别使模型MIo U提升了2.36%和2.56%,最终轻量化模型MIoU达到96.34%,地形分割精度可靠,该算法有效指导了机器人快速地从起点安全行进到目标地,并有效避开草地等非几何障碍物。 展开更多
关键词 深度学习 文本视觉大模型 足式机器人 地形感知 计算机视觉
在线阅读 下载PDF
铁路行业视觉大模型构建及应用 被引量:1
3
作者 代明睿 李文浩 +3 位作者 史维峰 李国华 杨涛存 杜文然 《中国铁路》 北大核心 2025年第1期1-12,共12页
铁路领域的视觉应用场景往往具有场景复杂多变、有效样本量少等困难,单独设计面向各场景的小模型耗费大量时间精力且难以满足业务要求,因此构建铁路行业视觉大模型具有重要意义。研究挖掘视觉大模型的潜在应用场景,提出铁路视觉大模型... 铁路领域的视觉应用场景往往具有场景复杂多变、有效样本量少等困难,单独设计面向各场景的小模型耗费大量时间精力且难以满足业务要求,因此构建铁路行业视觉大模型具有重要意义。研究挖掘视觉大模型的潜在应用场景,提出铁路视觉大模型构建方案,基于UPerNet网络,利用InternImage代替原主干网络,更好地捕捉图像目标细节,并将Semantic-Aware Nor⁃malization(SAN)与Semantic-Aware Whitening(SAW)注意力机制代替原金字塔池化模块,提升模型整体鲁棒性,将空间注意力与通道注意力融合代替原解码部分,实现动态地调整对不同区域的关注度,最后通过半自动化标注构建一批铁路场景数据集。实验结果表明,研究提出的改进的UPerNet_InternImage铁路行业视觉大模型在提高分割效果的准确性和鲁棒性方面具有一定潜力,并在面对后续具体场景的分割任务时,收敛速度更快、模型效果更好,为解决铁路视觉场景中的问题提供了新的思路和方法。 展开更多
关键词 人工智能 可变形卷积 注意力机制 语义分割 视觉大模型 铁路行业大模型
在线阅读 下载PDF
基于解耦知识蒸馏的视觉大模型轻量化技术研究
4
作者 马增琛 孙彦文 +2 位作者 南博 武永祥 张凯歌 《火力与指挥控制》 北大核心 2025年第7期199-207,共9页
面向复杂战场环境的目标提取任务,构建了一种基于解耦知识蒸馏与模型微调的视觉分割大模型轻量化机制。对基础模型中参数量较大的图像编码器单独进行知识蒸馏,在此基础上对全模型进行任务导向的领域自适应微调训练。实验表明,方法能够... 面向复杂战场环境的目标提取任务,构建了一种基于解耦知识蒸馏与模型微调的视觉分割大模型轻量化机制。对基础模型中参数量较大的图像编码器单独进行知识蒸馏,在此基础上对全模型进行任务导向的领域自适应微调训练。实验表明,方法能够在保证精度的前提下,提高对轻量化模型训练速度,实现复杂背景环境目标的有效提取。 展开更多
关键词 视觉大模型 SAM 知识蒸馏 模型微调 图像分割
在线阅读 下载PDF
基于视觉大模型隐私保护的监控图像定位
5
作者 李强 白少雄 +1 位作者 熊源 袁薇 《计算机应用》 北大核心 2025年第3期832-839,共8页
监控图像的视觉定位是工业智能领域的关键技术。针对现有视觉定位算法缺少对图像中隐私信息的保护,在数据传输过程中容易导致敏感内容泄露的问题,提出一种基于视觉大模型(LVM)的监控图像定位方法。首先,设计基于LVM隐私保护的视觉定位架... 监控图像的视觉定位是工业智能领域的关键技术。针对现有视觉定位算法缺少对图像中隐私信息的保护,在数据传输过程中容易导致敏感内容泄露的问题,提出一种基于视觉大模型(LVM)的监控图像定位方法。首先,设计基于LVM隐私保护的视觉定位架构,以利用少量文本提示和参考图像对输入图像进行风格迁移;其次,提出面向风格迁移图像的特征匹配算法用于相机位姿的估计。在公开数据集上的实验结果表明,所提方法的定位结果误差较小,在保证定位精度的前提下大幅减少了隐私泄露。 展开更多
关键词 扩散模型 监控定位 视觉大模型 视觉定位 隐私保护
在线阅读 下载PDF
基于视觉大模型的垃圾分类轻量化算法研究
6
作者 张玉博 杨帆 +1 位作者 郭亚 杨文慧 《计算机工程》 北大核心 2025年第7期140-151,共12页
随着深度学习技术的快速发展,其在垃圾分类领域的应用日益广泛,显著提高了分类的准确性和效率。然而,在实际应用中仍面临许多挑战,如数据获取和标注成本高、模型泛化能力不足、实时性要求难以满足等。为此,基于PP-LCNet提出一种结合视... 随着深度学习技术的快速发展,其在垃圾分类领域的应用日益广泛,显著提高了分类的准确性和效率。然而,在实际应用中仍面临许多挑战,如数据获取和标注成本高、模型泛化能力不足、实时性要求难以满足等。为此,基于PP-LCNet提出一种结合视觉大模型的轻量化垃圾分类算法LSM-PPLCNet。LSM-PPLCNet结合视觉大模型的强大特征提取能力与轻量化模型的设计,确保模型在满足实时性要求的同时,在自制垃圾分类数据集上提高精度。首先,使用基于CLIP大模型的半监督训练策略,对无标注数据进行数据挖掘,以丰富训练样本,进而降低人工标注的成本;其次,使用知识蒸馏方法,由高精度CLIP大模型作为教师模型指导轻量化网络PP-LCNet的训练;最后,提出基于大模型的权重损失,通过为不同图片分配损失函数中的占比,使模型能够根据图片的不同质量调整其在损失函数中的比例。在自制垃圾分类数据集上的实验结果表明,与基线PP-LCNet分类模型相比,LSM-PPLCNet在不影响推理速度的前提下,Top-1 Accuracy可提升4.03百分点,与其他主流模型相比也有显著优势,LSM-PPLCNet在垃圾分类任务中可实现精度与速度的平衡。 展开更多
关键词 垃圾分类 视觉大模型 权重损失 半监督 知识蒸馏
在线阅读 下载PDF
基于通用视觉大模型与注意力增强的无监督异常检测
7
作者 王镇 翟轲 +1 位作者 薛赛 白双 《北京交通大学学报》 北大核心 2025年第3期14-22,共9页
针对现有无监督异常检测方法普遍存在特征提取不充分和不能有效关注异常区域导致检测性能下降的问题,提出一种基于通用视觉大模型——视觉变换器(Vision Transformer,ViT)与注意力增强的无监督异常检测方法.首先,利用预训练的通用视觉Vi... 针对现有无监督异常检测方法普遍存在特征提取不充分和不能有效关注异常区域导致检测性能下降的问题,提出一种基于通用视觉大模型——视觉变换器(Vision Transformer,ViT)与注意力增强的无监督异常检测方法.首先,利用预训练的通用视觉ViT模型对输入图像进行特征提取.其次,为进一步增强模型对异常区域的关注度,引入通道与空间注意力模块(Convolutional Block At-tention Module,CBAM),在特征提取阶段自适应调整特征权重,以更精准地捕捉局部异常信息.最后,本文在MVTec工业数据集与自制钢缆异常数据集上进行了大量实验,全面评估所提方法的检测性能.实验结果表明:所提方法在无监督异常检测任务上优于同期多种主流方法.在钢缆异常数据集上,所提方法的图像级受试者特征曲线下面积(Image-wise Area Under ROC,Image-wise AUROC)和F1-Score平均值分别达到88.1%和80.8%,较基准Fastflow算法提升了11.7%和7.8%. 展开更多
关键词 异常检测 无监督检测 机器视觉 视觉大模型 注意力机制
在线阅读 下载PDF
视觉大模型SAM在医学图像分割中的应用综述 被引量:7
8
作者 孙兴 蔡肖红 +2 位作者 李明 张帅 马金刚 《计算机工程与应用》 CSCD 北大核心 2024年第17期1-16,共16页
随着大模型技术的不断发展,以分割一切模型(segment anything model,SAM)为代表的视觉大模型在图像分割领域取得重要突破。SAM通过提示驱动完成一系列下游分割任务,旨在统一解决所有的图像分割问题。因此,将SAM应用于医学图像分割具有... 随着大模型技术的不断发展,以分割一切模型(segment anything model,SAM)为代表的视觉大模型在图像分割领域取得重要突破。SAM通过提示驱动完成一系列下游分割任务,旨在统一解决所有的图像分割问题。因此,将SAM应用于医学图像分割具有重要意义,其泛化性能够适应多种医学图像,为医生提供更全面的解剖结构和病变信息。介绍了图像分割常用的数据集;对SAM的网络结构和泛化性进行细致阐述;重点对SAM应用在全切片成像、磁共振成像、计算机断层扫描、超声和多模态图像的五大类医学图像进行梳理分析,总结优缺点和相应的改进方法;结合当前医学图像分割领域中存在的实际问题,讨论并展望了SAM未来的发展方向。 展开更多
关键词 视觉大模型 分割一切模型(SAM) 医学图像 图像分割
在线阅读 下载PDF
基于视觉大模型技术的数智创新研究——以西湖景区南方竹林的生态警务为例
9
作者 田伟 《竹子学报》 2024年第3期79-87,共9页
【目的】以西湖景区南方竹林的生态警务为对象研发“数智创新生态警务系统”,包括竹林生态保护、野生动物保护、旅游景点服务、灾害预测预防、人员救援处置等功能。【方法】基于视觉大模型技术,选取杭州西湖风景名胜区五云山竹产区为实... 【目的】以西湖景区南方竹林的生态警务为对象研发“数智创新生态警务系统”,包括竹林生态保护、野生动物保护、旅游景点服务、灾害预测预防、人员救援处置等功能。【方法】基于视觉大模型技术,选取杭州西湖风景名胜区五云山竹产区为实践点,使用当下最先进的机器自监督学习技术进行研究。具体做法为通过预训练大模型,包括多个基础视图数据微模型,在微模型基础上叠加客观世界逻辑,结合竹林生态警务场景最小化样本数据,形成各类实战的视觉算法模型。【结果】突破了传统单一化视觉算法无法适应多场景、样本需求高、训练时间长等制约条件,促成视频全解析成为行业标配,快速生成匹配算法并落地各类应用场景,如竹林违规砍伐识别算法、大型野生动物识别算法、珍稀动物识别算法、人员轨迹聚类算法、异常侵入识别算法等竹林景区特殊场景模型。【结论】改变了当前科技警务机制下对视觉算法模型需求的大机制;不再依赖于各行业算法科技公司耗时耗力训练算法的模式,每个警务人员都可以是算法的训练者,并结合自身需求,训练符合工作业务的算法模型;推动了“技术、机制、体制”三轮驱动,将理论技术赋予实战,达成了“科技生态警务”的目标。 展开更多
关键词 竹林生态 生态警务 视觉大模型 自监督学习 实践创新
在线阅读 下载PDF
基于视觉语言大模型的腿臂机器人实验系统设计
10
作者 陈腾 肖仕钧 +2 位作者 荣学文 李贻斌 荣海林 《实验室研究与探索》 北大核心 2025年第8期67-71,93,共6页
针对移动作业机器人自然语言交互性不足、多模态自主感知能力弱以及自主行为控制复杂等问题,设计了一套基于视觉语言大模型的腿臂机器人自主行为控制实验系统。首先明确了系统的硬件组成,搭建了腿臂机器人实验平台;然后通过自然语言识... 针对移动作业机器人自然语言交互性不足、多模态自主感知能力弱以及自主行为控制复杂等问题,设计了一套基于视觉语言大模型的腿臂机器人自主行为控制实验系统。首先明确了系统的硬件组成,搭建了腿臂机器人实验平台;然后通过自然语言识别与语义解析获取移动作业任务,再利用视觉语言大模型的场景感知与逻辑推理,提出复杂任务分解下智能行为调度策略;同时依托轻量化网络通信实现运动指令下发与机器人状态播报反馈。系列实验验证了该实验系统在综合任务中的自主性与智能性。 展开更多
关键词 腿臂机器人 视觉语言大模型 环境感知 自主行为控制
在线阅读 下载PDF
大模型时代:电力视觉技术新起点 被引量:12
11
作者 赵振兵 冯烁 +3 位作者 席悦 张靖梁 翟永杰 赵文清 《高电压技术》 EI CAS CSCD 北大核心 2024年第5期1813-1825,共13页
随着无人机、巡检机器人和远程监控系统在输电、变电、配电、安监等电力场景中的广泛应用,利用电力视觉技术完成对海量巡检图像的自动处理,能够进一步提升电力系统智能化运维水平,对我国源网荷储一体化进程的快速推进具有至关重要的作... 随着无人机、巡检机器人和远程监控系统在输电、变电、配电、安监等电力场景中的广泛应用,利用电力视觉技术完成对海量巡检图像的自动处理,能够进一步提升电力系统智能化运维水平,对我国源网荷储一体化进程的快速推进具有至关重要的作用。随着通用视觉大模型的兴起,电力视觉技术正处于从传统深度学习时代向大模型时代跨越的重要节点。该文首先综述了电力视觉技术和通用视觉大模型的最新研究进展,结合视觉大模型在多种公共场景的应用先例,探讨视觉大模型在电力视觉领域将面临的3重能力边界问题。从初步探索通用视觉大模型的潜力,到逐步构建电力视觉大模型的过程,提出4种模型应用范式以突破视觉大模型能力边界。最后分析了视觉大模型对电力视觉研究者的影响,并对大模型浪潮下电力视觉技术的发展方向进行了展望。 展开更多
关键词 电力视觉 视觉大模型 目标检测 图像分割 深度学习 图像处理
在线阅读 下载PDF
提示学习在计算机视觉中的分类、应用及展望
12
作者 刘袁缘 刘树阳 +3 位作者 刘云娇 袁雨晨 唐厂 罗威 《自动化学报》 北大核心 2025年第5期1021-1040,共20页
随着计算机视觉(CV)的快速发展,人们对于提高视觉任务的性能和泛化能力的需求不断增长,导致模型的复杂度与对各种资源的需求进一步提高.提示学习(PL)作为一种能有效地提升模型性能和泛化能力、重用预训练模型和降低计算量的方法,在一系... 随着计算机视觉(CV)的快速发展,人们对于提高视觉任务的性能和泛化能力的需求不断增长,导致模型的复杂度与对各种资源的需求进一步提高.提示学习(PL)作为一种能有效地提升模型性能和泛化能力、重用预训练模型和降低计算量的方法,在一系列下游视觉任务中受到广泛的关注与研究.然而,现有的PL综述缺乏对PL方法全面的分类和讨论,也缺乏对现有实验结果进行深入的研究以评估现有方法的优缺点.因此,本文对PL在CV领域的分类、应用和性能进行全面的概述.首先,介绍PL的研究背景和定义,并简要回顾CV领域中PL研究的最新进展.其次,对目前CV领域中的PL方法进行分类,包括文本提示、视觉提示和视觉−语言联合提示,对每类PL方法进行详细阐述并探讨其优缺点.接着,综述PL在十个常见下游视觉任务中的最新进展.此外,提供三个CV应用的实验结果并进行总结和分析,全面讨论不同PL方法在CV领域的表现.最后,基于上述讨论对PL在CV领域面临的挑战和机遇进行分析,为进一步推动PL在CV领域的发展提供前瞻性的思考. 展开更多
关键词 计算机视觉 提示学习 视觉−语言大模型 预训练模型
在线阅读 下载PDF
油气行业人工智能大模型应用研究现状及展望 被引量:26
13
作者 刘合 任义丽 +6 位作者 李欣 邓岳 王勇涛 曹倩雯 杜金阳 林志威 汪文洁 《石油勘探与开发》 EI CAS CSCD 北大核心 2024年第4期910-923,共14页
阐述了大模型技术的概念,总结了大模型技术的国内外研究现状,综述了大模型在垂直领域的应用现状,梳理了油气行业大模型应用面临的挑战,并对油气行业大模型应用进行了展望。现有大模型可粗略分为3类,即大语言模型、视觉大模型和多模态大... 阐述了大模型技术的概念,总结了大模型技术的国内外研究现状,综述了大模型在垂直领域的应用现状,梳理了油气行业大模型应用面临的挑战,并对油气行业大模型应用进行了展望。现有大模型可粗略分为3类,即大语言模型、视觉大模型和多模态大模型。油气行业大模型应用刚刚起步,部分油气企业基于开源大语言模型,利用微调、检索增强等方式发布大语言模型产品,部分学者尝试利用视觉/多模态基础模型研发面向油气业务的场景模型,还有少数学者构建地震资料处理解释、岩心分析等领域的预训练基础模型。油气行业大模型应用面临数据量和数据质量难以支撑大模型训练、研发投入成本高、难以实现算法自主可控等挑战。油气行业在应用大模型时应始终聚焦油气主营业务需求,以大模型应用为契机,加强数据全生命周期管理,提升数据治理能力,推动融合算力建设,加强“人工智能+能源”复合团队建设,推动大模型技术自主可控。 展开更多
关键词 基础模型 大语言模型 视觉大模型 多模态大模型 油气行业大模型 预训练 微调
在线阅读 下载PDF
浙江省多特征内陆水体精细化提取
14
作者 王兴坤 李佳鑫 +4 位作者 冯存均 詹远增 朱校娟 周伟 邓小渊 《测绘通报》 北大核心 2025年第3期127-132,共6页
针对多特征内陆水体卫星遥感自动提取精度不足的问题,本文以浙江省为研究区,讨论Vision Transformer(ViT)视觉大模型对不同特征内陆水体的提取精度。通过历史地理国情监测成果获取大规模样本,得到预训练模型;结合浙江省内陆水体多层次... 针对多特征内陆水体卫星遥感自动提取精度不足的问题,本文以浙江省为研究区,讨论Vision Transformer(ViT)视觉大模型对不同特征内陆水体的提取精度。通过历史地理国情监测成果获取大规模样本,得到预训练模型;结合浙江省内陆水体多层次感知特点,利用UPerNet网络,从场景、对象、部分、材质和纹理等不同方面对ViT模型输出层进行全方位的优化,进一步增加了ViT模型对多尺度多特征水体的感知能力。本文算法精度、召回率均在90%以上,相比传统指数阈值法精度提升15%,比预训练模型精度提升10%,可以满足浙江省水面面积调查监测的精度要求。结果表明,特征优化后的视觉大模型可以很好地适用于多特征内陆水体提取,服务于全国水资源调查工作。 展开更多
关键词 视觉大模型 内陆水体 卫星遥感 多层次感知
在线阅读 下载PDF
基于CLIP文本特征增强的剪纸图像分类
15
作者 张新生 陈鼎 秦一冰 《计算机应用研究》 北大核心 2025年第7期1994-2002,共9页
针对剪纸图像分类中文本与图像模态差异大、类原型表达能力弱的问题,提出了一种基于CLIP模型的文本特征增强方法(CLIP visual text enhancer,C-VTE)。该方法通过人工提示模板提取文本特征,设计了一种视觉文本增强模块,并利用Cross Atten... 针对剪纸图像分类中文本与图像模态差异大、类原型表达能力弱的问题,提出了一种基于CLIP模型的文本特征增强方法(CLIP visual text enhancer,C-VTE)。该方法通过人工提示模板提取文本特征,设计了一种视觉文本增强模块,并利用Cross Attention和比例残差进行连接和融合图像特征与文本特征,以减小模态差异,增强类别特征表达能力。在剪纸数据集及Caltech101等4个公开数据集上进行了实验,验证其有效性:在剪纸数据集的基类分类任务中,C-VTE平均准确率达到了72.51%,较现有方法提升3.14百分点;在公开数据集的小样本分类任务中,平均准确率达到了84.78%,提升2.45百分点。消融实验表明,模态融合模块与比例残差对性能提升影响显著。该方法为视觉语言大模型在下游分类任务中的高效适配提供了新思路,尤其适用于小样本与基类主导的场景。 展开更多
关键词 视觉语言大模型 剪纸分类 小样本分类 模态融合 提示学习
在线阅读 下载PDF
基于SAM2的腹腔镜手术多目标自动分割方法
16
作者 刘成 张家意 +2 位作者 袁烽 张睿 高欣 《图学学报》 2025年第5期969-979,共11页
腹腔镜术中场景的自动分割是手术机器人实现自主操作的关键基础,当前仍面临三重挑战:手术目标间纹理高度相似且边界模糊,导致相似目标难以精确分割;从亚毫米级缝合线到厘米级脏器组织存在显著尺度差异,制约了多目标同步分割精度提升;运... 腹腔镜术中场景的自动分割是手术机器人实现自主操作的关键基础,当前仍面临三重挑战:手术目标间纹理高度相似且边界模糊,导致相似目标难以精确分割;从亚毫米级缝合线到厘米级脏器组织存在显著尺度差异,制约了多目标同步分割精度提升;运动伪影和烟雾遮挡等干扰进一步影响术中多目标完整分割的鲁棒性。为此,提出基于视觉大模型SAM2的腹腔镜手术多目标自动分割方法(SAM2-MSNet)。采用LoRA+微调策略优化SAM2图像编码器,高效适配腹腔镜图像的纹理特征表达;设计跨尺度特征同步提取模块,实现多尺度目标的精确分割;构建特征关系全局感知模块,增强网络对运动伪影及烟雾遮挡等干扰的鲁棒性;并引入方向梯度直方图驱动的伪标签辅助监督机制,显著提升目标边缘分割精度。实验结果表明,SAM2-MSNet在Endovis2018和AutoLaparo数据集上分别取得了70.2%和69.6%的平均交并比(mIoU),和78.5%和75.0%的平均Dice系数(mDice)。在推理速度与SAM2-UNet相当(23帧/秒VS.25帧/秒)的前提下,其分割精度显著提升了3.0%和6.7%(mIoU)和2.8%和6.8%(mDice)。SAM2-MSNet实现了对腹腔镜手术场景高精度全自动分割,为手术机器人自主化进程提供了关键技术支撑。 展开更多
关键词 腹腔镜手术场景分割 视觉大模型 跨尺度特征同步提取 特征关系全局感知 伪标签辅助监督
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部