期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于图像-文本大模型CLIP微调的零样本参考图像分割 被引量:3
1
作者 刘杰 乔文昇 +2 位作者 朱佩佩 雷印杰 王紫轩 《计算机应用研究》 北大核心 2025年第4期1248-1254,共7页
近年来,以CLIP为代表的视觉-语言大模型在众多下游场景中显示出了出色的零样本推理能力,然而将CLIP模型迁移至需要像素水平图-文理解的参考图像分割中非常困难,其根本原因在于CLIP关注图像-文本整体上的对齐情况,却丢弃了图像中像素点... 近年来,以CLIP为代表的视觉-语言大模型在众多下游场景中显示出了出色的零样本推理能力,然而将CLIP模型迁移至需要像素水平图-文理解的参考图像分割中非常困难,其根本原因在于CLIP关注图像-文本整体上的对齐情况,却丢弃了图像中像素点的空间位置信息。鉴于此,以CLIP为基础模型,提出了一种单阶段、细粒度、多层次的零样本参考图像分割模型PixelCLIP。具体地,采取了多尺度的图像特征融合,既聚集CLIP中不同视觉编码器提取的图像像素级特征,同时又考虑CLIP中固有的图像整体语义特征。在文本信息表征上,不但依靠CLIP-BERT来保持物体种类信息,还引入LLaVA大语言模型进一步注入上下文背景知识。最后,PixelCLIP通过细粒度跨模态关联匹配,实现像素水平的参考图像分割。充分的数值分析结果验证了该方法的有效性。 展开更多
关键词 零样本 CLIP 像素级 单阶段 参考图像分割
在线阅读 下载PDF
基于双重注意力机制的多尺度指代目标分割方法
2
作者 胡梦楠 王蓉 +1 位作者 张文靖 张琪 《计算机辅助设计与图形学学报》 北大核心 2025年第1期148-156,共9页
针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题,提出了基于双重注意力机制的多尺度指代目标分割方法.首先,利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐,... 针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题,提出了基于双重注意力机制的多尺度指代目标分割方法.首先,利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐,并使用双重注意力机制捕捉多模态特征间的依赖性,实现模态间和模态内的交互;其次,利用语言特征作为引导,从其他层次的特征中聚合与目标相关的视觉信息,进一步增强特征表示;然后利用双向ConvLSTM以自下而上和自上而下的方式逐步整合低层次的空间细节和高层次的语义信息;最后,利用不同膨胀因子的空洞卷积融合多尺度信息,增加模型对不同尺度分割目标的感知能力.此外,在UNC,UNC+,GRef和ReferIt基准数据集上进行实验,实验结果表明,文中方法在UNC,UNC+,GRef和ReferIt上的oIoU指标分别提高了1.81个百分点、1.26个百分点、0.84个百分点和0.32个百分点,广泛的消融研究也验证了所提方法中各组成部分的有效性. 展开更多
关键词 指代目标分割 跨模态交互 特征增强 注意力机制 多尺度融合
在线阅读 下载PDF
针对图像指代分割的训练后量化策略
3
作者 杨航 姜晓燕 《计算机应用研究》 北大核心 2025年第7期2025-2031,共7页
图像指代分割(RIS)旨在通过理解视觉和语言信息来分割图像中给定语句所描述的对象,在交互式图片编辑以及语言引导的人机交互领域具有很强的应用前景。然而,现有解决方案倾向于探索高性能模型,忽视了对资源有限的边缘设备上实际应用的考... 图像指代分割(RIS)旨在通过理解视觉和语言信息来分割图像中给定语句所描述的对象,在交互式图片编辑以及语言引导的人机交互领域具有很强的应用前景。然而,现有解决方案倾向于探索高性能模型,忽视了对资源有限的边缘设备上实际应用的考量。为解决这一问题,设计并实现了一种有效的训练后量化框架。具体而言,首先深入分析了使用朴素量化方法导致模型性能崩溃的根本原因,据此提出了双区域均衡量化策略以解决视觉编码器中softmax和GELU操作后激活值非正态分布问题,同时引入重排序分组量化策略应对文本编码器的线性层异常激活值带来的量化难题。在三个基准数据集上设置不同量化位宽进行大量实验,结果表明,所提方法在与现有方法的对比中展现出显著的优越性。作为首个专为图像指代分割任务设计量化方案的工作,验证了使用训练后量化策略将图像指代分割模型高效部署到边缘设备的可行性。 展开更多
关键词 图像指代分割 训练后量化 跨模态融合 深度学习
在线阅读 下载PDF
基于语言和视觉融合Transformer的指代图像分割 被引量:3
4
作者 段勇 刘铁 《传感技术学报》 CAS CSCD 北大核心 2024年第7期1193-1201,共9页
针对指代图像分割任务中存在语言表达歧义、多模态特征对齐不充分、对图像整体理解不全面等问题,提出一种基于Transformer特征融合与对齐的多模态深度学习模型。该模型使用优化的Darknet53图像特征提取骨干网络,加强了对全局特征理解能... 针对指代图像分割任务中存在语言表达歧义、多模态特征对齐不充分、对图像整体理解不全面等问题,提出一种基于Transformer特征融合与对齐的多模态深度学习模型。该模型使用优化的Darknet53图像特征提取骨干网络,加强了对全局特征理解能力。使用了卷积神经网络结构、双向门控循环单元Bi-GRU结构和自注意力机制相互结合的语言特征提取结构,挖掘深层次语义特征,消除语言表达的歧义性。构建了基于Transformer的特征对齐结构,以提升模型的分割细节和分割精度。最后,采用平均的交并比mIoU和在不同阈值的识别精度作为模型评估指标,通过实验证明所提模型可以充分融合多模态的特征,理解多模态特征的深层语义信息,模型识别结果更加准确。 展开更多
关键词 深度学习 指代图像分割 自然语言处理 注意力机制 Transformer模型
在线阅读 下载PDF
基于多模态特征频域融合的零样本指称图像分割 被引量:2
5
作者 林浩然 刘春黔 +2 位作者 薛榕融 谢勋伟 雷印杰 《计算机应用研究》 CSCD 北大核心 2024年第5期1562-1568,共7页
为了解决语义分割应用到现实世界的下游任务时无法处理未定义类别的问题,提出了指称图像分割任务。该任务根据自然语言文本的描述找到图像中对应的目标。现有方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特... 为了解决语义分割应用到现实世界的下游任务时无法处理未定义类别的问题,提出了指称图像分割任务。该任务根据自然语言文本的描述找到图像中对应的目标。现有方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特征,但是这种方法无法有效利用图像的边缘特征且训练复杂。CLIP(contrastive language-image pre-training)是一个强大的预训练视觉语言跨模态模型,能够有效提取图像与文本特征,因此提出一种在频域融合CLIP编码后的多模态特征方法。首先,使用无监督模型对图像进行粗粒度分割,并提取自然语言文本中的名词用于后续任务;接着利用CLIP的图像编码器与文本编码器分别对图像与文本进行编码;然后使用小波变换分解图像与文本特征,可以充分利用图像的边缘特征与图像内的位置信息在频域进行分解并融合,并在频域分别对图像特征与文本特征进行融合,并将融合后的特征进行反变换;最后将文本特征与图像特征进行逐像素匹配,得到分割结果,并在常用的数据集上进行了测试。实验结果证明,网络在无训练零样本的条件下取得了良好的效果,并且具有较好的鲁棒性与泛化能力。 展开更多
关键词 指称图像分割 CLIP 小波变换 零样本
在线阅读 下载PDF
激光靶标图像识别和测量方法研究 被引量:8
6
作者 王会峰 汪大宝 刘上乾 《激光与红外》 CAS CSCD 北大核心 2007年第6期564-566,574,共4页
结合光电成像技术和数字图像处理方法,针对传统的准直测量中存在的低效率、低精度的问题,提出了一种基于数字图像处理方法的动态高精度测量方案;同时结合测量中的关键问题提出了基于灰度平均值的自适应阈值分割法、基于重心法的光斑中... 结合光电成像技术和数字图像处理方法,针对传统的准直测量中存在的低效率、低精度的问题,提出了一种基于数字图像处理方法的动态高精度测量方案;同时结合测量中的关键问题提出了基于灰度平均值的自适应阈值分割法、基于重心法的光斑中心检测法、基于圆拟合的定标圆检测法等一套高效、高精度的图像处理和测量算法,并且在实际的测量系统中获得了良好的应用效果。 展开更多
关键词 靶标图像 自适应阈值分割 重心算法 定标圆拟合
在线阅读 下载PDF
用全光联合变换相关实现目标识别 被引量:1
7
作者 段作梁 刘艺 王仕璠 《激光杂志》 EI CAS CSCD 北大核心 2000年第4期9-10,共2页
本文提出了两种改善全光联合变换相关器性能的方法 ,其一是对输入面上的待识别图像和参考图像进行图像分割 ,以得到更高更尖锐的相关峰 ;其二是用多参考图像 ,产生一个标准的相关峰 ,为确定待识别图像和参考图像相关程度提供了判别依据 ... 本文提出了两种改善全光联合变换相关器性能的方法 ,其一是对输入面上的待识别图像和参考图像进行图像分割 ,以得到更高更尖锐的相关峰 ;其二是用多参考图像 ,产生一个标准的相关峰 ,为确定待识别图像和参考图像相关程度提供了判别依据 ,使进行目标识别更加简洁方便。通过实验证明了这些改善方法的可行性 ,并给出了实验结果。 展开更多
关键词 全光联合变换相关 图像分割 目标识别
在线阅读 下载PDF
名词引导局部特征提取的基于文本的实例分割方法 被引量:3
8
作者 郑剑 沈士涛 +2 位作者 于祥春 庞庆威 吴宗錝 《计算机应用研究》 CSCD 北大核心 2023年第4期1263-1267,共5页
局部特征信息在图像分割中扮演着重要角色,然而基于文本的实例分割任务具有对输入文本表达式的依赖性,无法直接从原始的输入图像中提取局部特征信息。针对这一问题,提出了一种具体的名词引导局部特征提取的深度神经网络模型(NgLFNet),Ng... 局部特征信息在图像分割中扮演着重要角色,然而基于文本的实例分割任务具有对输入文本表达式的依赖性,无法直接从原始的输入图像中提取局部特征信息。针对这一问题,提出了一种具体的名词引导局部特征提取的深度神经网络模型(NgLFNet),NgLFNet模型可根据输入文本表达式中的关键名词来自动挖掘待分割对象的局部特征信息。具体地,该模型首先通过语句分析得到关键名词;其次通过文本和图像编码器提取相应特征,并利用关键名词通过多头注意力机制获取高关注区域局部特征;然后逐步融合多模态特征;最后在解码修正模块利用得到的局部特征对预测掩膜进行更细致的修正,从而得到最终结果。将该方法与多种主流基于文本的实例分割方法进行对比,实验结果表明该方法提升了分割效果。 展开更多
关键词 图像处理 深度学习 基于文本的实例分割 多模态特征 特征融合 注意力机制
在线阅读 下载PDF
多尺度模态感知在文本指代实例分割中的研究与应用
9
作者 刘静 胡永利 +2 位作者 刘秀平 谭红臣 尹宝才 《图学学报》 CSCD 北大核心 2022年第6期1150-1158,共9页
文本指代实例分割(RIS)任务是解析文本描述所指代的实例,并在对应图像中分割出该实例,是计算机视觉与媒体领域中热门的研究课题。当前,大多数RIS方法基于单尺度文本/图像模态信息的融合,以感知指代实例的位置和语义信息。然而,单一尺度... 文本指代实例分割(RIS)任务是解析文本描述所指代的实例,并在对应图像中分割出该实例,是计算机视觉与媒体领域中热门的研究课题。当前,大多数RIS方法基于单尺度文本/图像模态信息的融合,以感知指代实例的位置和语义信息。然而,单一尺度模态信息很难同时涵盖定位不同大小实例所需的语义和结构上下文信息,阻碍了模型对任意大小指代实例的感知,进而影响模型对不同大小指代实例的分割。对此,设计多尺度视觉-语言交互感知模块和多尺度掩膜预测模块:前者增强模型对不同尺度实例语义与文本语义之间的融合与感知;后者通过充分捕捉不同尺度实例的所需语义和结构信息提升指代实例分割的表现。由此,提出了多尺度模态感知的文本指代实例分割模型(MMPN-RIS)。实验结果表明,MMPN-RIS模型在RefCOCO,RefCOCO+和RefCOCOg3个公开数据集的oIoU指标上均达到了前沿性能;针对文本指代不同尺度实例的分割,MMPN-RIS模型有着较好的表现。 展开更多
关键词 视觉与语言 文本指代实例分割 异模态融合与感知 特征金字塔
在线阅读 下载PDF
基于参考纹理与自身色彩的图像修复
10
作者 杨苏 杨兆中 《计算机应用》 CSCD 北大核心 2014年第6期1724-1726,1734,共4页
传统的图像修复工作仅仅利用破损图像本身的信息完成,破损面积较大并且结构比较复杂时,破损图像不能提供足够的信息导致修复效果不理想。针对这个问题提出了基于参考图像纹理与破损图像自身颜色的修复算法。该算法在图像库中通过图像检... 传统的图像修复工作仅仅利用破损图像本身的信息完成,破损面积较大并且结构比较复杂时,破损图像不能提供足够的信息导致修复效果不理想。针对这个问题提出了基于参考图像纹理与破损图像自身颜色的修复算法。该算法在图像库中通过图像检索智能筛选相似参考图像,并选择最优区域填充破损图像区域,利用参考图像样块与自身未破损区域的纹理信息保证修复边界的平滑性,再结合颜色迁移与扩展算法使破损图像修复区域与完好区域的色彩协调一致。实验结果表明新提出的修复算法使得图像修复区域过渡更加自然,能在视觉上有较好的效果。 展开更多
关键词 大规模图像修复 参考图像 图像检索 区域划分 颜色迁移
在线阅读 下载PDF
图像指代分割研究综述 被引量:6
11
作者 邱爽 赵耀 韦世奎 《信号处理》 CSCD 北大核心 2022年第6期1144-1154,共11页
图像指代分割作为计算机视觉与自然语言处理交叉领域的热点问题,其目的是根据自然语言描述在图像中分割出相应的目标区域。随着相关深度学习技术的成熟和大规模数据集的出现,这项任务引起了研究者的广泛关注。本文对图像指代分割算法的... 图像指代分割作为计算机视觉与自然语言处理交叉领域的热点问题,其目的是根据自然语言描述在图像中分割出相应的目标区域。随着相关深度学习技术的成熟和大规模数据集的出现,这项任务引起了研究者的广泛关注。本文对图像指代分割算法的发展进行了梳理和分析。首先根据多模态信息的编码解码方式,将现有图像指代分割算法分成基于多模态信息融合和基于多尺度信息融合两类进行了系统阐述,重点介绍了基于CNN-LSTM框架的方法、结构复杂的模块化方法和基于图的方法;然后,对用于图像指代分割任务的典型数据集和主流评价指标进行了总结与统计;之后,通过实验综合比较了现有的图像指代分割模型之间的性能差异并进一步验证了各种模型的优缺点。最后,对这一领域现有方法中存在的问题进行讨论分析,并对未来的发展方向进行了展望,表明了针对复杂的指代描述,需要通过多步、显式的推理步骤来解决图像指代分割问题。 展开更多
关键词 指代分割 图像语义分割 深度学习 卷积神经网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部