期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向多模态交互式融合与渐进式优化的三维视觉理解
被引量:
3
1
作者
何鸿添
陈晗
+3 位作者
刘洋
周礼亮
张敏
雷印杰
《计算机应用研究》
CSCD
北大核心
2024年第5期1554-1561,共8页
三维视觉理解旨在智能地感知和解释三维场景,实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术,发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题,提出了一种面向多模...
三维视觉理解旨在智能地感知和解释三维场景,实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术,发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题,提出了一种面向多模态交互式融合与渐进式优化的三维目标检测方法MIFPR。在特征提取阶段,首先引入自适应门控信息融合模块。通过把点云的几何特征融入图像特征中,能够获取对光照变化更有辨别力的图像表示。随后提出基于体素质心的可变形跨模态注意力模块,以驱使图像中丰富的语义特征和上下文信息融合到点云特征中。在目标框优化阶段,提出渐进式注意力模块,通过学习、聚合不同阶段的特征,不断增强模型对于精细化特征的提取与建模能力,逐步优化目标框,以提升对于远距离、小目标的检测精度,进而提高对于视觉场景理解的能力。在KITTI数据集上,所提方法对于pedestrian和cyclist等小目标的检测精度较最优基线有明显提升,证实了该方法的有效性。
展开更多
关键词
三维视觉理解
多模态
交互式融合
渐进式注意力
目标检测
在线阅读
下载PDF
职称材料
基于多模态特征频域融合的零样本指称图像分割
被引量:
2
2
作者
林浩然
刘春黔
+2 位作者
薛榕融
谢勋伟
雷印杰
《计算机应用研究》
CSCD
北大核心
2024年第5期1562-1568,共7页
为了解决语义分割应用到现实世界的下游任务时无法处理未定义类别的问题,提出了指称图像分割任务。该任务根据自然语言文本的描述找到图像中对应的目标。现有方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特...
为了解决语义分割应用到现实世界的下游任务时无法处理未定义类别的问题,提出了指称图像分割任务。该任务根据自然语言文本的描述找到图像中对应的目标。现有方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特征,但是这种方法无法有效利用图像的边缘特征且训练复杂。CLIP(contrastive language-image pre-training)是一个强大的预训练视觉语言跨模态模型,能够有效提取图像与文本特征,因此提出一种在频域融合CLIP编码后的多模态特征方法。首先,使用无监督模型对图像进行粗粒度分割,并提取自然语言文本中的名词用于后续任务;接着利用CLIP的图像编码器与文本编码器分别对图像与文本进行编码;然后使用小波变换分解图像与文本特征,可以充分利用图像的边缘特征与图像内的位置信息在频域进行分解并融合,并在频域分别对图像特征与文本特征进行融合,并将融合后的特征进行反变换;最后将文本特征与图像特征进行逐像素匹配,得到分割结果,并在常用的数据集上进行了测试。实验结果证明,网络在无训练零样本的条件下取得了良好的效果,并且具有较好的鲁棒性与泛化能力。
展开更多
关键词
指称图像分割
CLIP
小波变换
零样本
在线阅读
下载PDF
职称材料
基于语义一致性约束与局部-全局感知的多模态3D视觉定位
3
作者
罗寒
马浩统
+2 位作者
刘杰
严华
雷印杰
《计算机应用研究》
CSCD
北大核心
2024年第7期2203-2208,共6页
3D多模态数据稀缺,使得传统方法进行监督训练时文本与视觉特征缺乏语义一致性。同时传统方法还易忽视局部关系与全局信息,从而导致性能不佳。针对上述问题,提出了一种基于语义一致性约束与局部-全局感知的多模态3D视觉定位方法。首先,...
3D多模态数据稀缺,使得传统方法进行监督训练时文本与视觉特征缺乏语义一致性。同时传统方法还易忽视局部关系与全局信息,从而导致性能不佳。针对上述问题,提出了一种基于语义一致性约束与局部-全局感知的多模态3D视觉定位方法。首先,该方法通过蒸馏2D预训练视觉语言模型知识,帮助3D模型提取到点云-文本语义一致性特征;其次设计了局部-全局感知模块,不断补充增强候选目标特征,以更精确匹配目标。在现有的3D视觉定位数据集ScanRefer上进行的实验表明,该方法在Acc@0.25 IoU和Acc@0.5 IoU两个指标上分别达到了50.53%和37.67%,超越了现有大多数3D视觉定位算法,证实了该方法的有效性。
展开更多
关键词
3D视觉定位
多模态
特征一致性约束
局部关系
全局位置信息
在线阅读
下载PDF
职称材料
题名
面向多模态交互式融合与渐进式优化的三维视觉理解
被引量:
3
1
作者
何鸿添
陈晗
刘洋
周礼亮
张敏
雷印杰
机构
四川大学
电子信息
学院
中国
科学院光电
技术
研究所
中国
科学院光束控制
重点
实验室
中国电子科技集团公司第十研究所航空电子信息系统技术重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2024年第5期1554-1561,共8页
基金
国家自然科学基金面上项目(62276176)。
文摘
三维视觉理解旨在智能地感知和解释三维场景,实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术,发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题,提出了一种面向多模态交互式融合与渐进式优化的三维目标检测方法MIFPR。在特征提取阶段,首先引入自适应门控信息融合模块。通过把点云的几何特征融入图像特征中,能够获取对光照变化更有辨别力的图像表示。随后提出基于体素质心的可变形跨模态注意力模块,以驱使图像中丰富的语义特征和上下文信息融合到点云特征中。在目标框优化阶段,提出渐进式注意力模块,通过学习、聚合不同阶段的特征,不断增强模型对于精细化特征的提取与建模能力,逐步优化目标框,以提升对于远距离、小目标的检测精度,进而提高对于视觉场景理解的能力。在KITTI数据集上,所提方法对于pedestrian和cyclist等小目标的检测精度较最优基线有明显提升,证实了该方法的有效性。
关键词
三维视觉理解
多模态
交互式融合
渐进式注意力
目标检测
Keywords
3D visual understanding
multimodal
interactive fusion
progressive attention
object detection
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于多模态特征频域融合的零样本指称图像分割
被引量:
2
2
作者
林浩然
刘春黔
薛榕融
谢勋伟
雷印杰
机构
四川大学
电子信息
学院
中国
科学院光电
技术
研究所
中国
科学院光束控制
重点
实验室
中国电子科技集团公司第十研究所航空电子信息系统技术重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2024年第5期1562-1568,共7页
基金
国家自然科学基金资助项目(62276176)。
文摘
为了解决语义分割应用到现实世界的下游任务时无法处理未定义类别的问题,提出了指称图像分割任务。该任务根据自然语言文本的描述找到图像中对应的目标。现有方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特征,但是这种方法无法有效利用图像的边缘特征且训练复杂。CLIP(contrastive language-image pre-training)是一个强大的预训练视觉语言跨模态模型,能够有效提取图像与文本特征,因此提出一种在频域融合CLIP编码后的多模态特征方法。首先,使用无监督模型对图像进行粗粒度分割,并提取自然语言文本中的名词用于后续任务;接着利用CLIP的图像编码器与文本编码器分别对图像与文本进行编码;然后使用小波变换分解图像与文本特征,可以充分利用图像的边缘特征与图像内的位置信息在频域进行分解并融合,并在频域分别对图像特征与文本特征进行融合,并将融合后的特征进行反变换;最后将文本特征与图像特征进行逐像素匹配,得到分割结果,并在常用的数据集上进行了测试。实验结果证明,网络在无训练零样本的条件下取得了良好的效果,并且具有较好的鲁棒性与泛化能力。
关键词
指称图像分割
CLIP
小波变换
零样本
Keywords
referring image segmentation
CLIP
wavelet transform
zero-shot
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于语义一致性约束与局部-全局感知的多模态3D视觉定位
3
作者
罗寒
马浩统
刘杰
严华
雷印杰
机构
四川大学
电子信息
学院
中国
科学院光电
技术
研究所
中国
科学院光束控制
重点
实验室
中国电子科技集团公司第十研究所航空电子信息系统技术重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2024年第7期2203-2208,共6页
基金
国家自然科学基金面上项目(62276176)。
文摘
3D多模态数据稀缺,使得传统方法进行监督训练时文本与视觉特征缺乏语义一致性。同时传统方法还易忽视局部关系与全局信息,从而导致性能不佳。针对上述问题,提出了一种基于语义一致性约束与局部-全局感知的多模态3D视觉定位方法。首先,该方法通过蒸馏2D预训练视觉语言模型知识,帮助3D模型提取到点云-文本语义一致性特征;其次设计了局部-全局感知模块,不断补充增强候选目标特征,以更精确匹配目标。在现有的3D视觉定位数据集ScanRefer上进行的实验表明,该方法在Acc@0.25 IoU和Acc@0.5 IoU两个指标上分别达到了50.53%和37.67%,超越了现有大多数3D视觉定位算法,证实了该方法的有效性。
关键词
3D视觉定位
多模态
特征一致性约束
局部关系
全局位置信息
Keywords
3D visual grounding
multi-modal
feature alignment
local relationship
global location information
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向多模态交互式融合与渐进式优化的三维视觉理解
何鸿添
陈晗
刘洋
周礼亮
张敏
雷印杰
《计算机应用研究》
CSCD
北大核心
2024
3
在线阅读
下载PDF
职称材料
2
基于多模态特征频域融合的零样本指称图像分割
林浩然
刘春黔
薛榕融
谢勋伟
雷印杰
《计算机应用研究》
CSCD
北大核心
2024
2
在线阅读
下载PDF
职称材料
3
基于语义一致性约束与局部-全局感知的多模态3D视觉定位
罗寒
马浩统
刘杰
严华
雷印杰
《计算机应用研究》
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部