期刊文献+
共找到290篇文章
< 1 2 15 >
每页显示 20 50 100
基于自注意力机制和多尺度代价聚合的双目深度估计方法 被引量:1
1
作者 李恒宇 许晓俊 +2 位作者 杨小康 刘军 刘靖逸 《中国测试》 北大核心 2025年第8期122-130,共9页
针对无人系统在室外场景中细长、弱纹理等物体的深度估计困难问题,提出一种基于自注意力机制和多尺度代价聚合的双目深度估计方法。首先,利用可变形卷积和空洞金字塔卷积,改善特征提取模块的特征提取能力;其次,采用多尺度的匹配代价计算... 针对无人系统在室外场景中细长、弱纹理等物体的深度估计困难问题,提出一种基于自注意力机制和多尺度代价聚合的双目深度估计方法。首先,利用可变形卷积和空洞金字塔卷积,改善特征提取模块的特征提取能力;其次,采用多尺度的匹配代价计算,兼顾视差估计的全局连续性和细节信息;然后,匹配代价聚合模块引入自注意力机制,以解决代价体值分布不均的问题;之后,通过视差回归获得最终估计视差。最终,通过消融实验和对比实验对深度估计方法的性能进行验证。实验结果表明,在满足无人系统基本实时性的条件下,该方法使D1指标降低至1.28%,EPE指标降低至0.614像素,有效提升视差估计的精度。此外,定性评估显示,该方法在细长和低纹理物体的深度估计上取得不错的效果。 展开更多
关键词 深度估计 卷积网络 代价计算 自注意力
在线阅读 下载PDF
基于邻域自适应无监督多视图深度估计
2
作者 魏东 孙赫 +1 位作者 张静恬 白宜凡 《现代电子技术》 北大核心 2025年第21期165-171,共7页
为了提升弱纹理区域无监督多视图深度估计性能,文中提出一种基于邻域自适应无监督多视图深度估计算法。算法采用双分支结构,深度估计分支首先采用邻域自适应深度分布方法改善弱纹理区域深度分布;其次采用深度变化概率引导的深度假设范... 为了提升弱纹理区域无监督多视图深度估计性能,文中提出一种基于邻域自适应无监督多视图深度估计算法。算法采用双分支结构,深度估计分支首先采用邻域自适应深度分布方法改善弱纹理区域深度分布;其次采用深度变化概率引导的深度假设范围细化后续阶段深度估计。为了提高对场景边缘的识别,采用基于标准差的深度平滑约束。神经渲染分支用于提高深度估计能力,为了增强与深度估计分支间的几何一致性,采用融合图像颜色与深度信息的采样方法。由实验结果可知,该算法在DTU数据集测试完整度误差和整体精度误差优于其他无监督算法,且完整度误差比DS⁃MVSNet减小16.71%。可视化结果表明,针对弱纹理区域深度估计性能提升明显。在Tanks and Temples数据集上进行泛化性验证,整体性能(Mean)为56.22,证明了所提算法的有效性。 展开更多
关键词 深度估计 邻域自适应 深度假设范围 无监督算法 深度平滑约束 弱纹理
在线阅读 下载PDF
基于风格迁移的柔性输尿管内窥镜图像深度估计 被引量:1
3
作者 辛运帏 尹晶晶 +3 位作者 赵煜 代煜 崔亮 殷小涛 《天津大学学报(自然科学与工程技术版)》 EI CAS 北大核心 2025年第1期47-55,共9页
输尿管内窥镜手术是目前针对肾结石的主流治疗方案,其外形细长、镜体柔软,能够灵活穿越人体自然腔道的内径狭窄的尿道和输尿管,检查视野范围更广,使医生能够更好地观察到病变区域.但一般的输尿管内窥镜仅配备单目摄像头进行配合手术操作... 输尿管内窥镜手术是目前针对肾结石的主流治疗方案,其外形细长、镜体柔软,能够灵活穿越人体自然腔道的内径狭窄的尿道和输尿管,检查视野范围更广,使医生能够更好地观察到病变区域.但一般的输尿管内窥镜仅配备单目摄像头进行配合手术操作,无法借助额外设备获取数据导致了其图像信息的匮乏;同时,相比于胃肠、鼻镜等手术场景,本研究的肾内场景在不具备公开数据集的同时,图像质量参差不齐,表面纹理细节不足,孔洞区域褶皱少,受模糊反光等干扰大,都易使深度估计受到影响针对以上问题,提出了一种基于改进风格迁移模型的深度估计方法.该方法首先根据术前CT图像重建肾脏内部腔道模型并提取中心路径,将虚拟内窥镜的摄像头设置在插值后的路径点上,构建了虚拟内窥镜漫游图像与深度估计图像一一对应的数据集,并基于此数据集训练了一个深度估计模型;随后,使用添加高效通道注意力(ECA)模块的改进风格迁移模型,将真实内窥镜图像域迁移至虚拟内窥镜图像域;最后,再将经由风格迁移产生的虚拟内窥镜图像送入上述训练得来的深度估计模型中,最终实现真实内窥镜图像的深度估计.所提方法的可行性及有效性在输尿管钬激光碎石术的图像中得到验证. 展开更多
关键词 深度估计 风格迁移 注意力机制 深度学习
在线阅读 下载PDF
单/双目深度估计研究进展与应用综述(特邀)
4
作者 胡海洋 陈超平 +4 位作者 高天沐 韩宝恩 杨云帆 刘毅 武小军 《红外与激光工程》 北大核心 2025年第7期25-38,共14页
深度估计作为计算机视觉领域的核心基础任务,在自动驾驶、增强现实、机器人导航等领域具有重要应用价值。文中系统综述了单目与双目深度估计的技术演进、方法体系及其在三维显示等场景中的创新应用。单目方法通过端到端深度学习架构,如... 深度估计作为计算机视觉领域的核心基础任务,在自动驾驶、增强现实、机器人导航等领域具有重要应用价值。文中系统综述了单目与双目深度估计的技术演进、方法体系及其在三维显示等场景中的创新应用。单目方法通过端到端深度学习架构,如多尺度特征融合、注意力机制,突破传统几何先验限制,结合监督或自监督范式缓解数据依赖问题,但受限于尺度模糊性。双目技术依托立体匹配的几何约束,通过代价体积构建与三维卷积网络实现亚像素级视差计算,在动态场景鲁棒性上表现突出。两类技术通过语义几何协同优化形成互补,推动算法从局部特征匹配向全局三维感知升级。在三维显示领域,深度估计技术成为虚实融合的关键:单目方法支撑移动端设备的实时空间拓扑重建,通过轻量化模型实现虚拟物体的物理遮挡与光照一致性渲染;双目技术为高精度全息投影与数字孪生提供毫米级深度支撑,实现动态光场重建。新兴技术如扩散模型和多教师蒸馏框架显著提升弱纹理区域的深度连续性,推动体积显示器渲染质量提升。文中进一步对比分析了主流数据集与评估指标的技术特性,指出未来研究需聚焦多传感器融合、轻量化边缘计算、跨模态评估基准构建及物理可逆渲染等方向。随着神经符号计算等范式的发展,深度估计技术将推动三维显示从几何重构向物理属性推理跃迁,最终实现“所见即所得”的沉浸式体验。 展开更多
关键词 深度估计 计算机视觉 机器学习 三维显示
在线阅读 下载PDF
TalentDepth:基于多尺度注意力机制的复杂天气场景单目深度估计模型
5
作者 张航 卫守林 殷继彬 《计算机科学》 北大核心 2025年第S1期442-448,共7页
对于复杂天气场景图像模糊、低对比度和颜色失真所导致的深度信息预测不准的问题,以往的研究均以标准场景的深度图作为先验信息来对该类场景进行深度估计。然而,这一方式存在先验信息精度较低等问题。对此,提出一个基于多尺度注意力机... 对于复杂天气场景图像模糊、低对比度和颜色失真所导致的深度信息预测不准的问题,以往的研究均以标准场景的深度图作为先验信息来对该类场景进行深度估计。然而,这一方式存在先验信息精度较低等问题。对此,提出一个基于多尺度注意力机制的单目深度估计模型TalentDepth,以实现对复杂天气场景的预测。首先,在编码器中融合多尺度注意力机制,在减少计算成本的同时,保留每个通道的信息,提高特征提取的效率和能力。其次,针对图像深度不清晰的问题,基于几何一致性,提出深度区域细化(Depth Region Refinement,DSR)模块,过滤不准确的像素点,以提高深度信息的可靠性。最后,输入图像翻译模型所生成的复杂样本,并计算相应原始图像上的标准损失来指导模型的自监督训练。在NuScence,KITTI和KITTI-C这3个数据集上,相比于基线模型,所提模型对误差和精度均有优化。 展开更多
关键词 单目深度估计 自监督学习 多尺度注意力 知识提炼 深度学习
在线阅读 下载PDF
面向高光子通量环境的目标深度估计方法
6
作者 杨佳熙 于乐天 +7 位作者 包骐瑞 毕胜 麻晓斗 杨晟琦 姜雨彤 方建儒 魏小鹏 杨鑫 《图学学报》 北大核心 2025年第4期756-762,共7页
单光子雪崩二极管(SPAD)的高时间分辨率特性及高精度特性为其开辟了广泛的应用空间,尤其是在对算法性能要求日益增长的计算机视觉、计算成像等领域。SPAD能对各种常见目标进行精确度较高的深度估计,但SPAD每次探测到光子后会进入一段无... 单光子雪崩二极管(SPAD)的高时间分辨率特性及高精度特性为其开辟了广泛的应用空间,尤其是在对算法性能要求日益增长的计算机视觉、计算成像等领域。SPAD能对各种常见目标进行精确度较高的深度估计,但SPAD每次探测到光子后会进入一段无法探测的猝灭期。这导致在环境中光子数量较多时,同一脉冲周期内更早到达SPAD的光子有更大概率被采集,使得最终形成的光子数量统计曲线明显向时间轴短的方向偏移,且偏移程度随着光子通量(即单位时间内探测光子数量)的增加而扩大。该现象被称为堆积效应(Pileup effect),其降低了深度估计算法的准确性。对于这一问题,搭建了用于采集SPAD光子数据的单光子探测系统,并在几种不同光子通量下采集了一个针对SPAD深度估计任务中堆积效应进行研究的目标深度数据集。在此基础上,设计了一个将光子通量作为全局特征进行学习的深度估计网络,其融合了SPAD探测结果中的局部空间特征和全局光子通量特征,在几种存在堆积效应的光子通量下均取得了较高的深度估计性能。 展开更多
关键词 单光子雪崩二极管 光子通量 堆积效应 深度估计 自注意力机制
在线阅读 下载PDF
融合自适应采样与全局感知的图像深度估计算法
7
作者 王国相 李昌隆 +2 位作者 宋俊锋 叶振 金恒 《计算机工程与应用》 北大核心 2025年第5期261-268,共8页
深度估计旨在通过少量稀疏深度样本点预测场景的稠密深度图,现有方法通常直接从稀疏深度样本生成最终的深度预测图,没有充分挖掘稀疏深度图包含的几何信息,导致深度估计算法的预测精度不够高。针对上述问题,提出一种融合自适应采样与全... 深度估计旨在通过少量稀疏深度样本点预测场景的稠密深度图,现有方法通常直接从稀疏深度样本生成最终的深度预测图,没有充分挖掘稀疏深度图包含的几何信息,导致深度估计算法的预测精度不够高。针对上述问题,提出一种融合自适应采样与全局感知的图像深度估计算法,由粗粒度到细粒度逐步预测深度图。通过引入预训练的深度补全网络预测粗粒度的稠密深度图,获取丰富的场景结构信息和语义信息。设计自适应深度采样方法,引导算法模型对远处的区域施加更多关注,缓解深度数据的长尾分布问题。同时通过新设计的全局感知模块,捕获并融合多尺度特征,从而获取更多的场景上下文信息。在NYU-Depth-v2数据集上的实验结果表明,算法在整体性能上超越了其他方法;消融实验的结果验证了提出的各个模块的有效性;Zero-shot实验的结果表明算法有较好的泛化性能,其中在ScanNet数据集上的阈值精度指标δ<1.25相比P3D方法提升了42个百分点,相比S2D方法则提升了3.8个百分点。 展开更多
关键词 深度估计 深度补全 稠密深度 多尺度特征融合 自适应采样
在线阅读 下载PDF
视听融合耦合坐标自注意的单目深度估计
8
作者 马存良 蒲江川 +2 位作者 许春冬 易见兵 嘉明珍 《计算机辅助设计与图形学学报》 北大核心 2025年第2期265-276,共12页
针对单目图片和声音回波信号都含空间信息这一特点,提出一种视听融合的单目深度估计方法.首先,通过池化金字塔模块融合分析回波与材料特征来自适应估计单目图片的离散深度值;然后,采用卷积神经网络和Transformer相结合的方法对单目图片... 针对单目图片和声音回波信号都含空间信息这一特点,提出一种视听融合的单目深度估计方法.首先,通过池化金字塔模块融合分析回波与材料特征来自适应估计单目图片的离散深度值;然后,采用卷积神经网络和Transformer相结合的方法对单目图片进行编码,改进坐标注意力提出坐标自注意力模块对图片特征解码获得离散深度值的概率分布;最后,将像素点的深度值建模为离散深度值的期望来构建最终深度图.实验结果表明,在仿真数据集Replica和Matterport3D数据集上,所提方法的均方根误差分别为0.204和0.875,相对误差分别为0.095和0.161,均取得具有竞争力的结果;在真实数据和含噪声数据中,该方法能够应用于真实场景的深度估计. 展开更多
关键词 单目深度估计 视听融合 池化金字塔模块 自注意力
在线阅读 下载PDF
海面环境对深海垂直阵声源深度估计的影响
9
作者 孙瑞琪 李颂文 《声学技术》 北大核心 2025年第3期368-375,共8页
首先,分析了在深海直达声区利用深海垂直线阵列进行水下声源深度估计的基本原理;然后通过对直达波和海面反射波相干叠加的信号进行频域波束形成,从波束输出的包络中获得其中蕴含的深度信息,并估计声源的深度;最后,通过干涉振荡周期匹配... 首先,分析了在深海直达声区利用深海垂直线阵列进行水下声源深度估计的基本原理;然后通过对直达波和海面反射波相干叠加的信号进行频域波束形成,从波束输出的包络中获得其中蕴含的深度信息,并估计声源的深度;最后,通过干涉振荡周期匹配的方法减小了声速垂直不均匀性带来的误差。在此基础上通过仿真研究海面环境对深度估计的影响。由于海面粗糙度会影响海面反射波的传播,文章对海面粗糙度对深度估计的影响展开研究,通过仿真调整波浪的波长和波幅,发现在海况5级以下该方法具有较好的稳定性。最后通过对不同距离的水面商船接收级及其固定观察角度下阵列接收级的分析对比,发现改善波束形成方法可以抑制远距离干扰。研究结果为深海垂直阵列的参数设计提供了一定的参考,有利于深海垂直阵对声源深度估计的进一步研究。 展开更多
关键词 海底垂直阵 深度估计 粗糙海面 水面干扰
在线阅读 下载PDF
轻量化的低成本海洋机器人深度估计方法EDepth
10
作者 陈东烁 柴春来 +1 位作者 叶航 张思赟 《计算机应用》 北大核心 2025年第S1期106-113,共8页
针对传统单目深度估计方法在海洋环境中存在的精度低、鲁棒性差、运行速度慢和难以部署等问题,提出一种轻量化的海洋机器人深度估计方法,命名为EDepth(EfficientDepth)。该方法旨在提升低成本海洋机器人的三维(3D)感知能力。首先,利用... 针对传统单目深度估计方法在海洋环境中存在的精度低、鲁棒性差、运行速度慢和难以部署等问题,提出一种轻量化的海洋机器人深度估计方法,命名为EDepth(EfficientDepth)。该方法旨在提升低成本海洋机器人的三维(3D)感知能力。首先,利用水下光衰减先验,通过空间转换将输入数据从原始RGB(Red-Green-Blue)图像空间映射到RBI(Red-BlueIntensity)输入域,从而提高深度估计的准确性;其次,采用高效的EfficientFormerV2作为特征提取模块,并结合视觉注意力机制MiniViT(Mini Vision Transformer)和光衰减模块实现深度信息的有效提取和处理;此外,通过自适应分区的设计,MiniViT模块能够动态调整深度区间,从而提高深度估计的精度;最后,优化网络结构,从而在不牺牲性能的前提下,实现高效的计算。实验结果表明,EDepth在RGB-D(Red-Green-Blue Depth)数据集USOD10K上的深度估计性能显著优于传统方法。具体来说,EDepth在平均绝对相对误差(Abs Rel)上达到了0.587,而DenseDepth为0.519,尽管DenseDepth在某些指标上表现更佳,但相较于DenseDepth的4 461万参数和171.44 MB的内存占用,EDepth仅有461万参数,减少了89.67%的参数量,而内存占用减少至23.56 MB,且在单个CPU上EDepth的每秒帧数(FPS)达到了14.11,明显优于DenseDepth的2.45。可见,EDepth在深度估计性能和计算效率之间取得了良好的平衡。 展开更多
关键词 三维感知 自适应分区 计算效率 EfficientFormerV2 海洋机器人 单目深度估计
在线阅读 下载PDF
光照变换和深度不变性约束低光照深度估计
11
作者 曹晓倩 王旸 刘伟峰 《计算机工程与应用》 北大核心 2025年第17期272-281,共10页
针对现有单目深度估计算法在夜间辅助驾驶等应用场景中性能显著下降的问题,提出基于光照变换和深度不变性约束的低光照深度估计算法。核心思想是:通过良好光照图像光照分量的多样性低光照变换和同一场景的深度不变性约束,促使深度估计... 针对现有单目深度估计算法在夜间辅助驾驶等应用场景中性能显著下降的问题,提出基于光照变换和深度不变性约束的低光照深度估计算法。核心思想是:通过良好光照图像光照分量的多样性低光照变换和同一场景的深度不变性约束,促使深度估计网络提取与光照无关的深层深度线索特征,提升网络在低光照场景中的泛化能力。具体为:以现有高性能深度估计网络为基础,获取良好光照条件下成对的“RGB-Depth”数据集;针对良好光照条件下所有RGB图像,以低光照图像为参考,逐一进行光照分量估计和变换,生成与原RGB图像同场景的系列低光照图像;利用生成低光照图像与原RGB图像的深度不变性约束,进行深度估计网络微调。实验结果表明,提出的算法在各个评价指标上均优于原深度估计算法Lite-Mono以及当前先进的低光照场景深度估计算法STEPS、ADDS等;另外,其容易嵌入其他经典深度估计网络提升原算法的光照域适应能力。 展开更多
关键词 单目深度估计 低光照场景 光照变换 深度不变性约束
在线阅读 下载PDF
基于知识蒸馏的水下轻量化深度估计算法研究
12
作者 曹航 王楠 +1 位作者 褚舒悦 潘有鹏 《中国海洋大学学报(自然科学版)》 北大核心 2025年第S1期90-105,共16页
本研究通过提出一种利用多传感器融合的快速方法来解决低成本水下机器人的单目深度估计问题。本文引入了一种名为UWDisNet的新的深度视觉学习管道;设计了一种方法对原始RGB图像进行增强的方法;采用知识蒸馏方法从相对深度估计器中学习... 本研究通过提出一种利用多传感器融合的快速方法来解决低成本水下机器人的单目深度估计问题。本文引入了一种名为UWDisNet的新的深度视觉学习管道;设计了一种方法对原始RGB图像进行增强的方法;采用知识蒸馏方法从相对深度估计器中学习关键信息;引入了一个名为Hamming loss的损失函数来指导UWDisNet在超过5000个RGB-D训练样本上进行学习;结合相对深度估计器和激光测距仪的测量值进行优化的深度估计和缩放。UWDisNet采用计算轻量级的ResNet152主干网络和基于Transformer的优化器,以确保高速推理。实验证明了本研究能够以较低的计算成本获得优异的深度估计性能。具体来说,与教师模型相比,UWDisNet的网络参数少了70%~80%,但在深度估计性能上表现出相似甚至更好的性能。本文设计的全模型能够在单个GPU上以每秒超过37.41帧的速度进行推理。此外,本文还引入了一个小型的水下深度数据集Cube来验证和评估本文的方法。实验证明,本文设计的方法在保持轻量化特征的同时,具有较强的泛化性能。 展开更多
关键词 单目深度估计 多传感器融合 知识蒸馏 轻量化特征
在线阅读 下载PDF
基于拉普拉斯金字塔的特征融合深度估计算法
13
作者 李铭汇 范哲意 朱艺璇 《电子测量技术》 北大核心 2025年第13期183-188,共6页
在计算机视觉领域,单目深度估计在自动驾驶、场景重建等应用中的重要性引起了广泛的关注。然而,现有的自监督单目深度估计方法未能充分利用底层特征,导致了物体轮廓深度估计效果较差。为了解决这一问题,本文提出了一种多尺度特征融合解... 在计算机视觉领域,单目深度估计在自动驾驶、场景重建等应用中的重要性引起了广泛的关注。然而,现有的自监督单目深度估计方法未能充分利用底层特征,导致了物体轮廓深度估计效果较差。为了解决这一问题,本文提出了一种多尺度特征融合解码方法,将原始RGB图像逐步高斯下采样以获得各级特征图,然后对其分别进行高斯上采样,利用上/下采样过程中相同尺寸的特征图对构建拉普拉斯金字塔,在解码时从各个尺度将下采样过程中丢失的轮廓线索与编码器提取到的特征相融合,从而引导解码器生成更精确的深度图,最大限度地提升编码器底层特征的利用效率。该方法与基线方法Monodepth2在KITTI数据集上的实验结果相比,绝对相对误差Abs Rel降低了1.69%,平方相对误差Sq Rel降低了6.80%,均方根误差RMSE降低了1.00%,表明该方法对全局深度估计精度有所提升,此外可视化分析也验证了该方法对物体轮廓的深度估计效果有明显改善。 展开更多
关键词 深度估计 自监督 拉普拉斯金字塔 特征融合
在线阅读 下载PDF
基于单目深度估计的光伏板地理定位算法
14
作者 倪源松 韩军 +1 位作者 胡广怡 王文帅 《计算机工程与应用》 北大核心 2025年第14期353-361,共9页
在光伏电站的无人机巡检中,准确定位光伏板的地理位置是关键。目前大多数定位方法依赖于地理信息数据、多视角图像或激光雷达,但这些方法难以在未知复杂环境下快速定位目标的地理位置。随着深度学习的单目深度估计(MDE)发展,MDE网络在... 在光伏电站的无人机巡检中,准确定位光伏板的地理位置是关键。目前大多数定位方法依赖于地理信息数据、多视角图像或激光雷达,但这些方法难以在未知复杂环境下快速定位目标的地理位置。随着深度学习的单目深度估计(MDE)发展,MDE网络在道路场景下已展现出较高的深度预测精度。基于此,提出了一种全新的光伏板地理定位算法,采用MDE网络估算目标距离,并根据相机成像模型将光伏板的像素坐标转换至地理坐标。为了解决经典MDE在拍摄视角多变和距离较远的无人机场景下深度预测精度不佳,设计了针对该场景优化的MDE网络(SwinDenseDepth),采用由Swin Transformer组成的编码器增强对无人机场景的深度感知能力,并结合密集连接结构与通道空间注意力融合模块,利用语义和上下文信息提高深度估计的准确性。实验结果表明相比于目前主流的MDE能更为准确地预测无人机图像中距离,并且定位算法在巡检高度30~60m的图像中定位误差在1~2m范围内,满足定位光伏板的实际需求。 展开更多
关键词 目标地理定位 单目深度估计 视觉地理定位 无人机(UAV) 光伏板组件
在线阅读 下载PDF
基于坐标感知注意的多帧自监督单目深度估计
15
作者 程德强 范舒铭 +2 位作者 钱建生 江鹤 寇旗旗 《北京航空航天大学学报》 北大核心 2025年第7期2218-2228,共11页
为解决单目深度估计方法中物体细节边缘深度预测模糊不清的问题,提出了一种基于坐标感知注意的多帧自监督单目深度估计方法。提出了一种坐标感知注意模块,以增强编码器最下层输出特征,并加强成本体的特征利用;提出了一种基于像素洗牌的... 为解决单目深度估计方法中物体细节边缘深度预测模糊不清的问题,提出了一种基于坐标感知注意的多帧自监督单目深度估计方法。提出了一种坐标感知注意模块,以增强编码器最下层输出特征,并加强成本体的特征利用;提出了一种基于像素洗牌的深度预测解码器,可有效分离低分辨编码器特征中的多物体融合特征,以细化深度估计结果中的物体边缘。在KITTI和Cityscapes数据集上的实验测试结果表明:所提方法优于目前主流方法,显著提升了主观视觉效果和客观评价指标,尤其在物体边缘细节上具有更好的深度估计性能。 展开更多
关键词 图像处理 深度学习 深度估计 自监督学习 注意力机制
在线阅读 下载PDF
DepthMamba:多尺度VisionMamba架构的单目深度估计
16
作者 徐志斌 张孙杰 《计算机应用研究》 北大核心 2025年第3期944-948,共5页
在单目深度估计领域,虽然基于CNN和Transformer的模型已经得到了广泛的研究,但是CNN全局特征提取不足,Transformer则具有二次计算复杂性。为了克服这些限制,提出了一种用于单目深度估计的端到端模型,命名为DepthMamba。该模型能够高效... 在单目深度估计领域,虽然基于CNN和Transformer的模型已经得到了广泛的研究,但是CNN全局特征提取不足,Transformer则具有二次计算复杂性。为了克服这些限制,提出了一种用于单目深度估计的端到端模型,命名为DepthMamba。该模型能够高效地捕捉全局信息并减少计算负担。具体地,该方法引入了视觉状态空间(VSS)模块构建编码器-解码器架构,以提高模型提取多尺度信息和全局信息的能力。此外,还设计了MLPBins深度预测模块,旨在优化深度图的平滑性和整洁性。最后在室内场景NYU_Depth V2数据集和室外场景KITTI数据集上进行了综合实验,实验结果表明:与基于视觉Transformer架构的Depthformer相比,该方法网络参数量减少了27.75%,RMSE分别减少了6.09%和2.63%,验证了算法的高效性和优越性。 展开更多
关键词 单目深度估计 Vmamba Bins深度预测 状态空间模型
在线阅读 下载PDF
结合多尺度注意力的轻量自监督单目深度估计
17
作者 葛竟睿 秦国轩 张为 《西安电子科技大学学报》 北大核心 2025年第4期66-76,共11页
针对目前单目深度估计网络模型参数量大、计算复杂度高、难以部署在边缘计算设备上进行实时推理的问题,提出一种结合多尺度注意力的轻量级自监督单目深度估计算法。该算法引入多尺度注意力模块作为编码器主体,以卷积操作与自注意力机制... 针对目前单目深度估计网络模型参数量大、计算复杂度高、难以部署在边缘计算设备上进行实时推理的问题,提出一种结合多尺度注意力的轻量级自监督单目深度估计算法。该算法引入多尺度注意力模块作为编码器主体,以卷积操作与自注意力机制的局部结构和远程全局信息捕获能力作为核心思想,通过将添加了多分支大核空洞卷积的门控多层感知机与前馈神经网络相结合,实现带有注意力机制的局部与全局特征聚合,从而在确保深度估计精度的情况下降低网络参数量和计算复杂度。使用经过编码器-解码器架构得到的深度图与基于ResNet18的位姿估计网络输出的相对姿态矩阵进行图像重建,通过计算重建图像与原始图像间的光度损失与平滑损失,实现自监督的单目深度估计。该算法模型参数量仅4.1 M,浮点运算量仅3.0 G,运行网络结构平均用时5.7 ms,在公开数据集KITTI上的AbsRel指标为0.104,δ_1指标为0.892,综合性能优于目前的主流方法。实验结果表明,该算法深度估计精度高,推理速度快,能够满足实时性单目深度估计任务的需求。 展开更多
关键词 深度学习 深度估计 无监督学习 卷积神经网络 注意力机制
在线阅读 下载PDF
LpDepth:基于拉普拉斯金字塔的自监督单目深度估计
18
作者 曹明伟 邢景杰 +1 位作者 程宜风 赵海锋 《计算机科学》 北大核心 2025年第3期33-40,共8页
自监督单目深度估计受到了国内外研究人员的广泛关注。现有基于深度学习的自监督单目深度估计方法主要采用编码器-解码器结构。然而,这些方法在编码过程中对输入图像进行下采样操作,导致部分图像信息,尤其是图像的边界信息丢失,进而影... 自监督单目深度估计受到了国内外研究人员的广泛关注。现有基于深度学习的自监督单目深度估计方法主要采用编码器-解码器结构。然而,这些方法在编码过程中对输入图像进行下采样操作,导致部分图像信息,尤其是图像的边界信息丢失,进而影响深度图的精度。针对上述问题,提出一种基于拉普拉斯金字塔的自监督单目深度估计方法(Self-supervised Monocular Depth Estimation Based on the Laplace Pyramid,LpDepth)。此方法的核心思想是:首先,使用拉普拉斯残差图丰富编码特征,以弥补在下采样过程中丢失的特征信息;其次,在下采样过程中使用最大池化层突显和放大特征信息,使编码器在特征提取过程中更容易地提取到训练模型所需要的特征信息;最后,使用残差模块解决过拟合问题,提高解码器对特征的利用效率。在KITTI和Make3D等数据集上对所提方法进行了测试,同时将其与现有经典方法进行了比较。实验结果证明了所提方法的有效性。 展开更多
关键词 单目深度估计 拉普拉斯金字塔 残差网络 深度
在线阅读 下载PDF
基于单目相机的复杂场景深度估计网络
19
作者 陈占国 陈振军 +4 位作者 薛晨霞 王国亮 李金峄 李玉廷 于保才 《辽宁工程技术大学学报(自然科学版)》 北大核心 2025年第4期505-512,共8页
为提升复杂多变场景下深度估计的精度,提出一种基于U型编码器-解码器的单目深度估计网络。采用Swin Transformer架构作为编码器核心,实现对输入数据多层级、多尺度的精细化特征提取。采用逐层扩张卷积提取多尺度局部特征,通过特征交互... 为提升复杂多变场景下深度估计的精度,提出一种基于U型编码器-解码器的单目深度估计网络。采用Swin Transformer架构作为编码器核心,实现对输入数据多层级、多尺度的精细化特征提取。采用逐层扩张卷积提取多尺度局部特征,通过特征交互模块交互局部和全局特征,实现对复杂场景的更全面理解。采用对称式Transformer解码器并结合图像块扩展层将相邻维度的特征图重塑为更高分辨率的特征图,最终输出像素级深度预测结果。在NYU Depth v2数据集和KITTI数据集上进行定量实验。研究结果表明:该网络在复杂多变场景中具有高效性和实用性。研究方法突破了传统方法在复杂多变场景下的局限性,为深度估计的理论研究提供新的视角和方法。 展开更多
关键词 单目深度估计 U型编码器-解码器 逐层扩张卷积 特征交互模块 对称式Transformer解码器
在线阅读 下载PDF
基于轻型自限制注意力的结构光相位及深度估计混合网络 被引量:2
20
作者 朱新军 赵浩淼 +2 位作者 王红一 宋丽梅 孙瑞群 《中国光学(中英文)》 EI CAS CSCD 北大核心 2024年第1期118-127,共10页
相位提取与深度估计是结构光三维测量中的重点环节,目前传统方法在结构光相位提取与深度估计方面存在效率不高、结果不够鲁棒等问题。为了提高深度学习结构光的重建效果,本文提出了一种基于轻型自限制注意力(Light Self-Limited-Attenti... 相位提取与深度估计是结构光三维测量中的重点环节,目前传统方法在结构光相位提取与深度估计方面存在效率不高、结果不够鲁棒等问题。为了提高深度学习结构光的重建效果,本文提出了一种基于轻型自限制注意力(Light Self-Limited-Attention,LSLA)的结构光相位及深度估计混合网络,即构建一种CNN-Transformer的混合模块,并将构建的混合模块放入U型架构中,实现CNN与Transformer的优势互补。将所提出的网络在结构光相位估计和结构光深度估计两个任务上进行实验,并和其他网络进行对比。实验结果表明:相比其他网络,本文所提出的网络在相位估计和深度估计的细节处理上更加精细,在结构光相位估计实验中,精度最高提升31%;在结构光深度估计实验中,精度最高提升26%。该方法提高了深度神经网络在结构光相位估计及深度估计的准确性。 展开更多
关键词 结构光 深度学习 自限制注意力 相位估计 深度估计
在线阅读 下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部