自然语言描述驱动的目标跟踪是指通过自然语言描述引导视觉目标跟踪,通过融合文本描述和图像视觉信息,使机器能够“像人类一样”感知和理解真实的三维世界.随着深度学习的发展,自然语言描述驱动的视觉目标跟踪领域不断涌现新的方法.但...自然语言描述驱动的目标跟踪是指通过自然语言描述引导视觉目标跟踪,通过融合文本描述和图像视觉信息,使机器能够“像人类一样”感知和理解真实的三维世界.随着深度学习的发展,自然语言描述驱动的视觉目标跟踪领域不断涌现新的方法.但现有方法大多局限于二维空间,未能充分利用三维空间的位姿信息,因此无法像人类一样自然地进行三维感知;而传统三维目标跟踪任务又依赖于昂贵的传感器,并且数据采集和处理存在局限性,这使得三维目标跟踪变得更加复杂.针对上述挑战,本文提出了单目视角下自然语言描述驱动的三维目标跟踪(Natural Language-driven Object Tracking in 3D,NLOT3D)新任务,并构建了对应的数据集NLOT3D-SPD.此外,本文还设计了一个端到端的NLOT3D-TR(Natural Language-driven Object Tracking in 3D based on Transformer)模型,该模型融合了视觉与文本的跨模态特征,在NLOT3D-SPD数据集上取得了优异的实验结果.本文为NLOT3D任务提供了全面的基准测试,并进行了对比实验与消融研究,为三维目标跟踪领域的进一步发展提供了支持.展开更多
针对跟踪复杂机动目标过程中由于目标运动状态发生变化导致的跟踪误差较大的问题,提出一种自适应交互多模型无迹卡尔曼滤波(interacting multiple model unscented Kalman filter,IMM-UKF)算法,使用模型概率后验信息和模型似然函数自适...针对跟踪复杂机动目标过程中由于目标运动状态发生变化导致的跟踪误差较大的问题,提出一种自适应交互多模型无迹卡尔曼滤波(interacting multiple model unscented Kalman filter,IMM-UKF)算法,使用模型概率后验信息和模型似然函数自适应修正马尔可夫转移概率矩阵(transition probability matrix,TPM)。设计模型概率校正方法和模型转移加速方法,两种方法分别作用于模型稳定阶段和模型转移阶段,提高模型概率准确度和模型转移响应速度,减小状态估计误差。最后,通过两种场景下的实验验证所提算法在目标具有复杂运动状态下的性能,并与传统方法进行对比分析,在目标做机动运动时,位置精度和速度精度分别提高了15%和26%,验证了算法的有效性和可行性。展开更多
针对暗环境动态特征轮廓模糊、盲区遮挡情况,高效准确地检测跟踪动态目标特征,对灾害救援、搜寻跟踪具有实际意义。为实现暗环境下模糊轮廓特征的有效检测跟踪,提出一种时空关联机制的红外目标实时检测深度学习网络(Spatial Local Dynam...针对暗环境动态特征轮廓模糊、盲区遮挡情况,高效准确地检测跟踪动态目标特征,对灾害救援、搜寻跟踪具有实际意义。为实现暗环境下模糊轮廓特征的有效检测跟踪,提出一种时空关联机制的红外目标实时检测深度学习网络(Spatial Local Dynamic You Only Look Once Version 8,SLD-YOLOv8),设计非局部自适应Non-local模块和空间通道卷积关联模块,对原YOLOv8网络的瓶颈层Bottleneck CSP进行优化。为有效提取深层空间多尺度表征信息,增加用于小目标检测的160×160检测层和动态检测头,较好地提升暗环境中目标跟踪的边界回归性能,并实时有效地推理出目标特征的相对深度位置信息。实验结果表明,改进后的红外目标检测算法对暗环境下的动态特征检测具有较好的鲁棒性和准确性,其平均精度评估指标mAP_0.5和mAP_0.5:0.95比原模型提高了5.6%和4.5%,证明了新算法对暗环境目标跟踪的有效性。展开更多
单纯使用Transformer进行目标跟踪的特征提取时,由于没有归纳偏差而无法自适应目标尺度和外观的变化。对此,借助CNN引入多尺度特性,提出了一种基于跨尺度融合特征与轨迹提示的目标跟踪方法(Cross Scale Fusion of Features and Trajecto...单纯使用Transformer进行目标跟踪的特征提取时,由于没有归纳偏差而无法自适应目标尺度和外观的变化。对此,借助CNN引入多尺度特性,提出了一种基于跨尺度融合特征与轨迹提示的目标跟踪方法(Cross Scale Fusion of Features and Trajectory Prompts Tracker,CSFTP-Tracker)。在构建目标跟踪网络输入时,将模板图像与搜索图像同时输入CNN与ViT网络融合的编码器中,设计了一种多级空间感知金字塔模块(Multi-Level Spatial Awareness Pyramid,MSAP)。首先,对多尺度CNN特征通过自注意力机制增强目标位置信息,然后将该多尺度特征与ViT中的F-embeddings特征相融合,输入ViT编码器。这种融合策略不仅增进了ViT内部补丁之间的信息交互,还使网络能够同时利用CNN的局部特性和Transformer的全局依赖能力。其次,将ViT提取的融合特征与轨迹提示特征输入解码器中,使用自回归学习目标位置。在GOT-10k数据集上的实验结果表明,相较于基线模型,所提出网络的平均重叠率(AO)提升了1.3%,成功率得分在阈值为0.5时(SR 0.5)也提高了1.4%。展开更多
文摘自然语言描述驱动的目标跟踪是指通过自然语言描述引导视觉目标跟踪,通过融合文本描述和图像视觉信息,使机器能够“像人类一样”感知和理解真实的三维世界.随着深度学习的发展,自然语言描述驱动的视觉目标跟踪领域不断涌现新的方法.但现有方法大多局限于二维空间,未能充分利用三维空间的位姿信息,因此无法像人类一样自然地进行三维感知;而传统三维目标跟踪任务又依赖于昂贵的传感器,并且数据采集和处理存在局限性,这使得三维目标跟踪变得更加复杂.针对上述挑战,本文提出了单目视角下自然语言描述驱动的三维目标跟踪(Natural Language-driven Object Tracking in 3D,NLOT3D)新任务,并构建了对应的数据集NLOT3D-SPD.此外,本文还设计了一个端到端的NLOT3D-TR(Natural Language-driven Object Tracking in 3D based on Transformer)模型,该模型融合了视觉与文本的跨模态特征,在NLOT3D-SPD数据集上取得了优异的实验结果.本文为NLOT3D任务提供了全面的基准测试,并进行了对比实验与消融研究,为三维目标跟踪领域的进一步发展提供了支持.
文摘针对跟踪复杂机动目标过程中由于目标运动状态发生变化导致的跟踪误差较大的问题,提出一种自适应交互多模型无迹卡尔曼滤波(interacting multiple model unscented Kalman filter,IMM-UKF)算法,使用模型概率后验信息和模型似然函数自适应修正马尔可夫转移概率矩阵(transition probability matrix,TPM)。设计模型概率校正方法和模型转移加速方法,两种方法分别作用于模型稳定阶段和模型转移阶段,提高模型概率准确度和模型转移响应速度,减小状态估计误差。最后,通过两种场景下的实验验证所提算法在目标具有复杂运动状态下的性能,并与传统方法进行对比分析,在目标做机动运动时,位置精度和速度精度分别提高了15%和26%,验证了算法的有效性和可行性。
文摘近年来,随着羊只养殖向大规模和精细化的方向发展,羊场对智能化管理的需求日益增加。因此,精准的个体识别和行为监测变得尤为重要,对多目标跟踪(Multiple object tracking, MOT)算法的准确性提出了更高要求。然而,现有的MOT算法在目标遮挡和动态场景下的性能仍不理想。本文提出两种跟踪线索:深度调制交并比(Depth modulated intersection over union, DIoU)和轨迹方向建模(Tracklet direction modeling, TDM),旨在补充交并比(Intersection over union, IoU)线索,提高多目标跟踪的精准度和鲁棒性。DIoU线索通过引入目标的深度信息改进了传统的IoU计算方法。TDM聚焦于目标的运动趋势,预测其未来的移动方向。本文将DIoU和TDM跟踪线索集成到BoT-SORT算法中,形成改进的多目标跟踪算法。在两个私有数据集上,改进算法相比基线方法,MOTA(Multiple object tracking accuracy)指标分别提高1.6、1.7个百分点,IDF1(Identification F1 score)指标分别提高1.9、1.0个百分点。结果显示,改进算法在复杂场景中的跟踪连续性和准确性显著提升。
文摘针对暗环境动态特征轮廓模糊、盲区遮挡情况,高效准确地检测跟踪动态目标特征,对灾害救援、搜寻跟踪具有实际意义。为实现暗环境下模糊轮廓特征的有效检测跟踪,提出一种时空关联机制的红外目标实时检测深度学习网络(Spatial Local Dynamic You Only Look Once Version 8,SLD-YOLOv8),设计非局部自适应Non-local模块和空间通道卷积关联模块,对原YOLOv8网络的瓶颈层Bottleneck CSP进行优化。为有效提取深层空间多尺度表征信息,增加用于小目标检测的160×160检测层和动态检测头,较好地提升暗环境中目标跟踪的边界回归性能,并实时有效地推理出目标特征的相对深度位置信息。实验结果表明,改进后的红外目标检测算法对暗环境下的动态特征检测具有较好的鲁棒性和准确性,其平均精度评估指标mAP_0.5和mAP_0.5:0.95比原模型提高了5.6%和4.5%,证明了新算法对暗环境目标跟踪的有效性。
文摘单纯使用Transformer进行目标跟踪的特征提取时,由于没有归纳偏差而无法自适应目标尺度和外观的变化。对此,借助CNN引入多尺度特性,提出了一种基于跨尺度融合特征与轨迹提示的目标跟踪方法(Cross Scale Fusion of Features and Trajectory Prompts Tracker,CSFTP-Tracker)。在构建目标跟踪网络输入时,将模板图像与搜索图像同时输入CNN与ViT网络融合的编码器中,设计了一种多级空间感知金字塔模块(Multi-Level Spatial Awareness Pyramid,MSAP)。首先,对多尺度CNN特征通过自注意力机制增强目标位置信息,然后将该多尺度特征与ViT中的F-embeddings特征相融合,输入ViT编码器。这种融合策略不仅增进了ViT内部补丁之间的信息交互,还使网络能够同时利用CNN的局部特性和Transformer的全局依赖能力。其次,将ViT提取的融合特征与轨迹提示特征输入解码器中,使用自回归学习目标位置。在GOT-10k数据集上的实验结果表明,相较于基线模型,所提出网络的平均重叠率(AO)提升了1.3%,成功率得分在阈值为0.5时(SR 0.5)也提高了1.4%。