自然语言描述驱动的目标跟踪是指通过自然语言描述引导视觉目标跟踪,通过融合文本描述和图像视觉信息,使机器能够“像人类一样”感知和理解真实的三维世界.随着深度学习的发展,自然语言描述驱动的视觉目标跟踪领域不断涌现新的方法.但...自然语言描述驱动的目标跟踪是指通过自然语言描述引导视觉目标跟踪,通过融合文本描述和图像视觉信息,使机器能够“像人类一样”感知和理解真实的三维世界.随着深度学习的发展,自然语言描述驱动的视觉目标跟踪领域不断涌现新的方法.但现有方法大多局限于二维空间,未能充分利用三维空间的位姿信息,因此无法像人类一样自然地进行三维感知;而传统三维目标跟踪任务又依赖于昂贵的传感器,并且数据采集和处理存在局限性,这使得三维目标跟踪变得更加复杂.针对上述挑战,本文提出了单目视角下自然语言描述驱动的三维目标跟踪(Natural Language-driven Object Tracking in 3D,NLOT3D)新任务,并构建了对应的数据集NLOT3D-SPD.此外,本文还设计了一个端到端的NLOT3D-TR(Natural Language-driven Object Tracking in 3D based on Transformer)模型,该模型融合了视觉与文本的跨模态特征,在NLOT3D-SPD数据集上取得了优异的实验结果.本文为NLOT3D任务提供了全面的基准测试,并进行了对比实验与消融研究,为三维目标跟踪领域的进一步发展提供了支持.展开更多
为提高目标形变、遮挡、相似干扰以及视野超出等复杂场景的目标跟踪性能,提出一种复杂场景单目标跟踪算法。基于Staple算法研究二维高斯函数像素权重赋予问题,优化颜色直方图统计,增强目标与背景区分度。引入基于峰值旁瓣比(Peak Side L...为提高目标形变、遮挡、相似干扰以及视野超出等复杂场景的目标跟踪性能,提出一种复杂场景单目标跟踪算法。基于Staple算法研究二维高斯函数像素权重赋予问题,优化颜色直方图统计,增强目标与背景区分度。引入基于峰值旁瓣比(Peak Side Lobe Ratio,PSR)的HOG特征、颜色特征的自适应融合机制,合理选择融合系数,确保混合特征更加可靠。分析目标区域中心与上一帧目标中心距离,结合最大混合响应计算最佳中心位置,解决相似目标干扰问题。采用混合响应、HOG特征、平均峰值相关能量(Average Peak-to-Correlation Energy,APCE)判定目标丢失、遮挡情况,保持目标框位置,实现目标的及时重新跟踪。采用结合之前帧和当前帧信息的模板更新策略,进一步提升跟踪精度,并在OTB100数据集中涉及形变、遮挡、视野超出3个属性视频上测试。实验结果表明,改进算法在整体和特定属性(形变、遮挡、出视野)的成功率及形变属性的精确度上,较Staple算法分别提升了1.8%,3.3%,2%和9%;在VOT16数据集上,改进算法在整体和遮挡属性上,重叠度较Staple提升了0.0222和0.0196,满足复杂的特定场景下的目标跟踪需求。展开更多
针对跟踪模型泛化能力差、跟踪模型正样本选取质量低、深层模型参数量大不利于部署等问题,本文提出了超轻量化孪生网络模型Siamese-remo。首先结合传统随机采样方法和go-turn方法,设计出新型的正负样本选取策略,增加模型泛化能力;其次采...针对跟踪模型泛化能力差、跟踪模型正样本选取质量低、深层模型参数量大不利于部署等问题,本文提出了超轻量化孪生网络模型Siamese-remo。首先结合传统随机采样方法和go-turn方法,设计出新型的正负样本选取策略,增加模型泛化能力;其次采用shiftbox-remo的数据增强方式均匀正样本分布,并提升正样本采集质量;然后通过改进后的超轻量化Mobileone-remo网络提取特征,一定程度减少深层网络对跟踪平移不变性的破坏,并预设不同特征融合参数,单独训练网络分类和回归;最终加入Center-rank loss函数,根据样本点位置影响置信度、IOU排名,对网络分类回归策略进行优化。实验证明,自然场景下奶牛单目标跟踪模型期望平均重合度(Expected average overlap,EAO)达到0.475,相对于基线模型提升0.078,与现有跟踪器对比取得了较好的成绩,且参数量仅为现有主流算法的1/20,为后续自然场景下奶牛身份识别与目标跟踪系统提供了技术支持。展开更多
文摘自然语言描述驱动的目标跟踪是指通过自然语言描述引导视觉目标跟踪,通过融合文本描述和图像视觉信息,使机器能够“像人类一样”感知和理解真实的三维世界.随着深度学习的发展,自然语言描述驱动的视觉目标跟踪领域不断涌现新的方法.但现有方法大多局限于二维空间,未能充分利用三维空间的位姿信息,因此无法像人类一样自然地进行三维感知;而传统三维目标跟踪任务又依赖于昂贵的传感器,并且数据采集和处理存在局限性,这使得三维目标跟踪变得更加复杂.针对上述挑战,本文提出了单目视角下自然语言描述驱动的三维目标跟踪(Natural Language-driven Object Tracking in 3D,NLOT3D)新任务,并构建了对应的数据集NLOT3D-SPD.此外,本文还设计了一个端到端的NLOT3D-TR(Natural Language-driven Object Tracking in 3D based on Transformer)模型,该模型融合了视觉与文本的跨模态特征,在NLOT3D-SPD数据集上取得了优异的实验结果.本文为NLOT3D任务提供了全面的基准测试,并进行了对比实验与消融研究,为三维目标跟踪领域的进一步发展提供了支持.
文摘针对跟踪模型泛化能力差、跟踪模型正样本选取质量低、深层模型参数量大不利于部署等问题,本文提出了超轻量化孪生网络模型Siamese-remo。首先结合传统随机采样方法和go-turn方法,设计出新型的正负样本选取策略,增加模型泛化能力;其次采用shiftbox-remo的数据增强方式均匀正样本分布,并提升正样本采集质量;然后通过改进后的超轻量化Mobileone-remo网络提取特征,一定程度减少深层网络对跟踪平移不变性的破坏,并预设不同特征融合参数,单独训练网络分类和回归;最终加入Center-rank loss函数,根据样本点位置影响置信度、IOU排名,对网络分类回归策略进行优化。实验证明,自然场景下奶牛单目标跟踪模型期望平均重合度(Expected average overlap,EAO)达到0.475,相对于基线模型提升0.078,与现有跟踪器对比取得了较好的成绩,且参数量仅为现有主流算法的1/20,为后续自然场景下奶牛身份识别与目标跟踪系统提供了技术支持。