针对半监督视频目标分割(VOS)领域中基于记忆的方法存在由于目标交互造成的物体遮挡以及背景中类似对象或噪声的干扰等问题,提出一种基于时空解耦和区域鲁棒性增强的半监督VOS方法。首先,构建一个结构化Transformer架构去除所有像素共...针对半监督视频目标分割(VOS)领域中基于记忆的方法存在由于目标交互造成的物体遮挡以及背景中类似对象或噪声的干扰等问题,提出一种基于时空解耦和区域鲁棒性增强的半监督VOS方法。首先,构建一个结构化Transformer架构去除所有像素共有的特征信息,突出每个像素之间的差异,深入挖掘视频帧中目标的关键特征;其次,解耦当前帧与长期记忆帧之间的相似性,区分为时空相关性和目标重要性2个关键维度,使得对像素级时空特征和目标特征的分析更精确,从而解决由目标交互造成的物体遮挡问题;最后,设计一个区域条形注意力(RSA)模块,利用长期记忆中的目标位置信息增强对前景区域的关注度并抑制背景噪声。实验结果表明,所提方法在DAVIS 2017验证集上比重新训练的AOT(Associating Objects with Transformers)模型的J&F指标高1.7个百分点,在YouTube-VOS2019验证集上比重新训练的AOT模型的总分高1.6个百分点。可见所提方法可有效解决半监督VOS存在的问题。展开更多
该文提出了一种工作于MPEG压缩域的快速视频目标分割算法。该算法以从MPEG1/2码流中部分解码提取的特征为输入,提取P帧中的运动目标。针对一般的压缩域算法目标边界精度不高的特点,算法采用I帧和P帧中每个块的直流DCT系数和3个交流DCT系...该文提出了一种工作于MPEG压缩域的快速视频目标分割算法。该算法以从MPEG1/2码流中部分解码提取的特征为输入,提取P帧中的运动目标。针对一般的压缩域算法目标边界精度不高的特点,算法采用I帧和P帧中每个块的直流DCT系数和3个交流DCT系数,以及运动补偿信息,重建出P帧的原图像1/16大小的子图像,采用快速平均移聚类得到具有较高边界精度的亮度一致的区域;针对运动向量的噪声容易造成错误检测的缺点,算法结合聚类分析结果和运动块的分布,采用基于马尔可夫随机场的统计标号方法对目标和背景区域进行分类,得到每个P帧的目标掩模。该算法可以得到4×4子块的边界精度,对于CIF格式的码流,在Pentium IV 2GHz平台上可以达到每秒40帧的处理速度。展开更多
大量基于深度学习的无监督视频目标分割(Unsupervised video object segmentation,UVOS)算法存在模型参数量与计算量较大的问题,这显著限制了算法在实际中的应用.提出了基于运动引导的视频目标分割网络,在大幅降低模型参数量与计算量的...大量基于深度学习的无监督视频目标分割(Unsupervised video object segmentation,UVOS)算法存在模型参数量与计算量较大的问题,这显著限制了算法在实际中的应用.提出了基于运动引导的视频目标分割网络,在大幅降低模型参数量与计算量的同时,提升视频目标分割性能.整个模型由双流网络、运动引导模块、多尺度渐进融合模块三部分组成.具体地,首先,RGB图像与光流估计输入双流网络提取物体外观特征与运动特征;然后,运动引导模块通过局部注意力提取运动特征中的语义信息,用于引导外观特征学习丰富的语义信息;最后,多尺度渐进融合模块获取双流网络的各个阶段输出的特征,将深层特征渐进地融入浅层特征,最终提升边缘分割效果.在3个标准数据集上进行了大量评测,实验结果表明了该方法的优越性能.展开更多
文摘针对半监督视频目标分割(VOS)领域中基于记忆的方法存在由于目标交互造成的物体遮挡以及背景中类似对象或噪声的干扰等问题,提出一种基于时空解耦和区域鲁棒性增强的半监督VOS方法。首先,构建一个结构化Transformer架构去除所有像素共有的特征信息,突出每个像素之间的差异,深入挖掘视频帧中目标的关键特征;其次,解耦当前帧与长期记忆帧之间的相似性,区分为时空相关性和目标重要性2个关键维度,使得对像素级时空特征和目标特征的分析更精确,从而解决由目标交互造成的物体遮挡问题;最后,设计一个区域条形注意力(RSA)模块,利用长期记忆中的目标位置信息增强对前景区域的关注度并抑制背景噪声。实验结果表明,所提方法在DAVIS 2017验证集上比重新训练的AOT(Associating Objects with Transformers)模型的J&F指标高1.7个百分点,在YouTube-VOS2019验证集上比重新训练的AOT模型的总分高1.6个百分点。可见所提方法可有效解决半监督VOS存在的问题。
文摘该文提出了一种工作于MPEG压缩域的快速视频目标分割算法。该算法以从MPEG1/2码流中部分解码提取的特征为输入,提取P帧中的运动目标。针对一般的压缩域算法目标边界精度不高的特点,算法采用I帧和P帧中每个块的直流DCT系数和3个交流DCT系数,以及运动补偿信息,重建出P帧的原图像1/16大小的子图像,采用快速平均移聚类得到具有较高边界精度的亮度一致的区域;针对运动向量的噪声容易造成错误检测的缺点,算法结合聚类分析结果和运动块的分布,采用基于马尔可夫随机场的统计标号方法对目标和背景区域进行分类,得到每个P帧的目标掩模。该算法可以得到4×4子块的边界精度,对于CIF格式的码流,在Pentium IV 2GHz平台上可以达到每秒40帧的处理速度。
文摘大量基于深度学习的无监督视频目标分割(Unsupervised video object segmentation,UVOS)算法存在模型参数量与计算量较大的问题,这显著限制了算法在实际中的应用.提出了基于运动引导的视频目标分割网络,在大幅降低模型参数量与计算量的同时,提升视频目标分割性能.整个模型由双流网络、运动引导模块、多尺度渐进融合模块三部分组成.具体地,首先,RGB图像与光流估计输入双流网络提取物体外观特征与运动特征;然后,运动引导模块通过局部注意力提取运动特征中的语义信息,用于引导外观特征学习丰富的语义信息;最后,多尺度渐进融合模块获取双流网络的各个阶段输出的特征,将深层特征渐进地融入浅层特征,最终提升边缘分割效果.在3个标准数据集上进行了大量评测,实验结果表明了该方法的优越性能.