近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能...近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能视频编码(Versatile Video Coding,VVC/H.266),主要针对人眼视觉特性进行优化,未能充分考虑压缩对机器视觉任务的性能影响。为解决这一问题,本文以多目标跟踪作为典型的机器视觉视频处理任务,提出一种面向机器视觉的VVC帧内编码算法。首先,使用神经网络可解释性方法,梯度加权类激活映射(Gradient-weighted Class Activation Mapping,GradCAM++),对视频内容进行显著性分析,定位出机器视觉任务所关注的区域,并以显著图的形式表示。随后,为了突出视频画面中的关键边缘轮廓信息,本文引入边缘检测并将其结果与显著性分析结果进行融合,得到最终的机器视觉显著性图。最后,基于融合后的机器视觉显著性图改进VVC模式选择过程,优化VVC中的块划分和帧内预测的模式决策过程。通过引入机器视觉失真,代替原有的信号失真来调整率失真优化公式,使得编码器在压缩过程中尽可能保留对视觉任务更为相关的信息。实验结果表明,与VVC基准相比,所提出方法在保持相同机器视觉检测精度的同时,可节约12.7%的码率。展开更多
多功能视频编码(versatile video coding,VVC)作为最新一代的视频编码标准,通过引入多种高效的编码工具进一步提升了视频编码性能。然而,VVC标准引入了四叉树加多类型树(quadtree plus multi-type tree,QTMT)划分结构,并将帧内预测模式...多功能视频编码(versatile video coding,VVC)作为最新一代的视频编码标准,通过引入多种高效的编码工具进一步提升了视频编码性能。然而,VVC标准引入了四叉树加多类型树(quadtree plus multi-type tree,QTMT)划分结构,并将帧内预测模式从35种扩展到67种,导致编码复杂度急剧上升。为降低VVC的帧内编码复杂度,首先,提出了一种基于图神经网络的帧内编码单元(coding unit,CU)划分快速算法,该算法利用高效的图神经网络模型直接预测CU的最优划分模式,从而跳过冗余的CU划分遍历。其次,提出了一种基于空间相关性和纹理特征的帧内模式选择快速算法,该算法利用平均方向方差和Sobel梯度算子确定纹理方向,并跳过部分角度预测模式,同时结合预测模式间的相关性精简率失真模式列表。实验结果表明,该算法能够在BDBR(bjontegaard delta bit rate)上升2.29%的代价下,节省64.04%的编码时间。展开更多
针对多功能视频编码(Versatile Video Coding,VVC)标准中跨通道线性预测模型(Cross-Component Linear Model,CCLM)无法很好地拟合色度与亮度之间的非线性对应关系这一不足,提出了一种基于注意力机制卷积神经网络的VVC色度预测算法。该...针对多功能视频编码(Versatile Video Coding,VVC)标准中跨通道线性预测模型(Cross-Component Linear Model,CCLM)无法很好地拟合色度与亮度之间的非线性对应关系这一不足,提出了一种基于注意力机制卷积神经网络的VVC色度预测算法。该算法主要思想是在进行色度预测时,使用对应亮度块的信息与待预测色度块上方与左方的信息作为参考信息输入进卷积神经网络,利用注意力机制对参考信息中的亮度与色度间的内在联系进行分配权重后输入预测网络。实验结果表明,相较于VVC标准算法U分量和V分量的平均码率节省分别为0.64%和0.68%,有效提升了VVC编码性能。展开更多
文摘近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能视频编码(Versatile Video Coding,VVC/H.266),主要针对人眼视觉特性进行优化,未能充分考虑压缩对机器视觉任务的性能影响。为解决这一问题,本文以多目标跟踪作为典型的机器视觉视频处理任务,提出一种面向机器视觉的VVC帧内编码算法。首先,使用神经网络可解释性方法,梯度加权类激活映射(Gradient-weighted Class Activation Mapping,GradCAM++),对视频内容进行显著性分析,定位出机器视觉任务所关注的区域,并以显著图的形式表示。随后,为了突出视频画面中的关键边缘轮廓信息,本文引入边缘检测并将其结果与显著性分析结果进行融合,得到最终的机器视觉显著性图。最后,基于融合后的机器视觉显著性图改进VVC模式选择过程,优化VVC中的块划分和帧内预测的模式决策过程。通过引入机器视觉失真,代替原有的信号失真来调整率失真优化公式,使得编码器在压缩过程中尽可能保留对视觉任务更为相关的信息。实验结果表明,与VVC基准相比,所提出方法在保持相同机器视觉检测精度的同时,可节约12.7%的码率。
文摘多功能视频编码(versatile video coding,VVC)作为最新一代的视频编码标准,通过引入多种高效的编码工具进一步提升了视频编码性能。然而,VVC标准引入了四叉树加多类型树(quadtree plus multi-type tree,QTMT)划分结构,并将帧内预测模式从35种扩展到67种,导致编码复杂度急剧上升。为降低VVC的帧内编码复杂度,首先,提出了一种基于图神经网络的帧内编码单元(coding unit,CU)划分快速算法,该算法利用高效的图神经网络模型直接预测CU的最优划分模式,从而跳过冗余的CU划分遍历。其次,提出了一种基于空间相关性和纹理特征的帧内模式选择快速算法,该算法利用平均方向方差和Sobel梯度算子确定纹理方向,并跳过部分角度预测模式,同时结合预测模式间的相关性精简率失真模式列表。实验结果表明,该算法能够在BDBR(bjontegaard delta bit rate)上升2.29%的代价下,节省64.04%的编码时间。
文摘针对多功能视频编码(Versatile Video Coding,VVC)标准中跨通道线性预测模型(Cross-Component Linear Model,CCLM)无法很好地拟合色度与亮度之间的非线性对应关系这一不足,提出了一种基于注意力机制卷积神经网络的VVC色度预测算法。该算法主要思想是在进行色度预测时,使用对应亮度块的信息与待预测色度块上方与左方的信息作为参考信息输入进卷积神经网络,利用注意力机制对参考信息中的亮度与色度间的内在联系进行分配权重后输入预测网络。实验结果表明,相较于VVC标准算法U分量和V分量的平均码率节省分别为0.64%和0.68%,有效提升了VVC编码性能。