高效视频编码(high efficiency video coding,HEVC)相较于上一代编码标准H.264降低了约50%的比特率,但为了提高帧内预测的准确性,HEVC提出的35种预测模式导致计算量大幅增加,对软件和硬件实现均构成了挑战.针对该问题,在HEVC的基础上提...高效视频编码(high efficiency video coding,HEVC)相较于上一代编码标准H.264降低了约50%的比特率,但为了提高帧内预测的准确性,HEVC提出的35种预测模式导致计算量大幅增加,对软件和硬件实现均构成了挑战.针对该问题,在HEVC的基础上提出了一种依据图片纹理方向,结合预测模式之间的关联性来确定帧内预测模式的快速算法.实验结果表明,本算法与HEVC参考软件HM16.20相比,在BD-Rate损失仅为5.79%的情况下,节省46%以上的编码时间,显著降低了帧内预测模式决策的复杂度,便于在嵌入式系统等硬件资源有限的端侧实现算法落地.展开更多
近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能...近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能视频编码(Versatile Video Coding,VVC/H.266),主要针对人眼视觉特性进行优化,未能充分考虑压缩对机器视觉任务的性能影响。为解决这一问题,本文以多目标跟踪作为典型的机器视觉视频处理任务,提出一种面向机器视觉的VVC帧内编码算法。首先,使用神经网络可解释性方法,梯度加权类激活映射(Gradient-weighted Class Activation Mapping,GradCAM++),对视频内容进行显著性分析,定位出机器视觉任务所关注的区域,并以显著图的形式表示。随后,为了突出视频画面中的关键边缘轮廓信息,本文引入边缘检测并将其结果与显著性分析结果进行融合,得到最终的机器视觉显著性图。最后,基于融合后的机器视觉显著性图改进VVC模式选择过程,优化VVC中的块划分和帧内预测的模式决策过程。通过引入机器视觉失真,代替原有的信号失真来调整率失真优化公式,使得编码器在压缩过程中尽可能保留对视觉任务更为相关的信息。实验结果表明,与VVC基准相比,所提出方法在保持相同机器视觉检测精度的同时,可节约12.7%的码率。展开更多
为解决第三代音视频编码标准(audio video coding standard 3,AVS3)帧内预测的耗时问题,提出一种基于最小编码单元(coding unit,CU)代价的帧内预测并行算法。首先,将图像划分为最小CU。然后,利用原始像素作为参考,并行计算所有最小CU的...为解决第三代音视频编码标准(audio video coding standard 3,AVS3)帧内预测的耗时问题,提出一种基于最小编码单元(coding unit,CU)代价的帧内预测并行算法。首先,将图像划分为最小CU。然后,利用原始像素作为参考,并行计算所有最小CU的帧内模式代价。最后,用代价组合的方式快速计算出其他CU的帧内模式优先级,选择最优的15个模式进入粗略模式决策(rough mode decision,RMD)阶段。此外,为减少方法引入的误差,提出了3种优化策略。在预测前对原始像素进行预处理,使其更贴合重构像素;修改帧内预测的代价函数,以更准确地估计每种模式的优先级;大尺寸CU使用顶层的CU代价作为参考,减少CU组合累积的误差。实验结果表明,在码率仅下降0.35%的情况下,整体编码的计算时间减少了27%,有效地减少了帧内预测的耗时并保证了编码质量。展开更多
文摘高效视频编码(high efficiency video coding,HEVC)相较于上一代编码标准H.264降低了约50%的比特率,但为了提高帧内预测的准确性,HEVC提出的35种预测模式导致计算量大幅增加,对软件和硬件实现均构成了挑战.针对该问题,在HEVC的基础上提出了一种依据图片纹理方向,结合预测模式之间的关联性来确定帧内预测模式的快速算法.实验结果表明,本算法与HEVC参考软件HM16.20相比,在BD-Rate损失仅为5.79%的情况下,节省46%以上的编码时间,显著降低了帧内预测模式决策的复杂度,便于在嵌入式系统等硬件资源有限的端侧实现算法落地.
文摘近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能视频编码(Versatile Video Coding,VVC/H.266),主要针对人眼视觉特性进行优化,未能充分考虑压缩对机器视觉任务的性能影响。为解决这一问题,本文以多目标跟踪作为典型的机器视觉视频处理任务,提出一种面向机器视觉的VVC帧内编码算法。首先,使用神经网络可解释性方法,梯度加权类激活映射(Gradient-weighted Class Activation Mapping,GradCAM++),对视频内容进行显著性分析,定位出机器视觉任务所关注的区域,并以显著图的形式表示。随后,为了突出视频画面中的关键边缘轮廓信息,本文引入边缘检测并将其结果与显著性分析结果进行融合,得到最终的机器视觉显著性图。最后,基于融合后的机器视觉显著性图改进VVC模式选择过程,优化VVC中的块划分和帧内预测的模式决策过程。通过引入机器视觉失真,代替原有的信号失真来调整率失真优化公式,使得编码器在压缩过程中尽可能保留对视觉任务更为相关的信息。实验结果表明,与VVC基准相比,所提出方法在保持相同机器视觉检测精度的同时,可节约12.7%的码率。
文摘为解决第三代音视频编码标准(audio video coding standard 3,AVS3)帧内预测的耗时问题,提出一种基于最小编码单元(coding unit,CU)代价的帧内预测并行算法。首先,将图像划分为最小CU。然后,利用原始像素作为参考,并行计算所有最小CU的帧内模式代价。最后,用代价组合的方式快速计算出其他CU的帧内模式优先级,选择最优的15个模式进入粗略模式决策(rough mode decision,RMD)阶段。此外,为减少方法引入的误差,提出了3种优化策略。在预测前对原始像素进行预处理,使其更贴合重构像素;修改帧内预测的代价函数,以更准确地估计每种模式的优先级;大尺寸CU使用顶层的CU代价作为参考,减少CU组合累积的误差。实验结果表明,在码率仅下降0.35%的情况下,整体编码的计算时间减少了27%,有效地减少了帧内预测的耗时并保证了编码质量。