在计算机视觉和机器学习领域的快速发展中,3D人体姿态估计已成为一项备受关注的研究方向。早期的3D人体姿态估计方法多集中在图像领域,然而这类方法需要更多的计算资源且结果并不理想。为了克服这些问题,2D-to-3D方法应运而生。目前效...在计算机视觉和机器学习领域的快速发展中,3D人体姿态估计已成为一项备受关注的研究方向。早期的3D人体姿态估计方法多集中在图像领域,然而这类方法需要更多的计算资源且结果并不理想。为了克服这些问题,2D-to-3D方法应运而生。目前效果最佳的2D-to-3D方法多基于Transformer,然而这类方法着重于对人体骨架的全局提取,忽略了骨架的局部差异性,导致对局部信息学习不够充分。本文提出一种基于Transformer框架的三维人体姿态估计算法,该算法在全局算法的基础上添加一个局部分支网络。在局部分支中,首先通过非均匀图卷积网络提取二维人体骨架中的空间语义特征,使网络更好地学习人体的拓扑结构关系。其次,通过分层局部时间网络从人体关节、部位及姿势这3个不同层级学习帧与帧之间的细微差异。在全局算法中,输入数据经过空间和时间Transformer分别提取所有关键点和所有帧的分布关系。该网络在低层部分由局部算法与全局算法并联提取骨架特征,高层部分则由全局算法级联组成。本文在Human3.6M和MPI-INF-3DHP两个公共数据集上使用MPJPE(Mean Per Joint Position Error)评价指标对该方法进行评估,分别取得20.8 mm及22.3 mm的结果。结果表明,本文算法已达到相对较高的性能水准。展开更多
文摘在计算机视觉和机器学习领域的快速发展中,3D人体姿态估计已成为一项备受关注的研究方向。早期的3D人体姿态估计方法多集中在图像领域,然而这类方法需要更多的计算资源且结果并不理想。为了克服这些问题,2D-to-3D方法应运而生。目前效果最佳的2D-to-3D方法多基于Transformer,然而这类方法着重于对人体骨架的全局提取,忽略了骨架的局部差异性,导致对局部信息学习不够充分。本文提出一种基于Transformer框架的三维人体姿态估计算法,该算法在全局算法的基础上添加一个局部分支网络。在局部分支中,首先通过非均匀图卷积网络提取二维人体骨架中的空间语义特征,使网络更好地学习人体的拓扑结构关系。其次,通过分层局部时间网络从人体关节、部位及姿势这3个不同层级学习帧与帧之间的细微差异。在全局算法中,输入数据经过空间和时间Transformer分别提取所有关键点和所有帧的分布关系。该网络在低层部分由局部算法与全局算法并联提取骨架特征,高层部分则由全局算法级联组成。本文在Human3.6M和MPI-INF-3DHP两个公共数据集上使用MPJPE(Mean Per Joint Position Error)评价指标对该方法进行评估,分别取得20.8 mm及22.3 mm的结果。结果表明,本文算法已达到相对较高的性能水准。