人体姿态估计(HPE)任务是计算机视觉领域中的一项重要研究工作,它在教学场景下有着广泛应用。当前该任务仍然面临着许多挑战,例如在背景杂乱、人体图像尺度小、人体被遮挡等复杂场景下出现准确率下降的问题,与此同时,人体姿态的灵活多...人体姿态估计(HPE)任务是计算机视觉领域中的一项重要研究工作,它在教学场景下有着广泛应用。当前该任务仍然面临着许多挑战,例如在背景杂乱、人体图像尺度小、人体被遮挡等复杂场景下出现准确率下降的问题,与此同时,人体姿态的灵活多变性则要求模型具有良好的推理预测能力。针对上述问题,提出一种几何关系感知的人体姿态表示学习模型,通过人体的结构化信息来帮助模型更好地理解不同姿态之间的关系,从而提高对复杂姿势预测的准确性和鲁棒性,实现其在课堂场景下的有效应用。该模型主要包括通道重加权、多token信息交互、肢体方向构建和自适应损失传播4个模块。肢体方向构建模块实现了对人体关节之间几何结构的建模,这一输入线索有利于模型捕捉到身体部位之间的相对位置和方向关系;通道重加权模块能够自动选择和强调对姿态估计任务最有帮助的特征信息,提升输入图像的视觉特征的表达能力;基于Transformer编码器的多token信息交互模块实现了图像特征线索、关节坐标线索和肢体方向线索之间的有效交互;最后,在自适应损失传播模块对传统的损失函数进行优化,进一步提高了模型的训练效果和性能。模型在2个主流数据集COCO和MPII上分别达到了76.1%、90.3%的准确率,超过了现有的一些SOTA(State of the Art)模型,在复杂场景下实现了更加准确合理的预测结果。展开更多
提出了一种Transformer与图网络相结合的网络模型,用于对视觉传感器采集到的视频图像进行三维人体姿态估计。Transformer能够有效地从二维关键关节点中提取时空维度高相关性特征,而图网络则能够感知细节相关性特征,通过融合这两种网络结...提出了一种Transformer与图网络相结合的网络模型,用于对视觉传感器采集到的视频图像进行三维人体姿态估计。Transformer能够有效地从二维关键关节点中提取时空维度高相关性特征,而图网络则能够感知细节相关性特征,通过融合这两种网络结构,提高了三维姿态估计的精度。在公开数据集Human3.6M上进行了仿真实验,验证了Transformer与图卷积融合算法的性能。实验结果显示,最终估计得到的三维人体关节点的平均关节点位置偏差(Mean Per Joint Position Error,MPJPE)为38.4 mm,相较于现有方法有一定提升,表明该方法具有较强的应用价值,可应用于许多下游相关工作中。展开更多
文摘人体姿态估计(HPE)任务是计算机视觉领域中的一项重要研究工作,它在教学场景下有着广泛应用。当前该任务仍然面临着许多挑战,例如在背景杂乱、人体图像尺度小、人体被遮挡等复杂场景下出现准确率下降的问题,与此同时,人体姿态的灵活多变性则要求模型具有良好的推理预测能力。针对上述问题,提出一种几何关系感知的人体姿态表示学习模型,通过人体的结构化信息来帮助模型更好地理解不同姿态之间的关系,从而提高对复杂姿势预测的准确性和鲁棒性,实现其在课堂场景下的有效应用。该模型主要包括通道重加权、多token信息交互、肢体方向构建和自适应损失传播4个模块。肢体方向构建模块实现了对人体关节之间几何结构的建模,这一输入线索有利于模型捕捉到身体部位之间的相对位置和方向关系;通道重加权模块能够自动选择和强调对姿态估计任务最有帮助的特征信息,提升输入图像的视觉特征的表达能力;基于Transformer编码器的多token信息交互模块实现了图像特征线索、关节坐标线索和肢体方向线索之间的有效交互;最后,在自适应损失传播模块对传统的损失函数进行优化,进一步提高了模型的训练效果和性能。模型在2个主流数据集COCO和MPII上分别达到了76.1%、90.3%的准确率,超过了现有的一些SOTA(State of the Art)模型,在复杂场景下实现了更加准确合理的预测结果。
文摘提出了一种Transformer与图网络相结合的网络模型,用于对视觉传感器采集到的视频图像进行三维人体姿态估计。Transformer能够有效地从二维关键关节点中提取时空维度高相关性特征,而图网络则能够感知细节相关性特征,通过融合这两种网络结构,提高了三维姿态估计的精度。在公开数据集Human3.6M上进行了仿真实验,验证了Transformer与图卷积融合算法的性能。实验结果显示,最终估计得到的三维人体关节点的平均关节点位置偏差(Mean Per Joint Position Error,MPJPE)为38.4 mm,相较于现有方法有一定提升,表明该方法具有较强的应用价值,可应用于许多下游相关工作中。