针对在复杂场景下对弱纹理目标位姿估计的准确性和实时性问题,提出基于筛选学习网络的六自由度(6D)目标位姿估计算法。首先,将标准卷积替换为蓝图可分离卷积(BSConv)以减少模型参数,并使用GeLU(Gaussian error Linear Unit)激活函数,能...针对在复杂场景下对弱纹理目标位姿估计的准确性和实时性问题,提出基于筛选学习网络的六自由度(6D)目标位姿估计算法。首先,将标准卷积替换为蓝图可分离卷积(BSConv)以减少模型参数,并使用GeLU(Gaussian error Linear Unit)激活函数,能够更好地逼近正态分布,以提高网络模型的性能;其次,提出上采样筛选编码信息模块(UFAEM),弥补了上采样关键信息丢失的缺陷;最后,提出一种全局注意力机制(GAM),增加上下文信息,更有效地提取输入特征图的信息。在公开数据集LineMOD、YCB-Video和Occlusion LineMOD上测试,实验结果表明,所提算法在网络参数大幅度减少的同时提升了精度。所提算法网络参数量减少近3/4,采用ADD(-S) metric指标,在lineMOD数据集下较Dual-Stream算法精度提升约1.2个百分点,在YCB-Video数据集下较DenseFusion算法精度提升约5.2个百分点,在Occlusion LineMOD数据集下较像素投票网络(PVNet)算法精度提升约6.6个百分点。通过实验结果可知,所提算法对弱纹理目标位姿估计具有较好的效果,对遮挡物体位姿估计具有一定的鲁棒性。展开更多
文摘针对因遮挡和自相似性导致的从单张RGB图像估计三维手部姿态不精确的问题,提出结合注意力机制和多尺度特征融合的三维手部姿态估计算法。首先,提出结合扩张卷积和CBAM(Convolutional Block Attention Module)注意力机制的感受强化模块(SEM),以替换沙漏网络(HGNet)中的基本块(Basicblock),在扩大感受野的同时增强对空间信息的敏感性,从而提高手部特征的提取能力;其次,设计一种结合SPCNet(Spatial Preserve and Contentaware Network)和Soft-Attention改进的多尺度信息融合模块SS-MIFM(SPCNet and Soft-attention-Multi-scale Information Fusion Module),在充分考虑空间内容感知机制的情况下,有效地聚合多级特征,并显著提高二维手部关键点检测的准确性;最后,利用2.5D姿态转换模块将二维姿态转换为三维姿态,从而避免二维关键点坐标直接回归计算三维姿态信息导致的空间丢失问题。实验结果表明,在InterHand2.6M数据集上,所提算法的双手关节点平均误差(MPJPE)、单手MPJPE和根节点平均误差(MRRPE)分别达到了12.32、9.96和29.57 mm;在RHD(Rendered Hand pose Dataset)上,与InterNet和QMGR-Net算法相比,所提算法的终点误差(EPE)分别降低了2.68和0.38 mm。以上结果说明了所提算法能够更准确地估计手部姿态,且在一些双手交互和遮挡的场景下有更高的鲁棒性。