针对野生动物数据集样本量小、目标尺度多变所导致的野生动物检测困难以及检测精度低等问题,提出一种基于多尺度上下文提取的小样本野生动物检测(MS-FSWD)算法。首先,通过多尺度上下文提取模块增强模型对不同尺度的野生动物的感知能力,...针对野生动物数据集样本量小、目标尺度多变所导致的野生动物检测困难以及检测精度低等问题,提出一种基于多尺度上下文提取的小样本野生动物检测(MS-FSWD)算法。首先,通过多尺度上下文提取模块增强模型对不同尺度的野生动物的感知能力,提高检测性能;其次,引入Res2Net作为原型校准模块的强分类网络对分类器输出的分类分数进行校正;然后,在RPN中加入置换注意力机制,增强目标区域的特征图,弱化背景信息;最后,将平衡L1损失作为定位损失函数,提升目标定位性能。实验结果表明,相比DeFRCN算法,MS-FSWD在小样本野生动物数据集FSWA上,1-shot和3-shot检测任务中新类AP50分别提升了9.9%和6.6%;在公共数据集PASCAL VOC上,MS-FSWD最高提升了12.6%。与VFA算法相比,在PASCAL VOC数据集Novel Set 3的10-shot任务中,新类AP50提升了3.3%。展开更多
文摘识别非驾驶行为是提高驾驶安全性的重要手段之一。目前基于骨架序列和图像的融合识别方法具有计算量大和特征融合困难的问题。针对上述问题,本文提出一种基于多尺度骨架图和局部视觉上下文融合的驾驶员行为识别模型(skeleton-image based behavior recognition network,SIBBR-Net)。SIBBR-Net通过基于多尺度图的图卷积网络和基于局部视觉及注意力机制的卷积神经网络,充分提取运动和外观特征,较好地平衡了模型表征能力和计算量间的关系。基于手部运动的特征双向引导学习策略、自适应特征融合模块和静态特征空间上的辅助损失,使运动和外观特征间互相引导更新并实现自适应融合。最终在Drive&Act数据集进行算法测试,SIBBR-Net在动态标签和静态标签条件下的平均正确率分别为61.78%和80.42%,每秒浮点运算次数为25.92G,较最优方法降低了76.96%。
文摘针对因遮挡和自相似性导致的从单张RGB图像估计三维手部姿态不精确的问题,提出结合注意力机制和多尺度特征融合的三维手部姿态估计算法。首先,提出结合扩张卷积和CBAM(Convolutional Block Attention Module)注意力机制的感受强化模块(SEM),以替换沙漏网络(HGNet)中的基本块(Basicblock),在扩大感受野的同时增强对空间信息的敏感性,从而提高手部特征的提取能力;其次,设计一种结合SPCNet(Spatial Preserve and Contentaware Network)和Soft-Attention改进的多尺度信息融合模块SS-MIFM(SPCNet and Soft-attention-Multi-scale Information Fusion Module),在充分考虑空间内容感知机制的情况下,有效地聚合多级特征,并显著提高二维手部关键点检测的准确性;最后,利用2.5D姿态转换模块将二维姿态转换为三维姿态,从而避免二维关键点坐标直接回归计算三维姿态信息导致的空间丢失问题。实验结果表明,在InterHand2.6M数据集上,所提算法的双手关节点平均误差(MPJPE)、单手MPJPE和根节点平均误差(MRRPE)分别达到了12.32、9.96和29.57 mm;在RHD(Rendered Hand pose Dataset)上,与InterNet和QMGR-Net算法相比,所提算法的终点误差(EPE)分别降低了2.68和0.38 mm。以上结果说明了所提算法能够更准确地估计手部姿态,且在一些双手交互和遮挡的场景下有更高的鲁棒性。
文摘针对野生动物数据集样本量小、目标尺度多变所导致的野生动物检测困难以及检测精度低等问题,提出一种基于多尺度上下文提取的小样本野生动物检测(MS-FSWD)算法。首先,通过多尺度上下文提取模块增强模型对不同尺度的野生动物的感知能力,提高检测性能;其次,引入Res2Net作为原型校准模块的强分类网络对分类器输出的分类分数进行校正;然后,在RPN中加入置换注意力机制,增强目标区域的特征图,弱化背景信息;最后,将平衡L1损失作为定位损失函数,提升目标定位性能。实验结果表明,相比DeFRCN算法,MS-FSWD在小样本野生动物数据集FSWA上,1-shot和3-shot检测任务中新类AP50分别提升了9.9%和6.6%;在公共数据集PASCAL VOC上,MS-FSWD最高提升了12.6%。与VFA算法相比,在PASCAL VOC数据集Novel Set 3的10-shot任务中,新类AP50提升了3.3%。