针对自然环境中面部关键特征提取困难及表情动态变化难以捕捉的问题,提出一种基于关键帧的TDRAG(three-dimensional resnet and attention mechanism with GRU)网络,该网络能够有效挖掘视频序列的时空信息。首先,应用冗余系数筛选关键帧...针对自然环境中面部关键特征提取困难及表情动态变化难以捕捉的问题,提出一种基于关键帧的TDRAG(three-dimensional resnet and attention mechanism with GRU)网络,该网络能够有效挖掘视频序列的时空信息。首先,应用冗余系数筛选关键帧,减少重复信息的干扰。其次,设计三维残差注意力块,用于提升对表情序列关键空间区域的聚焦能力,使网络能够学习含有遮挡、姿势变化的鲁棒面部特征。最后,利用门控循环单元(gate recurrent unit,GRU)增强模型对时间维度变化的敏感性和解析能力,促进网络对表情序列动态演变的深入理解。实验结果表明:与基准模型3DResNet18相比,TDRAG网络在DFEW数据集上加权的平均召回率(weighted average recall,WAR)和非加权的平均召回率(unweighted average recall,UAR)分别提升了4.27%和4.16%,验证了TDRAG网络在提取人脸关键特征以及提升动态人脸表情识别精度的有效性。展开更多
文摘针对自然环境中面部关键特征提取困难及表情动态变化难以捕捉的问题,提出一种基于关键帧的TDRAG(three-dimensional resnet and attention mechanism with GRU)网络,该网络能够有效挖掘视频序列的时空信息。首先,应用冗余系数筛选关键帧,减少重复信息的干扰。其次,设计三维残差注意力块,用于提升对表情序列关键空间区域的聚焦能力,使网络能够学习含有遮挡、姿势变化的鲁棒面部特征。最后,利用门控循环单元(gate recurrent unit,GRU)增强模型对时间维度变化的敏感性和解析能力,促进网络对表情序列动态演变的深入理解。实验结果表明:与基准模型3DResNet18相比,TDRAG网络在DFEW数据集上加权的平均召回率(weighted average recall,WAR)和非加权的平均召回率(unweighted average recall,UAR)分别提升了4.27%和4.16%,验证了TDRAG网络在提取人脸关键特征以及提升动态人脸表情识别精度的有效性。