目前国内尚无公开的多视角手语数据集,手语识别研究主要围绕单一视角数据展开,由于手势遮挡问题,模型识别效果不佳.针对这些问题,创建了一个多视角孤立手语数据集(Multi-View Chinese Isolated Sign Language Dataset,MV-CISL);基于该...目前国内尚无公开的多视角手语数据集,手语识别研究主要围绕单一视角数据展开,由于手势遮挡问题,模型识别效果不佳.针对这些问题,创建了一个多视角孤立手语数据集(Multi-View Chinese Isolated Sign Language Dataset,MV-CISL);基于该数据集,提出了一种多视角特征融合的孤立手语识别方法,该方法使用基于改进的3D-ResNet18的端到端多流网络提取不同视角的特征信息,并通过决策级融合来整合这些特征信息;为提高网络识别性能,使用CSL-500单视角数据集对所提出网络进行迁移学习,并将其应用于MVCISL数据集.实验结果表明,所提出方法在性能上优于单视角和双视角方法;在多流网络骨干模型ResNet+LSTM、ResNet+BiLSTM、3D-MobileNet和3D-ShuffleNet上进一步验证了该方法的有效性;与基于正面视角RGB和深度信息融合的方法相比,数据采集成本更低,性能更优良.展开更多
文摘目前国内尚无公开的多视角手语数据集,手语识别研究主要围绕单一视角数据展开,由于手势遮挡问题,模型识别效果不佳.针对这些问题,创建了一个多视角孤立手语数据集(Multi-View Chinese Isolated Sign Language Dataset,MV-CISL);基于该数据集,提出了一种多视角特征融合的孤立手语识别方法,该方法使用基于改进的3D-ResNet18的端到端多流网络提取不同视角的特征信息,并通过决策级融合来整合这些特征信息;为提高网络识别性能,使用CSL-500单视角数据集对所提出网络进行迁移学习,并将其应用于MVCISL数据集.实验结果表明,所提出方法在性能上优于单视角和双视角方法;在多流网络骨干模型ResNet+LSTM、ResNet+BiLSTM、3D-MobileNet和3D-ShuffleNet上进一步验证了该方法的有效性;与基于正面视角RGB和深度信息融合的方法相比,数据采集成本更低,性能更优良.