文摘针对目前智能机器人领域中,利用多帧连续视觉和触觉信息时,对时空信息和模态间的异构信息处理不足的问题,提出了一种结合时空注意力的视触融合目标识别方法。该方法利用Swin Transformer模块从视觉和触觉图像中分别提取特征,减轻模态间的异构性;使用基于注意力瓶颈机制的时空Transformer模块,实现视觉和触觉特征信息的时空交互和跨模态交互;通过多头自注意力融合模块,实现视触觉特征中信息的自适应聚合,提高了算法对目标识别的准确性;通过全连接层获得目标识别的结果。该模型在The Touch and Go公共数据集上的精确率和F1分数分别为98.38%和96.83%,比效果最好的对比模型提高了0.90和0.63个百分点。此外,消融实验也验证了提出的各个模块的有效性。