针对音视频多模态学习中因异质学习速率导致单一模态主导模型学习过程,抑制其他模态学习,进而削弱多模态协同决策效果的问题,提出一种基于自适应梯度调制的多模态平衡学习方法(adaptive gradient modulation based compensation and reg...针对音视频多模态学习中因异质学习速率导致单一模态主导模型学习过程,抑制其他模态学习,进而削弱多模态协同决策效果的问题,提出一种基于自适应梯度调制的多模态平衡学习方法(adaptive gradient modulation based compensation and regularization,AGM-CR)。首先,根据模态间的学习梯度差异引入调制系数来自适应调整各模态的学习速率;然后,通过梯度均衡化策略,将单个模态的梯度损失作为正则项融入总损失来约束模态间梯度差异,进一步平衡各模态的学习过程;最后,实验结果表明在CREMA-D和RAVDESS数据集上,AGM-CR将分类准确率分别提高了2.5和3.3百分点,并在多次迭代中减小模型的梯度波动,表现出更高的训练稳定性和收敛速度。与现有的平衡方法相比,AGM-CR可即插即用,更具灵活性和通用性。展开更多
文摘针对音视频多模态学习中因异质学习速率导致单一模态主导模型学习过程,抑制其他模态学习,进而削弱多模态协同决策效果的问题,提出一种基于自适应梯度调制的多模态平衡学习方法(adaptive gradient modulation based compensation and regularization,AGM-CR)。首先,根据模态间的学习梯度差异引入调制系数来自适应调整各模态的学习速率;然后,通过梯度均衡化策略,将单个模态的梯度损失作为正则项融入总损失来约束模态间梯度差异,进一步平衡各模态的学习过程;最后,实验结果表明在CREMA-D和RAVDESS数据集上,AGM-CR将分类准确率分别提高了2.5和3.3百分点,并在多次迭代中减小模型的梯度波动,表现出更高的训练稳定性和收敛速度。与现有的平衡方法相比,AGM-CR可即插即用,更具灵活性和通用性。