测试时适应(test time adaptation, TTA)旨在在模型部署后的测试阶段,通过无标注或少量标注的在线微调策略来动态校正模型,以应对由于分布偏移、传感器噪声、光照变化等引发的性能退化问题,并在自动驾驶、远程医疗、视频监控等对实时性...测试时适应(test time adaptation, TTA)旨在在模型部署后的测试阶段,通过无标注或少量标注的在线微调策略来动态校正模型,以应对由于分布偏移、传感器噪声、光照变化等引发的性能退化问题,并在自动驾驶、远程医疗、视频监控等对实时性和鲁棒性要求极高的领域展现出广泛应用价值.然而,现有多模态TTA方法往往忽视各视图数据的质量差异,容易因低质量或故障视图引入有害梯度,且缺乏对视图内部动态变化的刻画,难以保持时序特征的一致性和稳定性.为解决上述挑战,提出了一种置信度引导的视图裁剪与时序对比注意力(confidence-guided view pruning and temporal contrastive attention, CVPTA)框架.该框架包含三大模块:首先,基于模型预测分布计算视图不确定性,自适应削弱低置信度视图数据对特征融合的干扰;其次,视图裁剪策略利用Laplacian方差与亮度直方图偏度评估图像质量,丢弃质量分数低于阈值的视图数据,并结合相邻高质量视图重采样,显著降低噪声累积风险;最后,时序对比自监督任务将同一样本的不同视图视为正样本而非同一样本视图视为负样本,通过对比损失强化时序特征一致性.在Kinetics-50-C与VGGSound-C两个公开多模态扰动基准上,沿用先前实验配置进行在线更新评测.结果显示,CVPTA在2组基准上分别将Top-1准确率提升约2.3个百分点和0.7个百分点,在极端噪声场景中依然保持超过0.2%的性能增益;消融研究进一步验证了各模块的独立贡献与协同效应.该方法无需额外标注,可无缝集成现有多模态系统,兼具高效性与鲁棒性,具有重要的理论意义与工程应用前景.展开更多