期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
参数高效化微调的双分支视频动作识别方法
1
作者 王小伟 沈燕飞 邢庆君 《河南理工大学学报(自然科学版)》 北大核心 2025年第4期21-28,共8页
目的面向视频的AI智慧体育对于个性化训练、定制化运动分析具有重要的现实价值。现有的视频动作分析框架依赖于“预训练-微调”的范式将图像预训练模型迁移到视频时序建模中,然而,随着模型尺寸和预训练规模的不断扩大,一方面直接微调需... 目的面向视频的AI智慧体育对于个性化训练、定制化运动分析具有重要的现实价值。现有的视频动作分析框架依赖于“预训练-微调”的范式将图像预训练模型迁移到视频时序建模中,然而,随着模型尺寸和预训练规模的不断扩大,一方面直接微调需更新全部参数导致计算成本高昂,另一方面难以基于图像大模型实现视频时空特征的建模。方法为此,提出一种基于大规模图像预训练模型的双分支视频动作识别框架TBN(two branch network),其包含时空解耦的双分支架构,分别处理静态背景特征和时序动态动作特征。在迁移中,预训练权重保持冻结,仅通过对额外增加的Prompt和Adaptor中的少量参数进行训练,实现从图像预训练模型到视频时序建模的参数高效化迁移。此外,针对现有基准数据集在高速运动场景的不足,构建一个大规模体育运动数据集Kinetics-Sports,包含42个运动类别(含篮球、滑冰、跨栏等),提供更严格的测试基准。结果在Kinetics-Sports,UCF101和HDBM51数据集上的实验结果表明,提出的方法在3个数据集上的识别准确率分别达到97.8%,78.0%,74.2%,优于目前几个数据集上最先进的方法,且参数量仅有12 MB,计算复杂度低于现有主流算法。结论提出的模型在精度-效率方面取得了更好的平衡,提升了体育运动动作检测的准确率和推理效率,为视觉大模型视频迁移提供了高效解决方案。 展开更多
关键词 视频动作识别 预训练模型 参数高效化微调 双分支网络 时空建模
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部