-
题名参数高效化微调的双分支视频动作识别方法
- 1
-
-
作者
王小伟
沈燕飞
邢庆君
-
机构
郑州大学体育学院体育大数据中心
北京体育大学体育工程学院
-
出处
《河南理工大学学报(自然科学版)》
北大核心
2025年第4期21-28,共8页
-
基金
国家自然科学基金资助项目(72071018)
河南省科技攻关计划项目(212102310264)。
-
文摘
目的面向视频的AI智慧体育对于个性化训练、定制化运动分析具有重要的现实价值。现有的视频动作分析框架依赖于“预训练-微调”的范式将图像预训练模型迁移到视频时序建模中,然而,随着模型尺寸和预训练规模的不断扩大,一方面直接微调需更新全部参数导致计算成本高昂,另一方面难以基于图像大模型实现视频时空特征的建模。方法为此,提出一种基于大规模图像预训练模型的双分支视频动作识别框架TBN(two branch network),其包含时空解耦的双分支架构,分别处理静态背景特征和时序动态动作特征。在迁移中,预训练权重保持冻结,仅通过对额外增加的Prompt和Adaptor中的少量参数进行训练,实现从图像预训练模型到视频时序建模的参数高效化迁移。此外,针对现有基准数据集在高速运动场景的不足,构建一个大规模体育运动数据集Kinetics-Sports,包含42个运动类别(含篮球、滑冰、跨栏等),提供更严格的测试基准。结果在Kinetics-Sports,UCF101和HDBM51数据集上的实验结果表明,提出的方法在3个数据集上的识别准确率分别达到97.8%,78.0%,74.2%,优于目前几个数据集上最先进的方法,且参数量仅有12 MB,计算复杂度低于现有主流算法。结论提出的模型在精度-效率方面取得了更好的平衡,提升了体育运动动作检测的准确率和推理效率,为视觉大模型视频迁移提供了高效解决方案。
-
关键词
视频动作识别
预训练模型
参数高效化微调
双分支网络
时空建模
-
Keywords
video action recognition
pre-training model
high efficient parameter fine-tuning
two-branch network
space-time modeling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-