-
题名基于连续帧信息融合建模的小样本视频行为识别方法
- 1
-
-
作者
张冰冰
李海波
马源晨
张建新
-
机构
大连民族大学计算机科学与工程学院
-
出处
《河南理工大学学报(自然科学版)》
北大核心
2025年第4期11-20,共10页
-
基金
国家自然科学基金资助项目(61972062)
吉林省科技发展计划项目(20230201111GX)
+1 种基金
辽宁省应用基础研究计划项目(2023JH2/101300191,2023JH2/101300193)
先进设计与智能计算省部共建教育部重点实验室开放课题(ADIC2023ZD003)。
-
文摘
目的为克服现有基于小样本学习的视频行为识别方法在全局时空信息获取及复杂行为建模方面的局限,开发一种新型网络架构,以显著提升小样本学习在视频行为识别中的准确性和鲁棒性。方法提出一种结合连续帧信息融合模块和多维注意力建模模块的网络架构。连续帧信息融合模块位于网络的输入端,多维注意力建模模块则设置在网络的中间层,整个网络基于2D卷积模型设计,可有效降低计算复杂度。结果在Something-Something V2,Kinetics-100,UCF101和HMDB51共4个主流行为识别数据集上进行实验,结果表明,所提方法在Something-Something V2数据集上的1-shot和5-shot任务中准确率分别达到50.8%和68.5%;在Kinetics-100数据集上,所提方法的1-shot和5-shot任务准确率分别为68.5%和83.8%,比现有方法显著提升;在UCF101数据集上,本文方法的1-shot任务准确率为81.3%,5-shot任务准确率为93.8%,在不同配置下均显著优于基线方法的;在HMDB51数据集上,1-shot任务的准确率为56.0%,5-shot任务的准确率为74.4%,展现了良好的泛化性能。结论连续帧信息融合建模网络在提高模型对复杂时空信息处理能力方面表现出显著优势,本文解决方案为小样本视频行为识别领域带来了有效的新方法,且具有高效性和实用性。
-
关键词
小样本学习
视频行为识别
时空建模
时空表征学习
连续帧信息
-
Keywords
few-shot learning
video action recognition
spatiotemporal modeling
spatiotemporal representation learning
continuous frame information
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-