-
题名基于语言-视觉对比学习的多模态视频行为识别方法
被引量:3
- 1
-
-
作者
张颖
张冰冰
董微
安峰民
张建新
张强
-
机构
大连民族大学计算机科学与工程学院
大连民族大学机器智能与生物计算研究所
大连理工大学电子信息与电气工程学部
-
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2024年第2期417-430,共14页
-
基金
国家自然科学基金(61972062)
辽宁省应用基础研究计划(2023JH2/101300191)
国家民委中青年英才培养计划资助。
-
文摘
以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模态视频表达.具体地,在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM),首先,由视频采样帧的类别分词做线性变换得到虚拟帧分词;然后,对其进行基于时序卷积和虚拟帧分词移位的时序建模操作,有效建模视频中的时空变化信息;最后,在语言分支上设计视觉强化提示模块(Visual-reinforcement prompt module,VPM),通过注意力机制融合视觉编码器末端输出的类别分词和视觉分词所带有的视觉信息来获得经过视觉信息强化的语言表达.在4个公开视频数据集上的全监督实验和2个视频数据集上的小样本、零样本实验结果,验证了该多模态模型的有效性和泛化性.
-
关键词
视频行为识别
语言-视觉对比学习
多模态模型
时序建模
提示学习
-
Keywords
Video action recognition
language-visual contrastive learning
multi-modal model
temporal modeling
prompt learning
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-