-
题名基于时空信息辅助监督的语言-视频对比学习模型
- 1
-
-
作者
张冰冰
张建新
李培华
-
机构
大连民族大学计算机科学与工程学院
大连理工大学信息与通信工程学院
-
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2024年第8期1769-1785,共17页
-
基金
国家自然科学基金(61971086、61972062)
吉林省科技厅科技发展计划项目(20230201111GX)
辽宁省应用基础研究计划项目(2023JH2/101300191、2023JH2/101300193)资助。
-
文摘
同时使用语言和图像两种模态信息的神经网络模型在计算机视觉领域取得了很大进展.一些将其用于视频识别任务的工作,存在未考虑视频中丰富的时间-空间信息、用于描述类别的文本过于简单等不足.对此,本文提出了基于时空辅助信息监督的语言-视频对比学习模型.对于视频编码,提出了基于类别词元的时序加权位移模块进行时序建模,使得时序信息在网络从底层到高层的各个层次传播;而且还提出了时空信息辅助监督模块,深入挖掘视觉词元中蕴含的丰富时空信息.对于语言编码,提出了一种基于大语言模型的提示学习方法,对行为类别文本描述进行扩展,生成具有丰富上下文语义信息的文本描述.实验部分,本文提出的模型在4个视频行为识别数据集mini-Kinetics-200、Kinetics-400、UCF101和HMDB51上,达到了优于当前最先进方法或与当前最先进方法识别准确率相当的水平,比基线方法的识别准确率分别提升了2.5%、0.3%、0.6%和2.4%.
-
关键词
行为识别
多模态模型
时序建模
时空信息辅助监督
提示学习
-
Keywords
action recognition
multimodal model
temporal modeling
spatio-temporal information auxiliary supervision
prompt learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-