-
题名大语言模型知识引导的开放域多标签动作识别
- 1
-
-
作者
朱荣江
石语珩
杨硕
王子奕
吴心筱
-
机构
北京理工大学计算机学院
智能信息技术北京市重点实验室(北京理工大学)
深圳北理莫斯科大学
广东省智能感知与计算重点实验室(深圳北理莫斯科大学)
-
出处
《计算机研究与发展》
北大核心
2025年第8期1875-1883,共9页
-
文摘
开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别.相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景.然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别.为了解决此问题,提出大语言模型知识引导的开放域多标签动作识别方法.该方法挖掘大语言模型蕴含的丰富的动作类别共现知识,并将共现知识嵌入视觉-语言模型的提示学习,实现基本动作类别(base action classes)与新动作类别(novel action classes)之间的信息传递,从而提升新类别的识别性能.在实验中将基本动作类别和新动作类别的比例设置为3∶1和1∶1,分别表示为“75%可见”和“50%可见”.在AVA和Movie Net数据集上的实验结果表明,相较于现有方法,当基本动作类别为“75%”时,该方法在2个数据集的新动作类别识别指标m AP上分别提升了1.95个百分点和1.21个百分点;当面临基本动作类别为“50%”的更困难场景时,提出的方法在这2个数据集上新动作类别识别指标m AP上分别提升了2.59个百分点和1.06个百分点.
-
关键词
开放域动作识别
多标签分类
提示学习
大语言模型
CLIP模型
-
Keywords
open-vocabulary action recognition
multi-label classification
prompt learning
large language model
CLIP model
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-