期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
大语言模型知识引导的开放域多标签动作识别
1
作者 朱荣江 石语珩 +2 位作者 杨硕 王子奕 吴心筱 《计算机研究与发展》 北大核心 2025年第8期1875-1883,共9页
开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别.相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景.然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别.为了... 开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别.相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景.然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别.为了解决此问题,提出大语言模型知识引导的开放域多标签动作识别方法.该方法挖掘大语言模型蕴含的丰富的动作类别共现知识,并将共现知识嵌入视觉-语言模型的提示学习,实现基本动作类别(base action classes)与新动作类别(novel action classes)之间的信息传递,从而提升新类别的识别性能.在实验中将基本动作类别和新动作类别的比例设置为3∶1和1∶1,分别表示为“75%可见”和“50%可见”.在AVA和Movie Net数据集上的实验结果表明,相较于现有方法,当基本动作类别为“75%”时,该方法在2个数据集的新动作类别识别指标m AP上分别提升了1.95个百分点和1.21个百分点;当面临基本动作类别为“50%”的更困难场景时,提出的方法在这2个数据集上新动作类别识别指标m AP上分别提升了2.59个百分点和1.06个百分点. 展开更多
关键词 开放域动作识别 多标签分类 提示学习 大语言模型 CLIP模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部