期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
大语言模型知识引导的开放域多标签动作识别
1
作者 朱荣江 石语珩 +2 位作者 杨硕 王子奕 吴心筱 《计算机研究与发展》 北大核心 2025年第8期1875-1883,共9页
开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别.相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景.然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别.为了... 开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别.相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景.然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别.为了解决此问题,提出大语言模型知识引导的开放域多标签动作识别方法.该方法挖掘大语言模型蕴含的丰富的动作类别共现知识,并将共现知识嵌入视觉-语言模型的提示学习,实现基本动作类别(base action classes)与新动作类别(novel action classes)之间的信息传递,从而提升新类别的识别性能.在实验中将基本动作类别和新动作类别的比例设置为3∶1和1∶1,分别表示为“75%可见”和“50%可见”.在AVA和Movie Net数据集上的实验结果表明,相较于现有方法,当基本动作类别为“75%”时,该方法在2个数据集的新动作类别识别指标m AP上分别提升了1.95个百分点和1.21个百分点;当面临基本动作类别为“50%”的更困难场景时,提出的方法在这2个数据集上新动作类别识别指标m AP上分别提升了2.59个百分点和1.06个百分点. 展开更多
关键词 开放域动作识别 多标签分类 提示学习 大语言模型 CLIP模型
在线阅读 下载PDF
指令驱动的虚拟角色风格化动作生成
2
作者 梁玮 黄一帆 +1 位作者 沈雨欣 程杞元 《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第11期1199-1207,共9页
复杂场景下,指令驱动的动作生成任务存在着指令理解不准确、生成的动作与指令任务不相关等挑战.为了解决这个问题,提出了一种方法框架,通过结合指令和场景信息,风格化生成虚拟角色的动作.该方法框架分为指令解析和动作生成两个部分.方... 复杂场景下,指令驱动的动作生成任务存在着指令理解不准确、生成的动作与指令任务不相关等挑战.为了解决这个问题,提出了一种方法框架,通过结合指令和场景信息,风格化生成虚拟角色的动作.该方法框架分为指令解析和动作生成两个部分.方法首先预定义了一组有限的原子动作集合,在指令解析部分运用大模型,将文本指令解析成由原子动作组成的子任务,在动作生成部分,基于条件变分自编码器(conditional variational autoencoder,cVAE)设计了一个逐帧动作生成网络.在动作生成阶段,考虑不同的风格特征,例如角色的高矮胖瘦等属性和文本指令描述的开心、难过等特征,实现风格化动作生成任务.在卧室、公园、客厅和厨房等4个场景中进行了定性实验和用户研究,证明了方法的有效性、动作的真实性和风格的多样性. 展开更多
关键词 动作生成 指令驱动 风格化 动画
在线阅读 下载PDF
上下文建模与推理的视频异常事件检测
3
作者 孙澈 武玉伟 贾云得 《计算机学报》 EI CAS CSCD 北大核心 2024年第10期2368-2386,共19页
视频异常事件检测旨在从视频中自动地检测出不符合正常事件规律的视频事件.视频中许多正常和异常的事件是由目标与场景或其它目标交互而产生的,即它们是以目标为中心且高度上下文相关的.如何从底层的视频特征中提取事件高层语义上下文信... 视频异常事件检测旨在从视频中自动地检测出不符合正常事件规律的视频事件.视频中许多正常和异常的事件是由目标与场景或其它目标交互而产生的,即它们是以目标为中心且高度上下文相关的.如何从底层的视频特征中提取事件高层语义上下文信息,并根据上下文信息进行视频异常事件检测仍是一个开放的难题.为此,本文提出了一种新的上下文建模与推理的视频异常事件检测方法.本文方法通过建立视频的上下文图,自动地推理事件相关的语义上下文信息,以缩小底层视觉特征与异常事件高层语义之间的差距,实现异常事件检测.具体来说,首先使用了预训练的目标检测网络,提取目标初始的表观特征、目标之间的时空关系特征和场景特征;其次设计了一个上下文图推理模块,通过建模时空上下文图,将提取到的特征显式地建模为三类语义上下文,包括事件目标的个体行为、不同目标之间的时空关系以及目标与场景之间的交互,其中图的节点表示目标/场景,图的边表示时空关系;最后构建了一个异常预测模块,根据推理到的语义上下文信息进行异常事件检测.本文的上下文图推理模块基于平均场理论,通过使用多个带有消息传递模块的循环神经网络,迭代更新图的节点和边的状态,目的是从底层的视觉特征中推理得到高层的语义上下文.本文的异常预测模块包括注意力池化网络层和全连接网络层,通过输入语义上下文信息,计算视频帧的异常分数,从而正确地进行异常事件检测.实验中,设计了一个自训练策略,分别使用了无监督、半监督、弱监督和监督四种训练策略,以端到端的方式训练时空上下文图推理模块和异常预测模块.本文方法在四个公开的数据集上进行了实验,包括三个半监督的数据集Subway (Entrance/Exit)、Avenue和ShanghaiTech,以及一个监督的数据集UCF-Crime.与不使用上下文的方法相比,本文方法在Subway(Entrance/Exit)、Avenue和ShanghaiTech数据集上的无监督AUC指标分别提高了2.7%/3.1%、2.0%和2.9%,半监督AUC指标分别提高了3.5%/3.3%、4.0%和4.3%.在监督数据集UCF-Crime上,与没有使用上下文的方法相比,本文方法在半监督AUC、弱监督AUC和监督AUC的指标上分别提高了2.1%、0.4%和9.2%,取得了有竞争力的表现. 展开更多
关键词 异常事件检测 上下文建模与推理 上下文图 自训练策略 深度学习
在线阅读 下载PDF
混合曲率空间中的几何自适应元学习方法
4
作者 高志 武玉伟 贾云得 《计算机学报》 EI CAS CSCD 北大核心 2024年第10期2289-2306,共18页
元学习通过学习先验知识,能帮助模型快速适应新任务.在适应新任务的过程中,空间几何结构与数据几何结构的匹配程度对模型泛化起着重要作用.现实世界数据具有多样的非欧几何结构,例如自然语言具有非欧层级结构,人脸图像具有非欧环状结构... 元学习通过学习先验知识,能帮助模型快速适应新任务.在适应新任务的过程中,空间几何结构与数据几何结构的匹配程度对模型泛化起着重要作用.现实世界数据具有多样的非欧几何结构,例如自然语言具有非欧层级结构,人脸图像具有非欧环状结构等.已有研究表明,真实数据的非欧结构同黎曼流形的几何结构相匹配,从理论上提供了利用黎曼流形来建模数据的可行性.本文提出了混合曲率空间(mixed-curvature space)中的几何自适应元学习方法,利用多个混合曲率空间来表示数据,并生成与数据非欧结构相匹配的黎曼几何.本文构建了多混合曲率神经网络,将混合曲率空间的几何结构表示为曲率空间的曲率、数量和维度,由此通过梯度下降过程实现对数据非欧结构的几何自适应.本文进一步引入几何初始化生成策略和几何更新策略,通过少数几步迭代,空间几何结构即可快速匹配数据非欧结构,加速了梯度下降过程.本文在小样本分类和小样本回归等任务上进行了实验验证.与欧氏空间的元学习方法相比,本文方法在小样本分类任务上取得了约3%的准确率提升,在小样本回归任务上将均方误差减少了一半,验证了本文方法的有效性. 展开更多
关键词 元学习 几何自适应 混合曲率空间 黎曼流形
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部