-
题名基于多级空洞金字塔网络的视频指令学习框架
- 1
-
-
作者
朱展模
陈俊洪
杨振国
刘文印
-
机构
广东工业大学计算机学院
-
出处
《计算机应用与软件》
北大核心
2024年第5期118-125,146,共9页
-
基金
国家自然科学基金项目(91748107)
广东省基础与应用基础研究基金项目(2020A1515010616)
+1 种基金
广东省引进创新科研团队计划项目(2014ZT05G157)
广东省科技创新战略专项资金项目(pdjh2020a0173)。
-
文摘
为了从未修剪视频中生成操作指令,提出基于多级空洞金字塔网络(MS-APN)的视频指令学习框架。具体来说,使用空洞卷积金字塔模块捕捉视频多尺度动作特征,并采用多级网络结构优化分割结果,将未修剪视频分割成一系列视频片段并抽取动作特征。运用目标检测模型提取物体特征,并将其与动作特征进行融合,输入分类器识别主体和受体物体。通过定义指令四元组生成机器人指令。在MPII Cooking 2数据集上进行了实验,视频动作分割、操作物体分类、操作指令生成的准确率分别达到了84.1%、76.5%和62.4%,并成功将系统部署到Baxter机器人上进行验证。
-
关键词
视频指令学习
机器人指令生成
动作分割
空洞卷积
-
Keywords
Video commands learning
Robot commands generation
Action segmentation
Atrous convolution
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-