-
题名基于时间卷积神经架构搜索的复杂动作识别
- 1
-
-
作者
任鹏真
梁小丹
常晓军
赵子莹
肖云
-
机构
鹏城实验室
暗物智能科技(广州)有限公司
中山大学智能工程学院
中国科学技术大学信息科学技术学院
西北大学信息科学与技术学院
-
出处
《计算机研究与发展》
北大核心
2025年第8期1862-1874,共13页
-
基金
国家科技重大专项基金项目(2020AAA0109704)
中国博士后科学基金项目(2023M734009)
+6 种基金
国家自然科学基金项目(62372371)
陕西省国际科技合作计划重点项目(2022KWZ-14)
广东省杰出青年科学基金项目(2021B1515020061)
深圳市科技计划项目(GJHZ20220913142600001)
南沙重点研发计划项目(2022ZD014)
鹏城实验室重大攻关项目(PCL2024AS101)
CAAI-华为MindSpore开放基金。
-
文摘
在视频的复杂动作识别领域中,模型的结构设计对其最终的性能起着至关重要的作用.然而,人工设计的网络结构往往严重依赖于研究人员的知识和经验.因此,神经架构搜索(neural architecture search,NAS)因其自动化的网络结构设计在图像处理领域受到研究人员的广泛关注.当前,神经架构搜索已经在图像领域获得了巨大的发展,一些NAS方法甚至将模型自动化设计所需的GPU天数减少到了个位数,并且其搜索的模型结构表现出了强大的竞争潜力,这鼓励将自动化模型结构设计拓展到视频领域.但它面临2个严峻的挑战:1)如何尽可能捕获视频中的长程上下文时间关联;2)如何尽可能降低3D卷积所带来的计算激增的问题.为了应对上述挑战,提出了一个基于时间卷积的神经架构搜索复杂动作识别(neural architecture search on temporal convolutions for complex action recognition,NAS-TC)模型.具体地,NAS-TC具有2个阶段:在第1阶段,采用经典的CNN网络作为骨干网络,来完成计算密集型的特征提取任务.在第2阶段,提出了一个神经架构搜索时间卷积层来完成相对轻量级的长程时间模型设计和信息提取.这确保了提出的方法具有更合理的参数分配并且可以处理分钟级的视频.最后,提出的方法在3个复杂动作识别基准数据集上与同类型方法相比平均获得了2.3个百分点的m AP的性能增益,并且参数量下降了28.5%.
-
关键词
复杂动作识别
神经架构搜索
卷积分解
视频理解
深度学习
-
Keywords
complex action recognition
neural architecture search
convolution decomposition
video understanding
deep learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-