-
题名基于类别共享与独有信息双向融合的多类别姿态估计
- 1
-
-
作者
陈俊杰
陈卫龙
方玉明
姜文晖
牛力
-
机构
江西财经大学计算机与人工智能学院
上海交通大学电子信息与电气工程学院
-
出处
《计算机学报》
北大核心
2025年第8期1795-1811,共17页
-
基金
国家自然科学基金(No.U24A20220,No.62132006,No.62402201,No.62161013)
国家重点研发计划(No.2023YFE0210700)
+1 种基金
江西省自然科学基金(No.20242BAB21006,No.20242BAB23012)
江西省职业早期青年科技人才培养专项项目(No.20244BCE52070)资助。
-
文摘
姿态估计旨在定位物体各关键点的位置,是一项基本的计算机视觉任务,具有广泛的应用场景。现有方法聚焦于估计单一类别物体的姿态(如人体),无法较好地用单个模型为多个类别的物体估计姿态。鉴于分类、检测、分割等模型都可为多类别预测结果,从单类别拓宽到多类别是姿态估计领域的必然发展趋势。因此,本文研究多类别姿态估计,其关键问题在于如何融合类别之间的共享信息与独有信息,使得单个模型可较好地兼容多个类别的信息。为此,本文提出基于共享与独有信息双向融合的Transformer模型,其中依据匹配关系对两种信息进行自适应融合。具体地,本模型使用可学习的查询向量来表征各类关键点的共享和独有信息,并用初始和精化两个阶段来逐步估计关键点位置。在初始阶段中,共享查询向量通过Transformer解码器来聚合图像骨干特征图中的共享信息,并预测得到关键点的初始位置和物体的类别。在精化阶段中,本模型依据共享查询向量与该类别关键点的匹配关系,将查询向量与该类别的独有查询向量进行前向融合,并将初始位置精化为准确位置。并且,本模型将更新后的独有查询向量储存到队列中,并依据匹配关系将其反向融合到共享查询向量中,可更有效地提炼共享信息。本文在多类别姿态数据集MP-100上进行了大量实验,其中的定量和定性分析都充分证明了本方法的有效性。
-
关键词
姿态估计
多类别
基于查询的模型
信息解耦
多头注意力模型
-
Keywords
pose estimation
multi-class
query-based model
information disentangling
Transformer
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-