-
题名基于时序感知潜在扩散模型的人体交互动作生成
- 1
-
-
作者
石旭
孙运莲
骆岩林
张鸿文
-
机构
南京理工大学计算机科学与工程学院
北京师范大学人工智能学院
-
出处
《计算机学报》
北大核心
2025年第9期2226-2240,共15页
-
基金
国家自然科学基金面上项目(62476131,62076131,62377004)
中央高校基本科研业务费项目(2233100028)资助。
-
文摘
近年来,人体动作生成在计算机视觉和计算机图形学领域受到了广泛关注。随着需求的增加,人体交互动作生成逐渐成为一个新的研究热点。然而,相较于单人动作生成,人体交互动作生成尚处于起步阶段,尤其是在生成复杂的交互动作方面。虽然基于文本条件的人体交互动作生成方法在生成符合文本描述的高质量人体交互动作方面已取得一定进展,但现有方法大多在原始动作序列上进行生成模型的学习,导致生成速度较慢。此外,它们普遍沿用对比语言-图像预训练(Contrastive Language-Image Pretraining,CLIP)模型的文本编码器作为动作生成模型的语言指导,这导致动作生成模型缺乏对动作的时序感知,影响了生成动作的质量。为了解决这些问题,针对人体交互动作生成,本文提出一种人体交互动作潜在扩散模型(Human interaction Latent Diffusion Model,HiLDM)。该扩散模型通过在学习到的人体交互动作序列潜在空间中进行去噪,大幅提升生成速度。同时,采用人体交互时序感知文本编码器(Temporal-aware Text Encoder,TTE)作为语言指导,使生成动作更具时序一致性。实验结果表明,在InterHuman数据集上的评估中,所提方法在生成速度和生成质量方面优于现有人体交互动作生成方法,生成速度比ComMDM快57倍,比InterGen快4倍;FID指标比ComMDM改善了36.7%,比InterGen改善了1.7%。
-
关键词
潜在扩散模型
人体动作生成
人体交互动作生成
人工智能生成内容
-
Keywords
latent diffusion model
human motion generation
human interaction generation
AIGC
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-