-
题名融合音频内容、风格和情感特征的人脸动画生成方法
- 1
-
-
作者
张欣茹
朱欣娟
高全力
-
机构
西安工程大学计算机科学学院
西安工程大学陕西省服装设计智能化重点实验室
西安工程大学新型网络智能信息服务国家地方联合工程研究中心
-
出处
《计算机应用研究》
北大核心
2025年第2期636-640,共5页
-
基金
陕西省重点研发计划资助项目(2024GX-YBXM-548)。
-
文摘
现有的音频驱动人脸动画技术主要注重唇部运动与音频的同步性,忽略了对人物面部表情或头部运动的再现能力。为此,提出了一种融合音频内容、风格和情感特征的高质量人脸动画生成方法(ACSEF)。首先,设计了情感动画模块(EAM),从音频中提取隐含的情感辅助特征来估计更加准确的面部情感标志位移,然后与语音内容和说话者风格动画的面部地标位移进行融合,提高landmarks(面部地标)预测的准确性和生动性。其次,设计了一个基于U-Net模型的注意力增强解码器(AADU),使得估计的地标与图像最终解码为逼真的包含唇音同步、头部运动和面部表情的理想视频帧。实验表明,该方法既能增强面部情感表达,又可使图像更加清晰,效果优于对比基线模型。
-
关键词
音频驱动
人脸动画
情感动画模块
注意力增强解码器
-
Keywords
audio driver
facial animation
emotional animation module
attention-augmented decoder
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-