-
题名多模态驱动情感可控的面部动画生成模型
- 1
-
-
作者
程忱
赵子康
董文静
黄桐
李一迪
-
机构
太原理工大学计算机科学与技术学院(大数据学院)
-
出处
《科学技术与工程》
北大核心
2025年第28期12120-12129,共10页
-
基金
国家自然科学基金(62403345)
中央引导地方科技发展资金(YDZJSX2024C004)。
-
文摘
近年来,面部动画生成技术已成为计算机视觉领域备受关注的方向之一,生成的面部动画在唇音同步质量、情感可控程度等方面均有不同程度的进展。然而,现有研究在生成面部表情时,不可避免地影响了唇部运动。为提高唇音同步的准确率,通过生成对抗网络方法研究多模态驱动情感可控模型。该模型由两个自定义的深度学习网络串联而成,在输入任意无表情目标肖像图片后,通过音频、文本、情感肖像图片3种模态数据的驱动,生成高质量唇音同步、情感可控的面部视频。在该过程中,文本特征对音频起到辅助预测唇部动作的作用,是提升唇音同步质量的关键步骤。结果表明:在MEAD数据集上,相较于现有面部动画生成方法MakeItTalk和情感感知运动模型(EAMM),所提模型的唇部特征坐标距离(L-LD)降低了5.93%和33.52%,面部特征坐标距离(F-LD)降低了7.00%和8.79%。可见,所提模型提高了唇音同步及情感可控的准确率。
-
关键词
深度学习
计算机视觉
生成对抗网络
面部动画生成技术
多模态
-
Keywords
deep learning
computer vision
generative adversarial networks
facial animation generation technique
multimodality
-
分类号
TP391.7
[自动化与计算机技术—计算机应用技术]
-