-
题名音频驱动的说话人面部视频生成与鉴别综述
- 1
-
-
作者
乐铮
胡永婷
徐勇
-
机构
哈尔滨工业大学(深圳)计算机科学与技术学院
深圳市视觉目标检测与判识重点实验室(哈尔滨工业大学(深圳))
-
出处
《计算机研究与发展》
北大核心
2025年第10期2523-2544,共22页
-
基金
国家自然科学基金项目(62371157)。
-
文摘
随着人工智能生成模型和深度伪造的迅速兴起,利用各种方法生成人脸说话视频的技术日益成熟,其中音频驱动的说话人面部视频生成方法因其生成效果的逼真自然而备受瞩目.该类方法利用音频作为驱动源,结合图片或视频素材,用以合成与输入音频口型同步的目标角色讲话视频.目前,相应的技术已经被广泛应用于虚拟主播、游戏动漫、影视剧制作等内容创作领域,并展现出广阔的发展前景.然而,这些技术的潜在负面影响也日益显现,若被不当利用或滥用,极有可能触发严重的政治和经济后果.背景下,针对面部伪造视频的鉴别研究应运而生,主要通过分析单视频帧的真实性或视频帧序列的时空一致性来评估视频的真实性.首先,依据时间脉络及基础模型的发展轨迹,系统性地剖析了音频驱动面部视频生成任务的经典算法与最新研究成果.其次,详尽列举了该任务领域内常用的数据集及评估标准,并从多个维度出发,对这些数据集与标准进行了全面深入的对比分析.紧接着,针对伪造面部视频鉴别任务,对鉴别技术所针对的对象(即单帧或多帧)进行了细致的分类与归纳,同时,也对其常用的数据集及评估标准进行了系统的总结与梳理.最后,展望了该研究领域面临的挑战与未来的发展方向,旨在为后续的相关研究提供有价值的参考与坚实的支撑.
-
关键词
深度学习
深度伪造
音频驱动
说话人面部视频生成
伪造脸部视频鉴别
-
Keywords
deep learning
deepfake
audio-driven
talking face video generation
forgery facial video identification
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-