期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
音频驱动的说话人面部视频生成与鉴别综述
1
作者 乐铮 胡永婷 徐勇 《计算机研究与发展》 北大核心 2025年第10期2523-2544,共22页
随着人工智能生成模型和深度伪造的迅速兴起,利用各种方法生成人脸说话视频的技术日益成熟,其中音频驱动的说话人面部视频生成方法因其生成效果的逼真自然而备受瞩目.该类方法利用音频作为驱动源,结合图片或视频素材,用以合成与输入音... 随着人工智能生成模型和深度伪造的迅速兴起,利用各种方法生成人脸说话视频的技术日益成熟,其中音频驱动的说话人面部视频生成方法因其生成效果的逼真自然而备受瞩目.该类方法利用音频作为驱动源,结合图片或视频素材,用以合成与输入音频口型同步的目标角色讲话视频.目前,相应的技术已经被广泛应用于虚拟主播、游戏动漫、影视剧制作等内容创作领域,并展现出广阔的发展前景.然而,这些技术的潜在负面影响也日益显现,若被不当利用或滥用,极有可能触发严重的政治和经济后果.背景下,针对面部伪造视频的鉴别研究应运而生,主要通过分析单视频帧的真实性或视频帧序列的时空一致性来评估视频的真实性.首先,依据时间脉络及基础模型的发展轨迹,系统性地剖析了音频驱动面部视频生成任务的经典算法与最新研究成果.其次,详尽列举了该任务领域内常用的数据集及评估标准,并从多个维度出发,对这些数据集与标准进行了全面深入的对比分析.紧接着,针对伪造面部视频鉴别任务,对鉴别技术所针对的对象(即单帧或多帧)进行了细致的分类与归纳,同时,也对其常用的数据集及评估标准进行了系统的总结与梳理.最后,展望了该研究领域面临的挑战与未来的发展方向,旨在为后续的相关研究提供有价值的参考与坚实的支撑. 展开更多
关键词 深度学习 深度伪造 音频驱动 说话人面部视频生成 伪造脸部视频鉴别
在线阅读 下载PDF
真实复杂场景下基于残差收缩网络的单幅图像超分辨率方法 被引量:1
2
作者 李颖 黄超 +1 位作者 孙成栋 徐勇 《计算机应用》 CSCD 北大核心 2023年第12期3903-3910,共8页
真实世界中极少存在成对的高低分辨率图像对,传统的基于图像对训练模型的单幅图像超分辨率(SR)方法采用合成数据集的方式得到训练集时仅考虑了双线性下采样退化,且传统图像超分辨率方法在面向真实的未知退化图像时重建效果较差。针对上... 真实世界中极少存在成对的高低分辨率图像对,传统的基于图像对训练模型的单幅图像超分辨率(SR)方法采用合成数据集的方式得到训练集时仅考虑了双线性下采样退化,且传统图像超分辨率方法在面向真实的未知退化图像时重建效果较差。针对上述问题,提出一种面向真实复杂场景的图像超分辨率方法。首先,采用不同焦距对景物进行拍摄并配准得到相机采集的真实高低分辨率图像对,构建一个场景多样的数据集CSR(Camera Super-Resolution dataset);其次,为了尽可能地模拟真实世界中的图像退化过程,根据退化因素参数随机化和非线性组合退化改进图像退化模型,并且结合高低分辨率图像对数据集和图像退化模型以合成训练集;最后,由于数据集中考虑了退化因素,引入残差收缩网络和U-Net改进基准模型,尽可能地减少退化因素在特征空间中的冗余信息。实验结果表明,所提方法在复杂退化条件下相较于次优BSRGAN(Blind Super-Resolution Generative Adversarial Network)方法,在RealSR和CSR测试集中PSNR指标分别提高了0.7 dB和0.14 dB,而SSIM分别提高了0.001和0.031。所提方法在复杂退化数据集上的客观指标和视觉效果均优于现有方法。 展开更多
关键词 超分辨率 复杂场景 图像退化模型 残差收缩网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部