期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
音频驱动的说话人面部视频生成与鉴别综述
1
作者
乐铮
胡永婷
徐勇
《计算机研究与发展》
北大核心
2025年第10期2523-2544,共22页
随着人工智能生成模型和深度伪造的迅速兴起,利用各种方法生成人脸说话视频的技术日益成熟,其中音频驱动的说话人面部视频生成方法因其生成效果的逼真自然而备受瞩目.该类方法利用音频作为驱动源,结合图片或视频素材,用以合成与输入音...
随着人工智能生成模型和深度伪造的迅速兴起,利用各种方法生成人脸说话视频的技术日益成熟,其中音频驱动的说话人面部视频生成方法因其生成效果的逼真自然而备受瞩目.该类方法利用音频作为驱动源,结合图片或视频素材,用以合成与输入音频口型同步的目标角色讲话视频.目前,相应的技术已经被广泛应用于虚拟主播、游戏动漫、影视剧制作等内容创作领域,并展现出广阔的发展前景.然而,这些技术的潜在负面影响也日益显现,若被不当利用或滥用,极有可能触发严重的政治和经济后果.背景下,针对面部伪造视频的鉴别研究应运而生,主要通过分析单视频帧的真实性或视频帧序列的时空一致性来评估视频的真实性.首先,依据时间脉络及基础模型的发展轨迹,系统性地剖析了音频驱动面部视频生成任务的经典算法与最新研究成果.其次,详尽列举了该任务领域内常用的数据集及评估标准,并从多个维度出发,对这些数据集与标准进行了全面深入的对比分析.紧接着,针对伪造面部视频鉴别任务,对鉴别技术所针对的对象(即单帧或多帧)进行了细致的分类与归纳,同时,也对其常用的数据集及评估标准进行了系统的总结与梳理.最后,展望了该研究领域面临的挑战与未来的发展方向,旨在为后续的相关研究提供有价值的参考与坚实的支撑.
展开更多
关键词
深度学习
深度伪造
音频驱动
说话人面部视频生成
伪造脸部视频鉴别
在线阅读
下载PDF
职称材料
真实复杂场景下基于残差收缩网络的单幅图像超分辨率方法
被引量:
1
2
作者
李颖
黄超
+1 位作者
孙成栋
徐勇
《计算机应用》
CSCD
北大核心
2023年第12期3903-3910,共8页
真实世界中极少存在成对的高低分辨率图像对,传统的基于图像对训练模型的单幅图像超分辨率(SR)方法采用合成数据集的方式得到训练集时仅考虑了双线性下采样退化,且传统图像超分辨率方法在面向真实的未知退化图像时重建效果较差。针对上...
真实世界中极少存在成对的高低分辨率图像对,传统的基于图像对训练模型的单幅图像超分辨率(SR)方法采用合成数据集的方式得到训练集时仅考虑了双线性下采样退化,且传统图像超分辨率方法在面向真实的未知退化图像时重建效果较差。针对上述问题,提出一种面向真实复杂场景的图像超分辨率方法。首先,采用不同焦距对景物进行拍摄并配准得到相机采集的真实高低分辨率图像对,构建一个场景多样的数据集CSR(Camera Super-Resolution dataset);其次,为了尽可能地模拟真实世界中的图像退化过程,根据退化因素参数随机化和非线性组合退化改进图像退化模型,并且结合高低分辨率图像对数据集和图像退化模型以合成训练集;最后,由于数据集中考虑了退化因素,引入残差收缩网络和U-Net改进基准模型,尽可能地减少退化因素在特征空间中的冗余信息。实验结果表明,所提方法在复杂退化条件下相较于次优BSRGAN(Blind Super-Resolution Generative Adversarial Network)方法,在RealSR和CSR测试集中PSNR指标分别提高了0.7 dB和0.14 dB,而SSIM分别提高了0.001和0.031。所提方法在复杂退化数据集上的客观指标和视觉效果均优于现有方法。
展开更多
关键词
超分辨率
复杂场景
图像退化模型
残差收缩网络
在线阅读
下载PDF
职称材料
题名
音频驱动的说话人面部视频生成与鉴别综述
1
作者
乐铮
胡永婷
徐勇
机构
哈尔滨工业大学
(
深圳
)计算机科学与技术学院
深圳市
视觉
目标
检测与
判
识
重点
实验室
(
哈尔滨工业大学
(
深圳
))
出处
《计算机研究与发展》
北大核心
2025年第10期2523-2544,共22页
基金
国家自然科学基金项目(62371157)。
文摘
随着人工智能生成模型和深度伪造的迅速兴起,利用各种方法生成人脸说话视频的技术日益成熟,其中音频驱动的说话人面部视频生成方法因其生成效果的逼真自然而备受瞩目.该类方法利用音频作为驱动源,结合图片或视频素材,用以合成与输入音频口型同步的目标角色讲话视频.目前,相应的技术已经被广泛应用于虚拟主播、游戏动漫、影视剧制作等内容创作领域,并展现出广阔的发展前景.然而,这些技术的潜在负面影响也日益显现,若被不当利用或滥用,极有可能触发严重的政治和经济后果.背景下,针对面部伪造视频的鉴别研究应运而生,主要通过分析单视频帧的真实性或视频帧序列的时空一致性来评估视频的真实性.首先,依据时间脉络及基础模型的发展轨迹,系统性地剖析了音频驱动面部视频生成任务的经典算法与最新研究成果.其次,详尽列举了该任务领域内常用的数据集及评估标准,并从多个维度出发,对这些数据集与标准进行了全面深入的对比分析.紧接着,针对伪造面部视频鉴别任务,对鉴别技术所针对的对象(即单帧或多帧)进行了细致的分类与归纳,同时,也对其常用的数据集及评估标准进行了系统的总结与梳理.最后,展望了该研究领域面临的挑战与未来的发展方向,旨在为后续的相关研究提供有价值的参考与坚实的支撑.
关键词
深度学习
深度伪造
音频驱动
说话人面部视频生成
伪造脸部视频鉴别
Keywords
deep learning
deepfake
audio-driven
talking face video generation
forgery facial video identification
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
真实复杂场景下基于残差收缩网络的单幅图像超分辨率方法
被引量:
1
2
作者
李颖
黄超
孙成栋
徐勇
机构
哈尔滨工业大学
(
深圳
)计算机科学与技术学院
深圳市
视觉
目标
检测与
判
识
重点
实验室
(
哈尔滨工业大学
(
深圳
))
出处
《计算机应用》
CSCD
北大核心
2023年第12期3903-3910,共8页
基金
国家自然科学基金资助项目(61876051)
深圳市科创委资助项目(JSGG20220831104402004)。
文摘
真实世界中极少存在成对的高低分辨率图像对,传统的基于图像对训练模型的单幅图像超分辨率(SR)方法采用合成数据集的方式得到训练集时仅考虑了双线性下采样退化,且传统图像超分辨率方法在面向真实的未知退化图像时重建效果较差。针对上述问题,提出一种面向真实复杂场景的图像超分辨率方法。首先,采用不同焦距对景物进行拍摄并配准得到相机采集的真实高低分辨率图像对,构建一个场景多样的数据集CSR(Camera Super-Resolution dataset);其次,为了尽可能地模拟真实世界中的图像退化过程,根据退化因素参数随机化和非线性组合退化改进图像退化模型,并且结合高低分辨率图像对数据集和图像退化模型以合成训练集;最后,由于数据集中考虑了退化因素,引入残差收缩网络和U-Net改进基准模型,尽可能地减少退化因素在特征空间中的冗余信息。实验结果表明,所提方法在复杂退化条件下相较于次优BSRGAN(Blind Super-Resolution Generative Adversarial Network)方法,在RealSR和CSR测试集中PSNR指标分别提高了0.7 dB和0.14 dB,而SSIM分别提高了0.001和0.031。所提方法在复杂退化数据集上的客观指标和视觉效果均优于现有方法。
关键词
超分辨率
复杂场景
图像退化模型
残差收缩网络
Keywords
Super-Resolution(SR)
complex scene
image degradation model
residual shrinkage network
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
音频驱动的说话人面部视频生成与鉴别综述
乐铮
胡永婷
徐勇
《计算机研究与发展》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
真实复杂场景下基于残差收缩网络的单幅图像超分辨率方法
李颖
黄超
孙成栋
徐勇
《计算机应用》
CSCD
北大核心
2023
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部