- 
                题名音频驱动人脸图像生成综述
            
- 1
- 
                
            
- 
                
                            作者
                                胡原平
                                阎红灿
                
            
- 
                    机构
                    
                            华北理工大学理学院
                            河北省数据科学与应用重点实验室
                    
                
- 
                出处
                
                
                    《计算机工程与应用》
                    
                            北大核心
                    
                2025年第17期33-46,共14页
            
- 
                        基金
                        
                                    河北省高等教育实践项目(2023GJJG226)
                                    华北理工大学重点项目(医工融合领域)(ZD-YG-202316)。
                        
                    
- 
                    文摘
                        音频驱动的人脸图像生成技术旨在通过输入音频和静态图像(或视频)生成对应的动态说话视频,在虚拟角色交互、数字媒体创作、游戏开发等多个领域展现出显著的应用潜力,具有广阔的研究前景和重要的研究价值。在分类分析常用的音频特征提取方法、中间表示方法和特征融合方法的基础上,对基于生成对抗网络、神经辐射场和扩散模型的音频驱动人脸解决方案做总结概述,通过分析各方案的关键技术、对比部分方案的生成效果,归纳出各方案在生成图像质量、唇形同步性以及实时性等方面的优势与不足。辨析常用的数据集和评价指标,指出目前音频驱动人脸图像生成存在的挑战,并对未来可能的研究方向作出展望。
                        
                    
            
- 
                    关键词
                    
                            音频驱动
                            人脸图像生成
                            多模态
                            神经网络
                            数字人
                    
                
- 
                    Keywords
                    
                            audio driver
                            face image generation
                            multimodal
                            neural network
                            digital human
                    
                
- 
                    分类号
                    
                            
                                
                                    TP391.41
[自动化与计算机技术—计算机应用技术]                                
                            
                    
                
- 
                
            
            - 
                题名基于单视图的多姿态人脸图像生成技术研究
                    被引量:2
            
- 2
- 
                
            
- 
                
                            作者
                                朱长仁
                                王润生
                
            
- 
                    机构
                    
                            国防科技大学电子科学与工程学院ATR国家重点实验室
                    
                
- 
                出处
                
                
                    《电子与信息学报》
                    
                            EI
                            CSCD
                            北大核心
                    
                2003年第3期300-305,共6页
            
- 
                    文摘
                        该文提出了一种基于单视图或小样本的多姿态人脸图像生成技术,它首先利用一个特征点集表示人脸,然后基于二元高次多项式函数最小二乘方法对人脸各姿态之间的特征点集坐标变化进行拟合,形成全局的变形域,最后由单视图通过变形映射生成多姿态人脸图像。实验结果表明,利用单视图和生成的多姿态图像进行多姿态人脸识别,正确率得到大大提高,证明该文人脸图像生成技术十分有效。
                        
                    
            
- 
                    关键词
                    
                            人脸图像生成
                            多姿态
                            多项式函数
                            单视图
                            最小二乘拟合
                            人脸识别
                            变形映射
                    
                
- 
                    Keywords
                    
                            Face image synthesis, Multi-pose, Single view, Polynomial function, Least square fit, Face recognition
                    
                
- 
                    分类号
                    
                            
                                
                                    TP391.41
[自动化与计算机技术—计算机应用技术]                                
                            
                    
                
- 
                
            
            - 
                题名基于多级残差映射器的文本驱动人脸图像生成和编辑
                    被引量:5
            
- 3
- 
                
            
- 
                
                            作者
                                李宗霖
                                张盛平
                                刘杨
                                张兆心
                                张维刚
                                黄庆明
                
            
- 
                    机构
                    
                            哈尔滨工业大学计算机科学与技术学院
                            中国科学院大学计算机科学与技术学院
                    
                
- 
                出处
                
                
                    《软件学报》
                    
                            EI
                            CSCD
                            北大核心
                    
                2023年第5期2101-2115,共15页
            
- 
                        基金
                        
                                    国家自然科学基金(61872112,61976069)。
                        
                    
- 
                    文摘
                        尽管生成对抗网络在人脸图像生成和编辑领域取得了巨大的成功,但在其潜在编码空间中寻找可以操作人脸语义属性的方向仍然是计算机视觉的一大挑战,这一挑战的实现需要大量标记数据不断进行网络调优,而搜集、标注类似数据存在诸多难点,比如较高的技术门槛以及大量的人工成本.最近的一些工作都在试图借助预训练模型来克服标记数据短缺的问题.虽然这种做法已经被验证能够完成上述任务,但在操作的准确性和结果的真实性上都无法满足真实人脸编辑场景的需求.借助对比语言-图像预训练模型(CLIP)的图像文本联合表示能力将图像和文本内容编码在一个共享的潜在编码空间中,借助于精心设计的网络结构和损失函数,所提框架可以精准识别相关面部属性并学习一个多级残差映射网络,所提网络可根据图像和文本内容编码预测潜在编码残差,再借助图像生成预训练模型StyleGAN2完成高质量的人脸图像生成和编辑任务.大量实验也证明了所提方法在操作准确性、视觉真实性和无关属性保留方面的优异表现.
                        
                    
            
- 
                    关键词
                    
                            多模态学习
                            预训练模型
                            人脸图像生成
                            人脸图像编辑
                            对抗生成网络
                    
                
- 
                    Keywords
                    
                            multimodal learning
                            pre-trained model
                            face image generation
                            face image manipulation
                            generative adversarial network(GAN)
                    
                
- 
                    分类号
                    
                            
                                
                                    TP391
[自动化与计算机技术—计算机应用技术]                                
                            
                    
                
-