【目的】为应对当前语音驱动的人脸图像生成方法在特征提取和生成质量方面的挑战,特别是解决音频与人脸特征之间深层联系的探索和利用不足问题,提出了一种基于梅尔频率倒谱系数(MFCC)的InceptionResNet-V1音频特征提取网络。【方法】通...【目的】为应对当前语音驱动的人脸图像生成方法在特征提取和生成质量方面的挑战,特别是解决音频与人脸特征之间深层联系的探索和利用不足问题,提出了一种基于梅尔频率倒谱系数(MFCC)的InceptionResNet-V1音频特征提取网络。【方法】通过SEGAN对音频信号进行数据增强,以实现特征的精细提取和有效传递。针对人脸图像生成质量问题,采用基于辅助分类器的生成对抗网络(AC-GAN)作为基线模型,并引入中值增强空间通道注意力模块(Median-enhancedSpatial and Channel Attention Block)以提升特征提取能力。同时,结合图像超分辨率重建模块,将生成的图像恢复为高分辨率图像。【结果】实验结果表明,所提方法在语音驱动的人脸图像生成任务中显著提升了生成质量,相较于主流模型FID降低了36%,余弦相似度提高了22%,人脸检索性能(Top-N)均有效提升,充分证明了其有效性和优越性。【结论】通过语音特征优化和注意力增强机制,有效提升了语音驱动人脸生成的精度与视觉效果,为跨模态生成任务提供了可扩展的技术路径。展开更多
为发挥遥感图像在国防军事、公共安全、环境监测等领域的重要作用,如何融合已配准的高分辨率全色图像与低分辨率多光谱图像的互补信息成为当前研究的重点。尽管近年来全色锐化方法已取得较大进步,但大多数方法仍受到以下限制:一方面,利...为发挥遥感图像在国防军事、公共安全、环境监测等领域的重要作用,如何融合已配准的高分辨率全色图像与低分辨率多光谱图像的互补信息成为当前研究的重点。尽管近年来全色锐化方法已取得较大进步,但大多数方法仍受到以下限制:一方面,利用Wald协议退化生成不同尺寸图像时会造成信息损失;另一方面,受到网络结构和单一注意力的限制,无法同时利用全局和局部特征。为解决以上问题,本文提出了基于联合注意力的渐进式网络(Pan-sharpening based on multi-attention progressive network),称为MAPNet。在该网络中,首先采用多阶段训练以减小尺寸变化带来的光谱和细节损失。其次设计联合注意力模块,将自注意力、空间注意力和通道注意力结合,实现对全局特征和局部特征、空间特征和通道特征的多模态分析,进一步提高MAPNet对纹理细节的保留能力。在高分二号卫星上进行大量对比实验和消融实验,定性和定量结果表明,本文方法融合效果优于其他10种方法,能够改善光谱失真和细节纹理丢失等问题。展开更多
文摘【目的】为应对当前语音驱动的人脸图像生成方法在特征提取和生成质量方面的挑战,特别是解决音频与人脸特征之间深层联系的探索和利用不足问题,提出了一种基于梅尔频率倒谱系数(MFCC)的InceptionResNet-V1音频特征提取网络。【方法】通过SEGAN对音频信号进行数据增强,以实现特征的精细提取和有效传递。针对人脸图像生成质量问题,采用基于辅助分类器的生成对抗网络(AC-GAN)作为基线模型,并引入中值增强空间通道注意力模块(Median-enhancedSpatial and Channel Attention Block)以提升特征提取能力。同时,结合图像超分辨率重建模块,将生成的图像恢复为高分辨率图像。【结果】实验结果表明,所提方法在语音驱动的人脸图像生成任务中显著提升了生成质量,相较于主流模型FID降低了36%,余弦相似度提高了22%,人脸检索性能(Top-N)均有效提升,充分证明了其有效性和优越性。【结论】通过语音特征优化和注意力增强机制,有效提升了语音驱动人脸生成的精度与视觉效果,为跨模态生成任务提供了可扩展的技术路径。
文摘为发挥遥感图像在国防军事、公共安全、环境监测等领域的重要作用,如何融合已配准的高分辨率全色图像与低分辨率多光谱图像的互补信息成为当前研究的重点。尽管近年来全色锐化方法已取得较大进步,但大多数方法仍受到以下限制:一方面,利用Wald协议退化生成不同尺寸图像时会造成信息损失;另一方面,受到网络结构和单一注意力的限制,无法同时利用全局和局部特征。为解决以上问题,本文提出了基于联合注意力的渐进式网络(Pan-sharpening based on multi-attention progressive network),称为MAPNet。在该网络中,首先采用多阶段训练以减小尺寸变化带来的光谱和细节损失。其次设计联合注意力模块,将自注意力、空间注意力和通道注意力结合,实现对全局特征和局部特征、空间特征和通道特征的多模态分析,进一步提高MAPNet对纹理细节的保留能力。在高分二号卫星上进行大量对比实验和消融实验,定性和定量结果表明,本文方法融合效果优于其他10种方法,能够改善光谱失真和细节纹理丢失等问题。