为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征...为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(Scale-Invariant Signal-to-Noise Ratio Improvement,SISNRi)与信号失真比改进(Signal-to-Distortion Ratio Improvement,SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。展开更多
信道估计作为无线通信的关键,近年来成为相关领域的研究热点。本文针对正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统下传统信道估计算法性能难以满足复杂场景的通信需求、受噪声影响大等问题,提出了一种基于反...信道估计作为无线通信的关键,近年来成为相关领域的研究热点。本文针对正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统下传统信道估计算法性能难以满足复杂场景的通信需求、受噪声影响大等问题,提出了一种基于反卷积网络及扩张卷积网络信道估计的深度学习方法。该方法利用信道的相关性构建了一个轻量级的反卷积网络,利用少数几层反卷积操作来逐步实现信道插值与估计,在较低的复杂度下较好地实现了信道估计。为改善估计性能,进一步构建了一个扩张卷积网络来抑制信道噪声,提高信道估计的准确度。仿真结果表明,在不同信噪比条件下,本文提出的基于反卷积及扩张卷积的深度学习方法比传统方法具有更低的估计误差,且复杂度较低。展开更多
文摘为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(Scale-Invariant Signal-to-Noise Ratio Improvement,SISNRi)与信号失真比改进(Signal-to-Distortion Ratio Improvement,SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。
文摘信道估计作为无线通信的关键,近年来成为相关领域的研究热点。本文针对正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统下传统信道估计算法性能难以满足复杂场景的通信需求、受噪声影响大等问题,提出了一种基于反卷积网络及扩张卷积网络信道估计的深度学习方法。该方法利用信道的相关性构建了一个轻量级的反卷积网络,利用少数几层反卷积操作来逐步实现信道插值与估计,在较低的复杂度下较好地实现了信道估计。为改善估计性能,进一步构建了一个扩张卷积网络来抑制信道噪声,提高信道估计的准确度。仿真结果表明,在不同信噪比条件下,本文提出的基于反卷积及扩张卷积的深度学习方法比传统方法具有更低的估计误差,且复杂度较低。