-
题名基于GAN的全时间尺度语音增强方法
被引量:3
- 1
-
-
作者
沈梦强
于文年
易黎
宋南
-
机构
武汉邮电科学研究院
南京烽火天地通信科技有限公司
-
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第6期115-122,130,共9页
-
基金
国家重点研发计划(2017YFB1400704)。
-
文摘
现有语音增强方法在时域端到端语音增强中无法学习全面时间尺度特征信息且中间层序列建模不充分。提出从全面时间尺度进行语音降噪的方法。通过线性插值方式对输入特征序列进行扩充,获得比原输入数据具有更高分辨率的时间特征,使得模型能够从更细时间尺度上进行特征提取,并利用间隔抽样方法对每一层编码后的特征进行下采样,在较粗时间尺度上计算越来越多的高维特征,使网络模型能够捕获深层次的有用信息。同时,在网络模型中引入ConformerBlock作为中间层,其中,多头注意力机制和卷积模块能够增强中间层网络的序列建模能力,突出中间向量的表征信息,根据语音和噪声线性叠加的原理,采用联合噪声训练生成对抗网络的方法使网络从目标语音和噪声2个角度获取有用信息,进一步提升模型降噪能力。在公开语音增强测试数据集上的实验结果表明,该方法降噪后语音的各项指标均得到显著提升,相比Wave-U-net模型,在PESQ、STOI和SSNR这3项主要指标上分别提升了2.75%、1.06%、6.34%。
-
关键词
全时间尺度
高分辨率
线性插值
Conformer模块
生成对抗网络
-
Keywords
full-time scale
high resolution
linear interpolation
Conformer module
Generative Adversarial Network(GAN)
-
分类号
TN912.35
[电子电信—通信与信息系统]
-