为解决语音增强任务中语音信息未充分利用的问题,提出一种基于深度学习的方法,即融合精确比值掩蔽的门控扩张循环卷积神经网络(gate-dilated recurrent convolutional neural network with accurate ratio masking, GDRCNN-ARM)。GDRCN...为解决语音增强任务中语音信息未充分利用的问题,提出一种基于深度学习的方法,即融合精确比值掩蔽的门控扩张循环卷积神经网络(gate-dilated recurrent convolutional neural network with accurate ratio masking, GDRCNN-ARM)。GDRCNN由编码器、循环卷积层和解码器3部分组成,编码器中借助扩张卷积和门控机制实现对上下文语音信息的捕获,进行并行处理;循环卷积层采用GRU且引入多头注意力机制,捕捉网络中的长期依赖关系;解码器采用逐层解码且通过跳跃连接进行编码器信息的复用,实现对语音细节的还原。实验数据表明,GDRCNN网络在参数量和模型大小方面明显优于DNN、CRN等网络,PESQ平均提高了0.612、0.158,STOI平均提高了0.072、0.020,在语音增强和泛化方面表现出色。展开更多
文摘为解决语音增强任务中语音信息未充分利用的问题,提出一种基于深度学习的方法,即融合精确比值掩蔽的门控扩张循环卷积神经网络(gate-dilated recurrent convolutional neural network with accurate ratio masking, GDRCNN-ARM)。GDRCNN由编码器、循环卷积层和解码器3部分组成,编码器中借助扩张卷积和门控机制实现对上下文语音信息的捕获,进行并行处理;循环卷积层采用GRU且引入多头注意力机制,捕捉网络中的长期依赖关系;解码器采用逐层解码且通过跳跃连接进行编码器信息的复用,实现对语音细节的还原。实验数据表明,GDRCNN网络在参数量和模型大小方面明显优于DNN、CRN等网络,PESQ平均提高了0.612、0.158,STOI平均提高了0.072、0.020,在语音增强和泛化方面表现出色。