针对单通道语音增强中主流编解码结构面临的声学特征提取不充分、通道信息丢失和幅度相位补偿困难等问题,提出一种融合不同维度语音特征的异构双分支解码单通道语音增强模型——HDBMV(Heterogeneous DualBranch with Multi-View)。该模...针对单通道语音增强中主流编解码结构面临的声学特征提取不充分、通道信息丢失和幅度相位补偿困难等问题,提出一种融合不同维度语音特征的异构双分支解码单通道语音增强模型——HDBMV(Heterogeneous DualBranch with Multi-View)。该模型通过信息融合编码器(IFE)、时频残差Conformer(TFRC)模块、多视角注意力(MVA)模块和异构双分支解码器(HDBD)等机制,提升单通道语音增强的性能。首先,IFE联合处理振幅与复数特征,捕捉全局依赖和局部相关,生成紧凑的特征表示;其次,TFRC模块有效捕捉时间维度和频域维度上的相关性,同时降低计算复杂度;再次,MVA模块重构通道域和时频域信息,进一步增强模型对信息的多视角多层次的表征能力;最后,HDBD分别处理幅度特征和细化复数特征,解决幅度相位补偿问题,提升解码鲁棒性。实验结果表明,HDBMV在公开数据集VoiceBank+DEMAND、大数据集DNS Challenge 2020和自建的藏语数据集BodSpeDB上的语音质量感知评估(PESQ)分别达到了3.00、3.12和2.09,短时目标可理解度(STOI)分别达到了0.96、0.97和0.81。可见,HDBMV以最小的参数量和较高的计算效率获得了最佳的语音增强性能和较强的泛化能力。展开更多