-
题名结合卷积增强窗口注意力的双分支语音增强神经网络
- 1
-
-
作者
张晨辉
原之安
钱宇华
-
机构
山西大学大数据科学与产业研究院
山西省机器视觉与数据挖掘工程研究中心(山西大学)
-
出处
《计算机研究与发展》
北大核心
2025年第4期852-862,共11页
-
基金
国家自然科学基金重点项目(62136005)
新一代人工智能国家科技重大专项(2021ZD0112400)
山西省科技重大专项计划“揭榜挂帅”项目(202201020101006)。
-
文摘
在复杂环境以及突发背景噪音条件下,语音增强任务具有极大的困难和挑战.主要原因是现有的语音增强方法未能有效捕获语谱图特征,尤其是局部信息.在过去的研究中,Transformer模型更专注于音频的全局信息,而忽略了局部信息的重要性.在音频经过短时傅里叶变换(STFT)处理后,多数模型仅使用幅值信息,而忽略了相位信息,导致它们未能有效捕获语谱图特征,从而影响了语音增强的效果.基于此设计出一个带有卷积增强窗口注意力的双分支语音增强神经网络.该模型采用U-NET架构,通过双分支结构对音频的幅值和相位信息同时建模;在2个分支之间引入复值计算模块以实现信息交互;在编码器层和解码器层之间的跳跃连接部分采用卷积增强窗口注意力模块,该模块执行基于非重叠窗口的自注意力操作,在捕获局部上下文信息的同时显著降低了语音增强模型的计算复杂度.该模型在公开的Voicebank-Demand数据集上进行测试,与基线模型DCUNET 16和DCUNET20相比,在客观语音质量评估指标PESQ(perceptual evaluation of speech quality)分别提高了0.51和0.47.除了PESQ指标外,其他指标也都有显著的提升.相较于现有的各类语音增强模型,该模型在各项指标上均处于领先水平,尤其是在PESQ得分方面的提升更为显著.
-
关键词
语音增强
双分支网络
语谱图特征
卷积增强窗口注意力
全局信息
局部信息
-
Keywords
speech enhancement
dual-branch network
spectrogram features
convolutional enhancement window attention
global information
local information
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
TN912.3
[电子电信—通信与信息系统]
-