-
题名融合动态场景感知和注意力机制的声学回声消除算法
- 1
-
-
作者
许春冬
黄乔月
王磊
徐锦武
-
机构
江西理工大学信息工程学院
-
出处
《信号处理》
CSCD
北大核心
2024年第2期396-405,共10页
-
基金
国家自然科学基金(11864016,11704164)
江西省科技厅重点研发计划一般项目(20202BBEL53006)
江西理工大学研究生创新专项资金项目(XY2022-S167)。
-
文摘
在实时语音频通话系统中,如何去除声学回声得到清晰语音是目前最受关注的难题之一。声学回声消除(Acoustic echo cancellation,AEC)技术旨在消除语音频通话系统中的声学回声,提高通话过程中的语音质量,给予用户良好的通话体验,但是传统回声消除系统存在去回声效果不明显、存在非线性回声残留以及无法实时处理回声等问题。因此,为解决上述存在问题,提出了一种动态场景感知模块(Dynamic scene perception module,DSPM)和全局注意力机制(Global attention mechanism,GAM)相结合的声学回声消除算法。该算法以卷积循环网络(Convolutional recurrent network,CRN)作为基线模型,提取语音信号的序列特征;首先,在其编码器中引入DSPM模块替换原因果卷积,根据场景动态分配卷积内核数量,加强模型的自适应性;其次,在编码器最后两层中分别引入GAM模块,放大空间通道间关系以及统筹全局交互,提升对语音信号特征的提取能力以及消除回声的性能;最后,通过将MSE损失函数和HuberLoss损失函数线性相加生成一种新的损失函数——MSE-HuberLoss,进一步提高模型的鲁棒性。实验结果表明,提出的GAM-DSPM-CRN模型的回声消除性能优秀,且获得较基线模型更加清晰的重构语音信号;在双端通话环境下,提出的GAM-DSPM-CRN模型声学回声消除算法较其他对比算法性能有较大提升;在Microsoft AEC Challenges数据集上,MOS、ERLE和STOI的得分分别达到了4.09、57.43和0.78。
-
关键词
声学回声消除
动态场景感知模块
全局注意力机制
卷积循环网络
联合损失函数
-
Keywords
acoustic echo cancellation
dynamic scene perception module
global attention mechanism
convolutional recurrent network
joint loss function
-
分类号
TN912.3
[电子电信—通信与信息系统]
-