-
题名基于生成对抗网络的到达时间差估计器
被引量:1
- 1
-
-
作者
代浩阳
呼德
-
机构
内蒙古大学计算机学院、人工智能学院
-
出处
《信号处理》
北大核心
2025年第9期1581-1590,共10页
-
基金
国家自然科学基金(62201297,62361045)。
-
文摘
到达时间差(Time Difference of Arrival,TDOA)是重要的声学空间特征,其广泛应用于多通道声信号处理任务中。传统的TDOA估计器,如广义互相关-相位变换(Generalized Cross-Correlation with Phase Transform,GCCPHAT)方法,在理想声学环境下表现优异,但在低信噪比、高混响等复杂场景中性能却显著下降。近来,随着深度学习技术的快速发展,涌现出一批基于数据驱动的TDOA估计器,其估计精度较高,但对强噪声与高混响的鲁棒性仍有限。为此,本文提出了一种基于生成对抗网络(Generative Adversarial Network,GAN)的TDOA估计器,通过对抗训练机制增强模型在低信噪比和高混响环境下的鲁棒性。本文的创新性主要体现在:首次基于GAN框架实现TDOA估计,通过生成器与判别器的对抗训练机制,显著提升了模型的泛化性能;生成器先采用门控循环单元(Gated Recurrent Unit,GRU)对原始音频进行扩维处理,并基于GCC-PHAT变换提取互相关特征,以增强模型对时延信息的敏感性;判别器则基于卷积神经网络(Convolutional Neural Network,CNN)构建,通过多层卷积结构提取输入信号的高维特征,结合输入的TDOA真值或预测值,输出置信度评分;生成器同时优化交叉熵损失和对抗损失,判别器则同时提升对真实TDOA及生成器预测TDOA的鉴别能力。上述设计参考了Wasserstein GAN(WGAN)的思想,将判别器输出的置信度评分作为生成器损失函数的一部分,这不仅可以提升模型训练的稳定性,还能克服模式崩溃等问题,也能提升传统单一损失函数、单一训练模式的性能上限。为验证所提方法的有效性,我们在公开数据集上进行了对比实验,对比方法包括经典的GCC-PHAT方法以及最新的深度学习TDOA估计器。实验结果表明,所提方法在低信噪比、高混响环境中表现优异,其TDOA估计精度显著优于对比方法。
-
关键词
到达时间差
声源定位
生成对抗网络
-
Keywords
time difference of arrival
sound source localization
generative adversarial networks
-
分类号
TN912.3
[电子电信—通信与信息系统]
-