基于自注意力机制的Transformer在大多数自然语言处理(NLP)任务中表现出色,但以往的工作表明,将Transformer应用于说话人确认时竞争力不强,特别是在局部建模能力、轻量级的结构以及实时推理能力上。针对这些问题,从3个方面提出一种改进T...基于自注意力机制的Transformer在大多数自然语言处理(NLP)任务中表现出色,但以往的工作表明,将Transformer应用于说话人确认时竞争力不强,特别是在局部建模能力、轻量级的结构以及实时推理能力上。针对这些问题,从3个方面提出一种改进Transformer的端到端说话人确认模型DTF-Transformer(Deep Treatment Fusion-Transformer)。首先,使用一种简化的多尺度注意力代替多头注意力,以提升模型的局部建模能力并降低参数量;其次,设计轻量级的前馈网络(FFN),进一步在降低模型参数量的同时加快推理;最后,对于不同深度下的特征应用融合机制提高模型对深层特征的表达与泛化能力。在公共基准数据集VoxCeleb和CN-Celeb上的实验结果表明,相较于流行的ResNet34和ECAPA-TDNN(Emphasized Channel Attention, Propagation and Aggregation in Time Delay Neural Network based speaker verification)结构,DTFTransformer在VoxCeleb1-O和CN-Celeb(E)测试集上的等错误率(EER)分别下降了14%、24%和43%、15%,并且,DTFTransformer在不损失精度的情况更轻量,推理速度较优。展开更多
文摘基于自注意力机制的Transformer在大多数自然语言处理(NLP)任务中表现出色,但以往的工作表明,将Transformer应用于说话人确认时竞争力不强,特别是在局部建模能力、轻量级的结构以及实时推理能力上。针对这些问题,从3个方面提出一种改进Transformer的端到端说话人确认模型DTF-Transformer(Deep Treatment Fusion-Transformer)。首先,使用一种简化的多尺度注意力代替多头注意力,以提升模型的局部建模能力并降低参数量;其次,设计轻量级的前馈网络(FFN),进一步在降低模型参数量的同时加快推理;最后,对于不同深度下的特征应用融合机制提高模型对深层特征的表达与泛化能力。在公共基准数据集VoxCeleb和CN-Celeb上的实验结果表明,相较于流行的ResNet34和ECAPA-TDNN(Emphasized Channel Attention, Propagation and Aggregation in Time Delay Neural Network based speaker verification)结构,DTFTransformer在VoxCeleb1-O和CN-Celeb(E)测试集上的等错误率(EER)分别下降了14%、24%和43%、15%,并且,DTFTransformer在不损失精度的情况更轻量,推理速度较优。