文本无关的说话人确认系统使用的测试语音时长越短效果越差。针对这种情况,提出增强声学特征的方法。使用基于seq2seq(Sequence to Sequence)的生成模型将短时声学特征生成更长的特征,其中,编码器用于提取深层特征,解码器输出声学特征,...文本无关的说话人确认系统使用的测试语音时长越短效果越差。针对这种情况,提出增强声学特征的方法。使用基于seq2seq(Sequence to Sequence)的生成模型将短时声学特征生成更长的特征,其中,编码器用于提取深层特征,解码器输出声学特征,使用注意力机制来获取序列之间的关系。在训练时加入余弦距离损失来提升生成模型的泛化性能,将训练好的说话人确认模型作为生成模型训练架构的组件。实验结果表明,在1~3 s语音时长下,采用该模型后等错误率平均降低7.78%。展开更多
文摘文本无关的说话人确认系统使用的测试语音时长越短效果越差。针对这种情况,提出增强声学特征的方法。使用基于seq2seq(Sequence to Sequence)的生成模型将短时声学特征生成更长的特征,其中,编码器用于提取深层特征,解码器输出声学特征,使用注意力机制来获取序列之间的关系。在训练时加入余弦距离损失来提升生成模型的泛化性能,将训练好的说话人确认模型作为生成模型训练架构的组件。实验结果表明,在1~3 s语音时长下,采用该模型后等错误率平均降低7.78%。