-
题名基于八元组损失的跨分辨率说话人验证优化
- 1
-
-
作者
宁美玲
齐佳音
-
机构
上海对外经贸大学统计与信息学院
广州大学网络安全空间学院
-
出处
《计算机工程》
北大核心
2025年第7期111-118,共8页
-
基金
国家自然科学基金(72293583)。
-
文摘
声纹识别中说话人验证在人机交互、医疗诊断和线上会议等现实领域起关键作用。基于深度神经网络(DNN)的说话人嵌入技术在说话人验证任务中变得越来越流行。Open-Set下的说话人验证是一个多分类任务,本质上是度量学习。现有的度量学习性能高度依赖于大批量具有标签信息的高分辨率语音样本。为了解决这个问题,提出一个基于度量学习的最小化相同类距离目标算法。该算法在三元组损失的基础上,引入八元组损失,利用4个三元组损失项捕捉高分辨率和低分辨率语音之间的关系,并运用困难样本挖掘技术来选择合适的数据三元组,使得模型分类更加准确。其次,为提升噪声干扰场景中低分辨率语音信号的分类鲁棒性,引入在线数据增强策略,使用RIR和MUSAN数据集对模型数据进行增强,利用数据增强后的数据和引入八元组损失对ECAPA-TDNN预模型进行微调训练,使得该微调网络能在噪声环境下处理低分辨率语音信息,提高模型性能。该方法在不影响模型对高分辨率语音的处理性能的同时,可以在多个数据集上显著提高跨分辨率语音的识别性能。在VoxCeleb1数据集和CN-Celeb1数据集上,等错误率(EER)的数值达到最优值,分别为1.20%和1.61%。
-
关键词
说话人验证
说话人嵌入
深度度量学习
八元组损失
三元组损失
-
Keywords
speaker verification
speaker embedding
deep metric learning
octuplet loss
triplet loss
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-