-
题名应用AAM损失函数的无文本说话人识别
被引量:3
- 1
-
-
作者
肖金壮
李瑞鹏
纪盟盟
-
机构
河北大学电子信息工程学院
-
出处
《激光杂志》
CAS
北大核心
2021年第11期87-91,共5页
-
基金
河北省自然科学基金面上项目(No.H2016201201)、河北省高等学校科学技术研究重点项目(No.ZD2016149)。
-
文摘
针对无文本说话人识别存在短语音提取特征困难和模型训练效率不高的问题,提出利用附加角裕度的损失函数(Additive angular margin loss,AAM-Softmax)可以在特征表达的角度空间中最大化分类界限的优势,同时结合为提高网络训练效率和稳定性而改进的残差网络ResNet,来获得更具辨别性的嵌入特征,最终达到提升端到端短语音无文本说话人识别模型的性能。实验表明,在说话人辨认任务中Top-1和Top-5的准确度分别达到90.1%和97.8%,说话人确认任务中的等错误率(EER)降低到3.8%,与基于VoxCeleb1数据集的已有成果相比,三种指标的性能皆有明显提升,证明了所提方法的有效性。
-
关键词
附加角裕度损失函数
说话人识别
无文本语音
深度学习
端到端
-
Keywords
additive angular margin loss function
speaker recognition
text-independent
deep learning
end-to-end
-
分类号
TN249
[电子电信—物理电子学]
-
-
题名基于分层注意力特征融合的说话人识别
- 2
-
-
作者
赵宏
高楠
王伟杰
杨昌东
-
机构
兰州理工大学计算机与通信学院
中国邮政储蓄银行甘肃省分行信息科技管理部
-
出处
《计算机工程与设计》
北大核心
2024年第11期3413-3419,共7页
-
基金
国家自然科学基金项目(62166025)
甘肃省重点研发计划基金项目(21YF5GA073)。
-
文摘
为缓解现有说话人识别模型提取的说话人特征可靠性不强,融合特征时不同尺度特征关联性不高的问题,研究一种基于分层注意力特征融合网络(hierarchical attention feature fusion network,HAFF-Net)的说话人识别算法。利用卷积和池化操作对经过预处理的语音特征进行下采样,降低特征的维度;将提取的特征输入到分层注意力特征融合模块(hiera-rchical attention feature fusion block,HAFFB)中,利用平均协调注意力(mean coordinate attention,MCA)增强说话人特征的可靠性,利用注意力特征融合模块(attention feature fusion,AFF)捕获多尺度互补特征;采用统计池化和全连接层提取说话人的嵌入特征,应用附加角裕度损失函数(AAM-Softmax)端到端优化模型。研究结果表明,所提算法可以有效增强特征表达的可靠性,成功捕获了多尺度特征之间的差异,提高了说话人识别的性能。
-
关键词
说话人识别
分层注意力
平均协调注意力
注意力特征融合
多尺度特征
附加角裕度损失函数
端到端
-
Keywords
speaker recognition
hierarchical attention
mean coordinate attention
attention feature fusion
multi-scale features
additive angular margin loss
end-to-end
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于虚拟教师蒸馏模型的说话人确认方法
被引量:1
- 3
-
-
作者
肖金壮
李瑞鹏
纪盟盟
-
机构
河北大学电子信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2022年第8期198-203,共6页
-
基金
河北省自然科学基金面上项目(H2016201201)
河北省高等学校科学技术研究重点项目(ZD2016149)。
-
文摘
无文本说话人确认模型通过复杂的网络结构和多变的特征提取方式来获得必要的性能,然而这会产生巨大的内存消耗和递增的计算成本,导致模型难以在资源有限的硬件设施上部署。针对该问题,利用虚拟教师蒸馏模型(teacher-free knowledge distillation,Tf-KD)可以带来百分之百的分类正确率、平滑的输出概率分布的优势,在轻量级残差网络的基础上构建虚拟教师说话人确认模型(teacher-free speaker verification model,Tf-SV)。同时引入空间共享而通道分离的动态激活函数和附加角裕度损失函数,使所提模型在特征表达、训练效率以及模型压缩后性能等方面的水平得到极大提升,最终达到无文本说话人确认模型能够在存储或者计算资源有限设备上部署的目的。基于VoxCeleb1数据集的实验表明,虚拟教师说话人确认模型的等错误率(EER)降低到3.4%。与已有成果相比,指标有明显提升,证明了在说话人确认任务上所提压缩模型的有效性。
-
关键词
虚拟教师知识蒸馏
动态激活函数
附加角裕度损失函数
模型压缩
说话人确认
-
Keywords
teacher-free knowledge distillation
dynamic rectified linear units function
additive angular margin loss function
model compression
speaker verification
-
分类号
TN912.34
[电子电信—通信与信息系统]
-