用于说话人识别的密集多分支时延神经网络

Dense multi-branch time delay neural network for speaker recognition

在线阅读下载PDF

导出

摘要时延神经网络是较早应用于说话人识别领域的一类神经网络。为实现更好的识别性能,近年来一些改进工作围绕加深或拓宽其网络结构进行。在对密集连接卷积网络以及多分支网络结构进行研究的基础上,提出一种密集多分支时延神经网络,用以进一步提升小体积模型对说话人特征的提取能力。在使用密集连接实现特征重用的基础上,并行多分支结构能同时对同一输入在不同分辨率下进行特征提取。在VoxCeleb1测试集、VoxCeleb1-H、VoxCeleb1-E上进行测试表明,该网络能在模型参数量较小的前提下实现准确的说话人识别,以便应用在一些存储空间受限的本地说话人识别场景中。 Time delay neural networks are a class of neural networks that have been applied in the field of speaker recognition for a long time.To achieve better recognition performance,some improvement works in recent years revolve around deepening or widening their network structures.Based on the study of densely connected convolutional networks and multi-branch network structures,a dense multi-branch time delay neural network is proposed to further improve the speaker feature extraction capability of small volume models.On the basis of feature reuse using dense connections,the parallel multi-branch structure enables simultaneous feature extraction on the same input at different resolutions.Tests on the VoxCeleb1 test set,VoxCeleb1-H,and VoxCeleb1-E show that the network can achieve accurate speaker recognition with a small number of model parameters for application in some local speaker recognition scenarios where storage space is limited.

作者和椿皓常铁原潘立冬 HE Chunhao;CHANG Tieyuan;PAN Lidong(College of Electronic Information Engineering,Hebei University,Baoding 071000,China)

机构地区河北大学电子信息工程学院

出处《应用声学》 CSCD 北大核心 2024年第5期949-955,共7页 Journal of Applied Acoustics

关键词说话人识别时延神经网络多分支神经网络密集连接深度学习 Speaker recognition Time delay neural networks Multi-branch neural networks Dense connectivity Deep learning

分类号 TN912.34 [电子电信—通信与信息系统]

作者简介和椿皓(1999–),男,河北保定人,硕士研究生,研究方向:模式识别与智能信息处理;通信作者:潘立冬,E-mail:panlidong@vip.163.com。

引文网络
相关文献

1高盛祥,杨元樟,王琳钦,莫尚斌,余正涛,董凌.面向域外说话人适应场景的多层级解耦个性化语音合成[J].广西师范大学学报（自然科学版）,2024,42(4):11-21.
2化春键,黄宇峰,蒋毅,俞建峰,陈莹.基于改进YOLOv5s模型的田间食用玫瑰花检测方法[J].江苏农业学报,2024,40(8):1464-1472. 被引量：1
3张杰明.新时代事业单位人事管理[J].现代商贸工业,2024,45(18):79-81.
4李菲,苏兆品,王年松,杨波,张国富.基于Group-Res2Block的智能合成语音说话人确认方法[J].应用科学学报,2024,42(4):709-722.
5向万,陈绪君,郑有凯,房可.基于多尺度特征记忆增强的异常行为检测算法[J].计算机工程与设计,2024,45(9):2634-2640.
6读者问卷调查表[J].黄金时代（下半月）,2024(8):80-80.
7范涛,詹旭.基于自适应GMM阶数与混合特征的说话人识别研究[J].四川轻化工大学学报（自然科学版）,2024,37(4):75-83.
8屠江丽,玛尔玛尔·木合亚提,李慧,鲍毅梅.以岗位胜任力为导向的针灸模拟仿真教学在实训课中的应用[J].新疆中医药,2024,42(4):67-69. 被引量：1
9国宇航.高质量发展视域下企业经济责任审计完善路径探析[J].品牌研究,2024(27):0191-0193.
10何志强,孙占全.基于Swin-Transformer的颈动脉超声图像斑块分割[J].电子科技,2024,37(9):48-56.

应用声学

2024年第5期

浏览历史

内容加载中请稍等...

用于说话人识别的密集多分支时延神经网络

相关作者

相关机构

相关主题

浏览历史