-
题名基于多粒度时空注意力机制的说话人识别模型
- 1
-
-
作者
朱文博
吴靖
金浩
叶维彰
朱珍
-
机构
佛山科学技术学院机电工程与自动化学院
佛山科学技术学院机电子信息工程学院
华南理工大学计算机科学与工程学院
台湾清华大学工业工程与工程管理系
-
出处
《声学技术》
北大核心
2025年第1期93-101,共9页
-
基金
国家自然科学基金项目号(62106048)
广东省重点领域研发计划项目(2021b0101410002)
广东省重点领域研发计划项目(2020b0404030001)。
-
文摘
深度学习已广泛应用在说话人识别领域,但当前模型存在识别率低和模型参数复杂度高的问题,难以进行轻量化语音识别。针对此问题,文章提出一种基于多粒度时空注意力机制的说话人识别模型,该模型由多粒度混合模块、时空注意力机制模块、通道压缩模块组成。其中多粒度混合模块和时空注意力机制模块以多尺度建模角度来捕捉局部时序上下文特征和空间关联特征信息,并通过多粒度方式耦合不同时空信息的关联特征以提高全局时空建模能力。同时,通道压缩模块通过聚合不同说话人信道以及上下文语境依赖表征以减少整体模型参数数量。在多组公开数据集上进行五重交叉验证实验,结果表明:对比主流模型,所提方法能够有效地提高说话人识别准确率、降低参数量,并达到最优的表现,在轻量化说话人识别模型方面具有重要的应用价值。
-
关键词
深度学习
卷积神经网络
说话人识别
注意力机制
轻量化模型
-
Keywords
deep learning
convolutional neural network
speaker recognition
attention mechanism
lightweight model
-
分类号
TN912.34
[电子电信—通信与信息系统]
-