期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于多粒度时空注意力机制的说话人识别模型
1
作者 朱文博 吴靖 +2 位作者 金浩 叶维彰 朱珍 《声学技术》 北大核心 2025年第1期93-101,共9页
深度学习已广泛应用在说话人识别领域,但当前模型存在识别率低和模型参数复杂度高的问题,难以进行轻量化语音识别。针对此问题,文章提出一种基于多粒度时空注意力机制的说话人识别模型,该模型由多粒度混合模块、时空注意力机制模块、通... 深度学习已广泛应用在说话人识别领域,但当前模型存在识别率低和模型参数复杂度高的问题,难以进行轻量化语音识别。针对此问题,文章提出一种基于多粒度时空注意力机制的说话人识别模型,该模型由多粒度混合模块、时空注意力机制模块、通道压缩模块组成。其中多粒度混合模块和时空注意力机制模块以多尺度建模角度来捕捉局部时序上下文特征和空间关联特征信息,并通过多粒度方式耦合不同时空信息的关联特征以提高全局时空建模能力。同时,通道压缩模块通过聚合不同说话人信道以及上下文语境依赖表征以减少整体模型参数数量。在多组公开数据集上进行五重交叉验证实验,结果表明:对比主流模型,所提方法能够有效地提高说话人识别准确率、降低参数量,并达到最优的表现,在轻量化说话人识别模型方面具有重要的应用价值。 展开更多
关键词 深度学习 卷积神经网络 说话人识别 注意力机制 轻量化模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部