期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于ConvTCN-FLASH-Transducer的端到端语音识别
1
作者 代学欣 杨淑莹 《现代电子技术》 北大核心 2025年第12期47-53,共7页
针对语音识别编码器对FBank音频局部信息提取不足,不能充分挖掘帧与帧之间时序性的联系以及注意力机制复杂度高的问题,提出一种基于RNN-Transducer架构的ConvTCN-FLASH-Transducer模型。该模型采用卷积神经网络模块和FLASH注意力模块相... 针对语音识别编码器对FBank音频局部信息提取不足,不能充分挖掘帧与帧之间时序性的联系以及注意力机制复杂度高的问题,提出一种基于RNN-Transducer架构的ConvTCN-FLASH-Transducer模型。该模型采用卷积神经网络模块和FLASH注意力模块相结合的方法,首先使用多尺度卷积提取音频特征的局部信息,再通过时序卷积神经网络(TCN)提取音频特征中帧与帧之间的时序性特征,用于加强音频局部信息的联系。此外,采用挤压和激励机制增强不同通道之间的关联,并提升关键通道的重要程度。在中文开源普通话数据集THCHS30上进行训练和实验,结果表明,ConvTCN-FLASHTransducer模型最终字错误率降低至4.2%,识别效果更好。 展开更多
关键词 语音识别 时序卷积神经网络 FLASH模型 RNN-Transducer 特征提取 挤压和激励机制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部