-
题名改进Transformer解码器的端到端语音识别
被引量:1
- 1
-
-
作者
胡恒博
牛铜
何振华
-
机构
郑州信大先进技术研究院技术研发一部
信息工程大学信息系统工程学院
-
出处
《计算机应用》
北大核心
2025年第S1期95-100,共6页
-
基金
国家自然科学基金资助项目(62171470)。
-
文摘
Transformer模型架构在序列到序列任务中可以很好地将注意力分散到整个输入上以学习长期依赖关系,然而,在语音识别中,文本输出和语音输入是单调对齐的。针对Transformer解码器无法较好地捕获局部特征以进行单调对齐的问题,提出一种改进的Transformer解码器。将Transformer解码器中的2种注意力机制拆分为2个单独模块,再使用交叉注意力进行更高效的局部特征捕获。在开源中文普通话AISHELL-1数据集上的实验结果表明,使用能够捕获局部特征的编码器时,该解码器相较于Transformer解码器有着更好的识别效果。具体地,当编码器为Conformer时,字错误率(CER)降低了16.19%,且收敛速度更快,而在使用了连接时序分类(CTC)进行辅助解码后,CER降低了5.08%,最终的CER为4.67%。
-
关键词
交叉注意力
Transformer解码器
Conformer编码器
语音识别
局部特征
-
Keywords
cross-attention
Transformer decoder
Conformer encoder
speech recognition
local feature
-
分类号
TN912.3
[电子电信—通信与信息系统]
-