-
题名结合字节级别字节对编码的端到端中文语音识别方法
- 1
-
-
作者
付强
徐振平
盛文星
叶青
-
机构
长江大学计算机科学学院
-
出处
《计算机应用》
北大核心
2025年第1期318-324,共7页
-
基金
湖北省自然科学基金资助项目(2023AFB909)。
-
文摘
针对语音识别中对中文这种复杂字符集的语言词汇表过大以及训练效率太低的问题,提出一种基于字节级别字节对编码(BBPE)的端到端中文语音识别方法。首先,将256个不同的字节用于初始化词汇表;其次,统计每个词汇单元在语料中出现的频率,并合并频率最高的词汇单元;最后,重复上一步直至无法合并,以得到最终的词汇表。在中文语音数据集AISHELL-1上,该方法生成的词汇表相较于字符级别词汇表的词汇量减少了88.5%,降低了模型训练的复杂度。同时,鉴于Conformer-Transducer(Conformer-T)模型在端到端语音识别中的出色表现,为了实现更好的识别效果,将最新的Zipformer模型与Transducer模型相结合提出Zipformer-Transducer(Zipformer-T)模型,并在该模型上对BBPE方法进行验证。实验结果表明,Zipformer-T模型使用的BBPE方法相较于字符级别分词方法在AISHELL-1测试集和验证集上的字错率(CER)分别降低了0.12和0.08个百分点,且分别达到4.26%和3.98%的最低CER,充分说明该方法能有效提升中文语音识别的性能。
-
关键词
语音识别
CONFORMER
Zipformer
字节级别字节对编码
端到端
-
Keywords
speech recognition
Conformer
Zipformer
Byte-level Byte Pair Encoding(BBPE)
end-to-end
-
分类号
TN912.34
[电子电信—通信与信息系统]
-