-
题名融合外部语言知识的流式越南语语音识别
- 1
-
-
作者
王俊强
余正涛
董凌
高盛祥
王文君
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《中文信息学报》
北大核心
2025年第8期99-106,共8页
-
基金
国家自然科学基金(61732005,U21B2027,61972186)
云南高新技术产业发展项目(201606)
+2 种基金
云南省重大科技专项计划(202103AA080015,202002AD080001-5)
云南省基础研究计划(202001AS070014)
云南省学术和技术带头人后备人才(202105AC160018)。
-
文摘
越南语为低资源语言,训练语料难以获取;流式端到端模型在训练过程中难以学习到外部大量文本中的语言知识,这些问题在一定程度上限制了流式越南语语音识别模型的性能。因此,该文以越南语音节作为语言模型和流式越南语语音识别模型的建模单元,提出了一种将预训练越南语语言模型在训练阶段融合到流式语音识别模型的方法。在训练阶段,通过最小化预训练越南语语言模型和解码器的输出计算一个新的损失函数LAED-LM,帮助流式越南语语音识别模型学习一些越南语语言知识,从而优化其模型参数;在解码阶段,使用Shallow Fusion或者WFST技术再次融合预训练语言模型进一步提升模型识别率。实验结果表明,在VIVOS数据集上,相比基线模型,在训练阶段融合语言模型可以将流式越南语语音识别模型的词错率降低2.45%;在解码阶段使用Shallow Fusion或WFST再次融合语言模型,还可以将模型词错率分别降低1.35%和4.75%。
-
关键词
流式语音识别
越南语
语言模型
预训练
端到端模型
-
Keywords
streaming speech recognition
Vietnamese
language model
pre-trained
end-to-end model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-