-
题名面向低数据资源的语音识别研究综述
- 1
-
-
作者
许春冬
吴子煜
葛凤培
-
机构
江西理工大学信息工程学院
北京邮电大学
-
出处
《计算机工程与应用》
北大核心
2025年第4期59-71,共13页
-
基金
国家自然科学基金(12204062,11864016)
江西省教育厅项目。
-
文摘
近年来,自动语音识别的研究重心由传统识别方法转向基于深度学习的语音识别方法。“大模型”现象反映出深度学习方法的性能随着训练数据量的增加呈现显著上升的趋势。然而,现实环境的复杂性、语音数据分布的非均匀性和用户隐私的保护等因素给数据的收集造成困难。同时,语音数据的标注需要大量专业人员的参与,导致标注成本很高。因此,语音识别在实际应用中经常面临数据资源不足的问题。在这种低数据资源条件下构建性能优异且稳定的语音识别系统仍是研究难点。简单归纳了语音识别的发展历程,总结了语音识别的基本框架以及常见的国内外开源数据集。围绕低数据资源问题,详细分析了低数据资源的判定方法,继而梳理了四类技术方案,包括数据增强、联邦学习、自监督学习以及元学习,并对它们的性能状况以及优缺点进行了系统的剖析。最后讨论了该研究方向未来潜在的发展趋势和可能面临的问题。
-
关键词
语音识别
低数据资源
数据增强
联邦学习
自监督学习
元学习
-
Keywords
speech recognition
low data resources
data augmentation
federated learning
self-supervised learning
meta-learning
-
分类号
TN912.34
[电子电信—通信与信息系统]
TP391
[自动化与计算机技术—计算机应用技术]
-