-
题名端到端语音到语音翻译的优化方法综述
- 1
-
-
作者
宗伟
赵悦
李尹
徐晓娜
-
机构
民族语言智能分析与安全治理教育部重点实验室(中央民族大学)
中央民族大学信息工程学院
-
出处
《计算机应用》
北大核心
2025年第5期1363-1371,共9页
-
基金
国家自然科学基金资助项目(61976236)。
-
文摘
语音到语音翻译(S2ST)是智能语音领域中新兴的研究方向,旨在将一种语言的语音准确翻译成另一种语言的语音。随着人们对跨语言交流需求的增加,S2ST受到广泛的关注,相关研究也不断涌现。传统的级联模型在S2ST过程中存在诸多问题,如错误传播、推理延迟和无法翻译无文字系统的语言等,因此如何通过端到端模型实现直接S2ST成为当前研究的重点。在全面调查端到端S2ST的基础上,详细分析和归纳了端到端S2ST的各种模型,综述了已有的相关技术,将端到端S2ST面临的挑战总结为建模负担、数据稀缺和现实应用三类问题,并重点探讨了现有工作是如何解决这三类问题的。大语言模型(LLM)强大的理解和生成能力为S2ST提供了新的可能性,同时也带来了更多的挑战。因此,讨论了LLM在S2ST中的应用,并设想了未来可能的发展方向。
-
关键词
端到端语音到语音翻译
建模负担
数据稀缺
现实应用
语音基石模型
-
Keywords
end-to-end Speech-to-Speech Translation(S2ST)
modeling burden
data scarcity
real-world application
speech foundation model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-