-
题名基于连接时序分类解码器的实时语音翻译方法
- 1
-
-
作者
张绍磊
冯洋
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
中国科学院智能算法安全重点实验室
中国科学院大学
-
出处
《计算机学报》
北大核心
2025年第5期1100-1115,共16页
-
基金
国家自然科学基金项目(No.62376260)资助。
-
文摘
实时场景中的跨语言沟通是全球化进程中的重要场景。实时语音翻译旨在通过计算机在说话者讲话的同时输出目标语言的翻译文本,在诸多实时场景中具有广泛的应用前景。当前的离线模型尽管拥有大规模参数,但其架构仍无法直接处理实时跨语言沟通场景。在此背景下,实时语音翻译对于实时性的独有要求使得其在研究和应用上具备特定的必要性。与离线语音翻译相比,实时语音翻译更具挑战性,因为其需要额外制定读/写策略以控制模型在合适的时机开始翻译,从而在低延时下获得高质量翻译。理想情况下,实时语音翻译模型应在接收到相关语音后立即生成对应的目标文本,以确保高翻译质量和低延时。因此,建模源语音和目标文本之间的对齐是指导读/写策略的关键。基于此,本文提出了一种基于连接时序分类解码器的实时语音翻译方法。该方法通过连接时序分类技术插入空白标记和重复标记,实现语音和文本不等长序列间的对齐,并根据此对齐制定读/写策略来控制模型在接收到对应的语音之后开始翻译。在训练中引入连接时序分类损失能有效地将对齐学习与目标文本生成整合在统一的框架中,从而找到最佳的读/写策略。本文在两个实时语音翻译基准上对提出的方法进行了全面评估,结果表明提出的方法在实时语音翻译性能上超过了现有最佳方法。进一步的分析实验展示了该方法的有效性和优越性。
-
关键词
实时翻译
语音翻译
机器翻译
连接时序分类
非自回归生成
对齐
-
Keywords
simultaneous translation
speech translation
machine translation
connectionist temporal classification
non-autoregressive generation
alignment
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-