-
题名基于连接时序分类解码器的实时语音翻译方法
- 1
-
-
作者
张绍磊
冯洋
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
中国科学院智能算法安全重点实验室
中国科学院大学
-
出处
《计算机学报》
北大核心
2025年第5期1100-1115,共16页
-
基金
国家自然科学基金项目(No.62376260)资助。
-
文摘
实时场景中的跨语言沟通是全球化进程中的重要场景。实时语音翻译旨在通过计算机在说话者讲话的同时输出目标语言的翻译文本,在诸多实时场景中具有广泛的应用前景。当前的离线模型尽管拥有大规模参数,但其架构仍无法直接处理实时跨语言沟通场景。在此背景下,实时语音翻译对于实时性的独有要求使得其在研究和应用上具备特定的必要性。与离线语音翻译相比,实时语音翻译更具挑战性,因为其需要额外制定读/写策略以控制模型在合适的时机开始翻译,从而在低延时下获得高质量翻译。理想情况下,实时语音翻译模型应在接收到相关语音后立即生成对应的目标文本,以确保高翻译质量和低延时。因此,建模源语音和目标文本之间的对齐是指导读/写策略的关键。基于此,本文提出了一种基于连接时序分类解码器的实时语音翻译方法。该方法通过连接时序分类技术插入空白标记和重复标记,实现语音和文本不等长序列间的对齐,并根据此对齐制定读/写策略来控制模型在接收到对应的语音之后开始翻译。在训练中引入连接时序分类损失能有效地将对齐学习与目标文本生成整合在统一的框架中,从而找到最佳的读/写策略。本文在两个实时语音翻译基准上对提出的方法进行了全面评估,结果表明提出的方法在实时语音翻译性能上超过了现有最佳方法。进一步的分析实验展示了该方法的有效性和优越性。
-
关键词
实时翻译
语音翻译
机器翻译
连接时序分类
非自回归生成
对齐
-
Keywords
simultaneous translation
speech translation
machine translation
connectionist temporal classification
non-autoregressive generation
alignment
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名实时翻译研究综述
- 2
-
-
作者
张绍磊
冯洋
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
中国科学院智能算法安全重点实验室
中国科学院大学
-
出处
《中文信息学报》
北大核心
2025年第9期1-22,共22页
-
基金
国家自然科学基金(62376260)。
-
文摘
标准的机器翻译通常需要等待全部源语言输入后再开始翻译,这种离线交互模式难以满足同声传译、国际会议、跨国旅游等实时场景中的翻译需求。与之相比,实时翻译要求模型在接收源语言输入的同时生成目标语言输出,从而在低延时下完成翻译,因此逐渐受到研究人员的广泛关注。然而,由于需要决策何时开始翻译并基于不完整的输入进行翻译,实时翻译在性能上面临诸多挑战。近年来,许多研究致力于构建低延时高质量的实时翻译模型,但仍然缺少对于现有方法和研究趋势的系统梳理。该文不仅从不同应用场景出发,对现有实时翻译方法进行了详细分类和总结分析,还对实时翻译研究的发展趋势进行了展望,并系统性地整理了相关文献,为研究人员提供了快速了解该领域最新动态和未来发展方向的参考。
-
关键词
实时翻译
机器翻译
语音翻译
-
Keywords
simultaneous translation
machine translation
speech translation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-