-
题名基于多模态联合建模的端到端语音到文本翻译
- 1
-
-
作者
欧佳乐
昝红英
许鸿飞
-
机构
郑州大学计算机与人工智能学院
-
出处
《小型微型计算机系统》
北大核心
2025年第10期2338-2344,共7页
-
基金
国家自然科学基金联合基金重点支持项目(U23A20316)资助
河南省科技攻关项目(232102211041)资助
+2 种基金
国家自然科学基金青年项目(62306284)资助
中国博士后科学基金项目(2023M743189)资助
河南省自然科学基金青年项目(232300421386)资助.
-
文摘
通过联合建模或多任务学习,可以利用大规模的语音识别和文本翻译数据来提升端到端语音到文本翻译的性能.然而,现有大多数方法通常需要对语音翻译模型进行架构调整,或者依赖多阶段的预训练和微调.此外,语音与文本之间的模态差异使得使用共享编码器同时处理二者变得具有挑战性.为了解决这些问题,本文提出了一个简单的多模态联合建模框架.该框架将语音翻译和文本翻译的联合建模视作多语言神经机器翻译建模,并在自注意层中引入模态感知的相对位置编码,使用模态感知的单一编码器来同时处理语音和文本编码,而无需复杂化模型架构.然后结合大规模语音识别数据,和提出的基于翻译损失方法筛选的文本翻译数据,进行多模态联合建模训练.在两个基准测试中的实验结果表明,与基线方法相比,使用单编码器方法对内部和外部的语音识别及文本翻译数据进行联合建模后,可以显著提高多个语音翻译任务上双向翻译(从英语和到英语)的性能.
-
关键词
端到端语音到文本翻译
多模态联合建模
多语言神经机器翻译
相对位置编码
-
Keywords
end-to-end speech-to-text translation
multi-modal joint modeling
multilingual neural machine translation
relative position encoding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-