期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于门控机制多模态信息融合的图像描述翻译 被引量:2
1
作者 李志峰 徐旻涵 +2 位作者 洪宇 姚建民 周国栋 《中文信息学报》 CSCD 北大核心 2024年第8期55-67,共13页
图像描述翻译是给定图像和图像对应某一语言的描述,采用神经网络以端到端方式融合图像和文本两种模态信息,利用翻译技术为图像描述生成目标语言的任务。传统图像描述翻译,在将源语言翻译成目标语言时,借助图像中的重要特征优化翻译过程... 图像描述翻译是给定图像和图像对应某一语言的描述,采用神经网络以端到端方式融合图像和文本两种模态信息,利用翻译技术为图像描述生成目标语言的任务。传统图像描述翻译,在将源语言翻译成目标语言时,借助图像中的重要特征优化翻译过程。翻译过程中,目标词的生成依赖于源语言上下文和目标语言上下文信息。通过观察发现,源语言上下文偏于影响翻译结果的充分性和忠实度,而目标语言上下文偏于影响翻译结果的流畅性和衔接度。由于缺少有效机制来调节两种上下文信息的贡献度,翻译模型会生成流畅但不充分或者充分但不流畅的句子。针对以上问题,该文提出一种基于门控机制多模态信息融合的解码方法,用于优化现有图像描述翻译模型。该文模型通过源上下文门控调整图像特征和每个源语言词的重要度,过滤掉图像中不相关的特征;通过目标上下文门控动态调整源语言上下文和目标语言上下文对翻译结果的贡献度,从而有效提高翻译结果的充分性和流畅性。在Multi30k数据集上进行实验,验证了上述方法的有效性,在Multi30k-16英德和英法以及Multi30k-17英德和英法测试集上,BLEU-4值对比基准系统分别提升了1.3、1.0、1.5和1.4个百分点。 展开更多
关键词 图像描述翻译 多模态机器翻译 上下文门控 忠实度及流畅度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部