-
题名基于门控机制多模态信息融合的图像描述翻译
被引量:2
- 1
-
-
作者
李志峰
徐旻涵
洪宇
姚建民
周国栋
-
机构
苏州大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2024年第8期55-67,共13页
-
基金
国家自然科学基金(62076174,61773276,61836007)。
-
文摘
图像描述翻译是给定图像和图像对应某一语言的描述,采用神经网络以端到端方式融合图像和文本两种模态信息,利用翻译技术为图像描述生成目标语言的任务。传统图像描述翻译,在将源语言翻译成目标语言时,借助图像中的重要特征优化翻译过程。翻译过程中,目标词的生成依赖于源语言上下文和目标语言上下文信息。通过观察发现,源语言上下文偏于影响翻译结果的充分性和忠实度,而目标语言上下文偏于影响翻译结果的流畅性和衔接度。由于缺少有效机制来调节两种上下文信息的贡献度,翻译模型会生成流畅但不充分或者充分但不流畅的句子。针对以上问题,该文提出一种基于门控机制多模态信息融合的解码方法,用于优化现有图像描述翻译模型。该文模型通过源上下文门控调整图像特征和每个源语言词的重要度,过滤掉图像中不相关的特征;通过目标上下文门控动态调整源语言上下文和目标语言上下文对翻译结果的贡献度,从而有效提高翻译结果的充分性和流畅性。在Multi30k数据集上进行实验,验证了上述方法的有效性,在Multi30k-16英德和英法以及Multi30k-17英德和英法测试集上,BLEU-4值对比基准系统分别提升了1.3、1.0、1.5和1.4个百分点。
-
关键词
图像描述翻译
多模态机器翻译
上下文门控
忠实度及流畅度
-
Keywords
image description translation
multimodal machine translation
context gates
adequacy and fluency
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-