引入多模态信息提升知识图谱链接预测的性能成为最近的研究热点,然而这些方法通常只采用简单的拼接或注意力机制进行多模态特征融合,忽视了不同模态间的关联性和语义不一致性,难以保留各模态中的特定信息,且不能有效利用各模态间的信息...引入多模态信息提升知识图谱链接预测的性能成为最近的研究热点,然而这些方法通常只采用简单的拼接或注意力机制进行多模态特征融合,忽视了不同模态间的关联性和语义不一致性,难以保留各模态中的特定信息,且不能有效利用各模态间的信息互补性。针对上述问题,提出一个基于跨模态注意力机制及对比学习的多模态知识图谱链接预测模型FITILP(Fusing Image and Textual Information for Link Prediction)。首先,基于预训练模型BERT(Bidirectional Encoder Representation of Transformer)和ResNet(Residual Network)分别提取实体的文本和图像特征;其次,利用对比学习(CL)方法减小不同模态间的语义不一致性,设计跨模态注意力模块,通过图像特征优化文本特征的注意力参数,增强文本与图像间的跨模态关联性,并结合TransE(Translating Embeddings)和TransH(Translation on Hyperplanes)等翻译模型生成图结构、图像和文本特征;最后,整合上述3类特征完成实体间的链接预测。在DB15K数据集上的实验结果表明,与对应的单模态方法 TransE相比,FITILP模型的平均排名倒数(MRR)提升了6.6个百分点,Hits@1、Hits@10、Hits@100分别提升了3.95、11.37、14.01个百分点。所提方法在链接预测任务上的表现优于对比的基线方法,能够有效利用多模态信息提升链接预测的性能。展开更多
文摘引入多模态信息提升知识图谱链接预测的性能成为最近的研究热点,然而这些方法通常只采用简单的拼接或注意力机制进行多模态特征融合,忽视了不同模态间的关联性和语义不一致性,难以保留各模态中的特定信息,且不能有效利用各模态间的信息互补性。针对上述问题,提出一个基于跨模态注意力机制及对比学习的多模态知识图谱链接预测模型FITILP(Fusing Image and Textual Information for Link Prediction)。首先,基于预训练模型BERT(Bidirectional Encoder Representation of Transformer)和ResNet(Residual Network)分别提取实体的文本和图像特征;其次,利用对比学习(CL)方法减小不同模态间的语义不一致性,设计跨模态注意力模块,通过图像特征优化文本特征的注意力参数,增强文本与图像间的跨模态关联性,并结合TransE(Translating Embeddings)和TransH(Translation on Hyperplanes)等翻译模型生成图结构、图像和文本特征;最后,整合上述3类特征完成实体间的链接预测。在DB15K数据集上的实验结果表明,与对应的单模态方法 TransE相比,FITILP模型的平均排名倒数(MRR)提升了6.6个百分点,Hits@1、Hits@10、Hits@100分别提升了3.95、11.37、14.01个百分点。所提方法在链接预测任务上的表现优于对比的基线方法,能够有效利用多模态信息提升链接预测的性能。