期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
反向聚焦细粒度多模态语义对齐的视频字幕模型
1
作者 蔡霞 罗会兰 万斯奇 《计算机应用研究》 北大核心 2025年第7期1986-1993,共8页
现有视频字幕方法常通过引入多模态信息,辅助模型从复杂多变的视觉内容中提取关键且细粒度的信息,却忽略了因不同模态间表征差异引发的语义鸿沟问题。为弥合模态间的表征差异,促进跨模态信息有效对齐和高效融合,并提升对细粒度语义信息... 现有视频字幕方法常通过引入多模态信息,辅助模型从复杂多变的视觉内容中提取关键且细粒度的信息,却忽略了因不同模态间表征差异引发的语义鸿沟问题。为弥合模态间的表征差异,促进跨模态信息有效对齐和高效融合,并提升对细粒度语义信息的提取能力,提出了一个反向聚焦细粒度多模态语义对齐视频字幕模型(RM4Cap)。该模型结合图像-文本对语料库,通过实现视频与图像的语义对齐,间接完成视频与图像-文本对中文本的跨模态对齐,并设计了反向注意力聚焦算法,削弱冗余场景信息的同时,突出不显著目标及其交互关系。实验结果表明,该模型在MSVD和MSRVTT数据集上,CIDEr和BLEU-4等指标均显著优于现有方法,有效解决了多模态信息融合中的对齐困难和冗余问题,进一步验证了其在缩小跨模态语义鸿沟方面的能力。 展开更多
关键词 视频字幕 多模态 反向注意力 语义对齐 语义鸿沟
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部