-
题名反向聚焦细粒度多模态语义对齐的视频字幕模型
- 1
-
-
作者
蔡霞
罗会兰
万斯奇
-
机构
江西理工大学信息工程学院
-
出处
《计算机应用研究》
北大核心
2025年第7期1986-1993,共8页
-
基金
国家自然科学基金资助项目(62361032)
江西省主要学科技术带头人领军人才计划资助项目(20213BCJ22004)
+2 种基金
江西省自然科学基金重点项目(20232ACB202011)
多维智能感知与控制江西省重点实验室资助项目(2024SSY03161)
江西省研究生创新专项资金资助项目(YC2023-S657)。
-
文摘
现有视频字幕方法常通过引入多模态信息,辅助模型从复杂多变的视觉内容中提取关键且细粒度的信息,却忽略了因不同模态间表征差异引发的语义鸿沟问题。为弥合模态间的表征差异,促进跨模态信息有效对齐和高效融合,并提升对细粒度语义信息的提取能力,提出了一个反向聚焦细粒度多模态语义对齐视频字幕模型(RM4Cap)。该模型结合图像-文本对语料库,通过实现视频与图像的语义对齐,间接完成视频与图像-文本对中文本的跨模态对齐,并设计了反向注意力聚焦算法,削弱冗余场景信息的同时,突出不显著目标及其交互关系。实验结果表明,该模型在MSVD和MSRVTT数据集上,CIDEr和BLEU-4等指标均显著优于现有方法,有效解决了多模态信息融合中的对齐困难和冗余问题,进一步验证了其在缩小跨模态语义鸿沟方面的能力。
-
关键词
视频字幕
多模态
反向注意力
语义对齐
语义鸿沟
-
Keywords
video captioning
multimodal
reverse attention
semantic alignment
semantic gap
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-