-
题名基于多模态记忆知识的密集视频描述方法
- 1
-
-
作者
方豪杰
李永刚
曹宗瑞
叶利华
-
机构
浙江理工大学计算机科学与技术学院(人工智能学院)
嘉兴大学人工智能学院
嘉兴大学全省多模态感知与智能系统重点实验室
-
出处
《电信科学》
北大核心
2025年第9期133-151,共19页
-
基金
国家重点研发计划项目(No.2023YFC3305900)
浙江省自然科学基金资助项目(No.LTGG24F020001)
嘉兴市科技计划项目(No.2023AY11047,No.2023AY11030)。
-
文摘
密集视频描述旨在从未修剪的视频中定位事件,并为每个有意义的事件生成相应的描述。现有方法主要利用源视频输入来生成描述,无法捕捉到视频中的隐含知识,即视频中隐含的视觉、音频、文本等多模态记忆知识,其中多模态记忆知识可以理解为视频内对象、动作和属性对应的有意义词集合。为解决该问题,提出了基于多模态记忆知识的密集视频描述方法,不仅利用了视频本身的多模态信息,还拓展了与视频相关的多模态记忆知识,极大地提高了密集视频描述生成的准确性。首先,该方法构建了多模态记忆知识库,设计了基于模态共享编码器的事件定位模块,实现源视频多模态特征之间的深层次融合并生成高质量事件提案。然后,模型从多模态记忆知识库中检索与候选事件提案密切相关的视觉、音频和文本记忆知识作为描述生成的先验信息。最后,该方法通过记忆增强解码器,有效地整合了多模态记忆知识和视频多模态信息,生成详细的密集视频描述。在ActivityNetCaptions和YouCook2数据集上进行了对比实验和消融实验,结果验证了该方法的有效性。
-
关键词
密集视频描述
多模态记忆知识
记忆增强解码器
交叉注意力
-
Keywords
dense video captioning
multimodal memory knowledge
memory-augmented decoder
cross-attention
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-