-
题名基于细粒度视觉与音视双分支融合的情感视频字幕生成
- 1
-
-
作者
龚禹轩
韩婷婷
-
机构
杭州电子科技大学计算机学院
-
出处
《数据采集与处理》
北大核心
2025年第5期1165-1176,共12页
-
文摘
情感视频字幕生成作为融合视觉语义解析与情感感知的跨模态任务,其核心挑战在于精准捕捉视觉内容中蕴含的情感线索。现有方法存在两点显著不足:一是对视频中主体(人物、物体等)与其外观特征、动作特征间的细粒度语义关联挖掘不够充分,导致视觉内容理解缺乏精细化支撑;二是忽视了音频模态在情感判别与内容语义对齐中的辅助价值,限制了跨模态信息的综合利用。针对上述问题,本文提出细粒度视觉与音视双分支融合框架。其中,细粒度视觉特征融合模块通过视觉、物体、动作特征的两两交互与深度融合,有效建模视频实体与视觉上下文间的细粒度语义关联,实现对视频内容的精细化解析;音频-视觉双分支全局融合模块则构建跨模态交互通道,将整合后的视觉特征与音频特征进行深层融合,充分发挥音频信息在情感线索传递与语义约束上的补充作用。在公开基准数据集上对本文方法进行验证,其评价指标均优于CANet、EPAN等对比方法,情感指标比EPAN方法平均提高4%,语义指标平均提升0.5,综合指标平均提升0.7。实验结果表明本文方法能有效提升情感视频字幕生成的质量。
-
关键词
情感视频字幕生成
跨模态情感感知
细粒度特征融合
注意力机制
视频理解
-
Keywords
emotional video captioning
cross-modal emotional perception
fine-grained feature fusion
attention mechanism
video understanding
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-