-
题名基于层次化视觉注意力的富语义视频对话生成
被引量:1
- 1
-
-
作者
赵倩
郭斌
刘宇博
孙卓
王豪
陈梦琦
-
机构
西北工业大学计算机学院
-
出处
《计算机科学》
北大核心
2025年第1期315-322,共8页
-
基金
国家杰出青年科学基金(62025205)
国家自然科学基金(62032020,62102322)。
-
文摘
视频对话是多模态人机交互领域中的重要内容。视频对话中包含大量时空视觉信息和复杂的多模态关系,这给相关研究带来了巨大的挑战。现有的视频对话模型利用跨模态注意力机制或图结构捕捉视频语义和对话上下文之间的相关性,然而,所有视觉信息均是在单一粗粒度下处理的,这导致模型容易忽略一些细粒度时空信息,如同一物体在时间上的持续运动或图像不显著位置的物体信息,从而降低了视频对话性能。同时,细粒度处理全部视觉信息又将增加处理时延,降低视频对话的流畅性。因此,提出了一种层次化视觉注意力的富语义视频对话生成方法。首先根据对话上下文,利用全局视觉注意力捕捉全局视觉语义信息,并定位到对话输入关注的视频时间序列/空间范围,其次利用局部注意力机制进一步捕捉细粒度视觉信息,结合多任务学习方法,生成对话回复。在DSTC7 AVSD数据集上的实验结果表明,相比现有基准方法,所提方法生成的对话具备更高的准确性和多样性,其中METEOR指标提高了23.24%。
-
关键词
多模态人机交互
层次化注意力机制
多任务学习
场景感知
-
Keywords
Multi-modal human-computer interaction
Hierarchical attention mechanism
Multi-task learning
Scene perception
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-