-
题名改进的密集视频描述Transformer译码算法
被引量:1
- 1
-
-
作者
杨大伟
盘晓芳
毛琳
张汝波
-
机构
大连民族大学机电工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2024年第17期89-97,共9页
-
基金
国家自然科学基金(61673084)
辽宁省自然科学基金(20180550866,2020-MZLH-24)。
-
文摘
当Transformer应用于密集视频描述时,历史文本特征会对后续文本生成产生干扰,难以捕捉视频动态信息从而影响描述的连贯性和准确性。为保持上下文一致性的同时又能缓解历史文本干扰,提出改进的密集视频描述Transformer译码算法(D-Uformer)。该算法利用前馈神经网络(FNN)增强历史文本特征表达,通过跳跃连接构建删除冗余支路和增强补足支路,利用减法降低历史文本特征过度聚焦导致描述不准确的影响,提高模型对输入视频特征的关注度;同时,利用加法弥补特征传递过程中丢失的上下文信息,生成准确且连贯表达当前视频内容的描述语句。在ActivityNet和Charades数据集上的实验结果表明,D-Uformer算法的描述性能提升明显,与视频多样性描述网络(TDPC)相比,准确性最高提升4.816%,多样性最高提升4.167%,生成的描述不仅更贴合视频内容,且更符合人类语言习惯。
-
关键词
密集视频描述
Transformer网络
译码
前馈神经网络
跳跃连接
-
Keywords
dense video description
Transformer network
decoding
feedforward neural network
skip connection
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名密集视频描述研究方法综述
被引量:3
- 2
-
-
作者
黄先开
张佳玉
王馨宇
王晓川
刘瑞军
-
机构
北京工商大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2023年第12期28-48,共21页
-
基金
国家自然科学基金(62076012)
北京市自然科学基金(4202016)。
-
文摘
密集视频描述是视频理解的重要分支之一,也是计算机视觉与自然语言处理领域交叉的热点研究方向。其主要目的是对包含丰富事件的视频进行针对内容的事件定位,并将其描述为人类日常沟通所用的自然语言。与生成单句描述文本的传统视频描述任务相比,密集视频描述的输入视频不再需要进行针对单一事件的裁剪,输出描述文本为针对视频内多个事件的描述段落。简要概述了密集视频描述方法的基本原理及存在问题,并总结了该领域主要面临的研究困难与挑战;对目前主流的密集视频描述方法,依照其对实现流程不同阶段分为基于事件建议、基于编码、基于解码、加入其他辅助模型,以及基于整体流程等五种类别,分别介绍其实现方式及优缺点;对本领域相关数据集以及评价方式进行总结,并对不同方法在相关数据集上的评价结果进行对比;简要讨论密集视频描述技术及其应用的未来发展方向。
-
关键词
密集视频描述
视频描述
视频理解
计算机视觉
自然语言处理
-
Keywords
dense video captioning
video captioning
video understanding
computer vision
natural language processin
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-