期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
改进的密集视频描述Transformer译码算法 被引量:1
1
作者 杨大伟 盘晓芳 +1 位作者 毛琳 张汝波 《计算机工程与应用》 CSCD 北大核心 2024年第17期89-97,共9页
当Transformer应用于密集视频描述时,历史文本特征会对后续文本生成产生干扰,难以捕捉视频动态信息从而影响描述的连贯性和准确性。为保持上下文一致性的同时又能缓解历史文本干扰,提出改进的密集视频描述Transformer译码算法(D-Uformer... 当Transformer应用于密集视频描述时,历史文本特征会对后续文本生成产生干扰,难以捕捉视频动态信息从而影响描述的连贯性和准确性。为保持上下文一致性的同时又能缓解历史文本干扰,提出改进的密集视频描述Transformer译码算法(D-Uformer)。该算法利用前馈神经网络(FNN)增强历史文本特征表达,通过跳跃连接构建删除冗余支路和增强补足支路,利用减法降低历史文本特征过度聚焦导致描述不准确的影响,提高模型对输入视频特征的关注度;同时,利用加法弥补特征传递过程中丢失的上下文信息,生成准确且连贯表达当前视频内容的描述语句。在ActivityNet和Charades数据集上的实验结果表明,D-Uformer算法的描述性能提升明显,与视频多样性描述网络(TDPC)相比,准确性最高提升4.816%,多样性最高提升4.167%,生成的描述不仅更贴合视频内容,且更符合人类语言习惯。 展开更多
关键词 密集视频描述 Transformer网络 译码 前馈神经网络 跳跃连接
在线阅读 下载PDF
密集视频描述研究方法综述 被引量:3
2
作者 黄先开 张佳玉 +2 位作者 王馨宇 王晓川 刘瑞军 《计算机工程与应用》 CSCD 北大核心 2023年第12期28-48,共21页
密集视频描述是视频理解的重要分支之一,也是计算机视觉与自然语言处理领域交叉的热点研究方向。其主要目的是对包含丰富事件的视频进行针对内容的事件定位,并将其描述为人类日常沟通所用的自然语言。与生成单句描述文本的传统视频描述... 密集视频描述是视频理解的重要分支之一,也是计算机视觉与自然语言处理领域交叉的热点研究方向。其主要目的是对包含丰富事件的视频进行针对内容的事件定位,并将其描述为人类日常沟通所用的自然语言。与生成单句描述文本的传统视频描述任务相比,密集视频描述的输入视频不再需要进行针对单一事件的裁剪,输出描述文本为针对视频内多个事件的描述段落。简要概述了密集视频描述方法的基本原理及存在问题,并总结了该领域主要面临的研究困难与挑战;对目前主流的密集视频描述方法,依照其对实现流程不同阶段分为基于事件建议、基于编码、基于解码、加入其他辅助模型,以及基于整体流程等五种类别,分别介绍其实现方式及优缺点;对本领域相关数据集以及评价方式进行总结,并对不同方法在相关数据集上的评价结果进行对比;简要讨论密集视频描述技术及其应用的未来发展方向。 展开更多
关键词 密集视频描述 视频描述 视频理解 计算机视觉 自然语言处理
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部