期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于显著特征增强的跨模态视频片段检索 被引量:2
1
作者 杨金福 刘玉斌 +1 位作者 宋琳 闫雪 《电子与信息学报》 EI CSCD 北大核心 2022年第12期4395-4404,共10页
随着视频获取设备和技术的不断发展,视频数量增长快速,在海量视频中精准查找目标视频片段是具有挑战的任务。跨模态视频片段检索旨在根据输入一段查询文本,模型能够从视频库中找出符合描述的视频片段。现有的研究工作多是关注文本与候... 随着视频获取设备和技术的不断发展,视频数量增长快速,在海量视频中精准查找目标视频片段是具有挑战的任务。跨模态视频片段检索旨在根据输入一段查询文本,模型能够从视频库中找出符合描述的视频片段。现有的研究工作多是关注文本与候选视频片段的匹配,忽略了视频上下文的“语境”信息,在视频理解时,存在对特征关系表达不足的问题。针对此,该文提出一种基于显著特征增强的跨模态视频片段检索方法,通过构建时间相邻网络学习视频的上下文信息,然后使用轻量化残差通道注意力突出视频片段的显著特征,提升神经网络对视频语义的理解能力。在公开的数据集TACoS和ActivityNet Captions的实验结果表明,该文所提方法能更好地完成视频片段检索任务,比主流的基于匹配的方法和基于视频-文本特征关系的方法取得了更好的表现。 展开更多
关键词 跨模态视频片段检索 时间相邻网络 残差通道注意力 特征关系
在线阅读 下载PDF
基于多重对比学习的两阶段视频片段检索
2
作者 阎刚 王浩天 《河北工业大学学报》 2025年第2期32-41,共10页
随着视频资源日益丰富,跨模态视频片段检索的研究逐渐兴起,由于视频和文本来自不同的特征空间,如何学习公共特征空间解决数据间的语义鸿沟成为关键问题。现有方法利用跨模态编码器将不同模态的信息进行特征对齐,但是同一视频中的多个片... 随着视频资源日益丰富,跨模态视频片段检索的研究逐渐兴起,由于视频和文本来自不同的特征空间,如何学习公共特征空间解决数据间的语义鸿沟成为关键问题。现有方法利用跨模态编码器将不同模态的信息进行特征对齐,但是同一视频中的多个片段会产生相互干扰,导致视频表征过于粗糙。又由于跨模态编码器的计算量过大,导致检索时间过长。针对这2个问题,提出了一种基于多重对比学习的两阶段视频片段检索网络(MCLNet),该模型通过视频级、片段级对比学习和视频模态内对比学习,优化特征对齐,减少干扰,解决了视频表征过于粗糙的问题。另外,该模型利用两阶段方法将视频检索和时刻定位任务分为两阶段执行,使得视频可在第一阶段进行预编码存储,解决了模型检索时间过长的问题。在TVR、DiDeMo 2个视频片段检索数据集上的实验结果表明了MCLNet的有效性。 展开更多
关键词 跨模态视频片段检索 公共特征空间 特征对齐 对比学习 视频表征
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部