-
题名基于显著特征增强的跨模态视频片段检索
被引量:2
- 1
-
-
作者
杨金福
刘玉斌
宋琳
闫雪
-
机构
北京工业大学信息学部
计算智能与智能系统北京市重点实验室
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2022年第12期4395-4404,共10页
-
基金
国家自然科学基金(61973009)。
-
文摘
随着视频获取设备和技术的不断发展,视频数量增长快速,在海量视频中精准查找目标视频片段是具有挑战的任务。跨模态视频片段检索旨在根据输入一段查询文本,模型能够从视频库中找出符合描述的视频片段。现有的研究工作多是关注文本与候选视频片段的匹配,忽略了视频上下文的“语境”信息,在视频理解时,存在对特征关系表达不足的问题。针对此,该文提出一种基于显著特征增强的跨模态视频片段检索方法,通过构建时间相邻网络学习视频的上下文信息,然后使用轻量化残差通道注意力突出视频片段的显著特征,提升神经网络对视频语义的理解能力。在公开的数据集TACoS和ActivityNet Captions的实验结果表明,该文所提方法能更好地完成视频片段检索任务,比主流的基于匹配的方法和基于视频-文本特征关系的方法取得了更好的表现。
-
关键词
跨模态视频片段检索
时间相邻网络
残差通道注意力
特征关系
-
Keywords
Cross-modal video moment retrieval
Temporal adjacent network
Residual channel attention
Feature relationship
-
分类号
TN911.73
[电子电信—通信与信息系统]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多重对比学习的两阶段视频片段检索
- 2
-
-
作者
阎刚
王浩天
-
机构
河北工业大学人工智能与数据科学学院
-
出处
《河北工业大学学报》
2025年第2期32-41,共10页
-
基金
国家自然科学基金资助项目(62102129)。
-
文摘
随着视频资源日益丰富,跨模态视频片段检索的研究逐渐兴起,由于视频和文本来自不同的特征空间,如何学习公共特征空间解决数据间的语义鸿沟成为关键问题。现有方法利用跨模态编码器将不同模态的信息进行特征对齐,但是同一视频中的多个片段会产生相互干扰,导致视频表征过于粗糙。又由于跨模态编码器的计算量过大,导致检索时间过长。针对这2个问题,提出了一种基于多重对比学习的两阶段视频片段检索网络(MCLNet),该模型通过视频级、片段级对比学习和视频模态内对比学习,优化特征对齐,减少干扰,解决了视频表征过于粗糙的问题。另外,该模型利用两阶段方法将视频检索和时刻定位任务分为两阶段执行,使得视频可在第一阶段进行预编码存储,解决了模型检索时间过长的问题。在TVR、DiDeMo 2个视频片段检索数据集上的实验结果表明了MCLNet的有效性。
-
关键词
跨模态视频片段检索
公共特征空间
特征对齐
对比学习
视频表征
-
Keywords
cross-modal video moment retrieval
common feature space
feature alignment
contrastive learning
video representation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-