基于多语义线索的跨模态视频检索算法被引量：2

Cross-modal video retrieval algorithm based on multi-semantic clues

在线阅读下载PDF

导出

摘要针对现有的大多数跨模态视频检索算法忽略了数据中丰富的语义线索,使得生成特征的表现能力较差的问题,设计了一种基于多语义线索的跨模态视频检索模型,该模型通过多头目自注意力机制捕捉视频模态内部对语义起到重要作用的数据帧,有选择性地关注视频数据的重要信息,获取数据的全局特征;采用双向门控循环单元(GRU)捕捉多模态数据内部上下文之间的交互特征;通过对局部数据之间的细微差别进行联合编码挖掘出视频和文本数据中的局部信息。通过数据的全局特征、上下文交互特征和局部特征构成多模态数据的多语义线索,更好地挖掘数据中的语义信息,进而提高检索效果。在此基础上,提出了一种改进的三元组距离度量损失函数,采用了基于相似性排序的困难负样本挖掘方法,提升了跨模态特征的学习效果。在MSR-VTT数据集上的实验表明:与当前最先进的方法比较,所提算法在文本检索视频任务上提高了11.1%;在MSVD数据集上的实验表明:与当前先进的方法比较,所提算法在文本检索视频任务上总召回率提高了5.0%。 Most of the existing cross-modal video retrieval algorithms map heterogeneous data to a space,so that semantically similar data are close to each other and semantically dissimilar data are far from each other,that is,the global similarity relationship of different modal data is established.However,these methods ignore the rich semantic clues in the data,which makes the performance of feature generation poor.To solve this problem,we propose a cross-modal retrieval model based on multi-semantic clues.This model captures the data frames that play an important role in semantics within video model through multi-head self-attention mechanism,and pays attention to the important information of video data to obtain the global characteristics of the data.Bidirectional Gate Recurrent Unit(GRU)is used to capture the interaction characteristics between contexts within multimodal data.Our method can also mine the local information in video and text data through the joint coding of the slight differences between the local data.Through the global features,context interaction features and local features of the data,the multi-semantic clues of the multi-modal data are formed to better mine the semantic information in the data and improve the retrieval effect.Besides this,an improved triplet distance measurement loss function is proposed,which adopts the difficult negative sample mining method based on similarity sorting and improves the learning effect of cross-modal characteristics.Experiments on MSR-VTT dataset show that the proposed method improves the text retrieval video task by 11.1%compared with the state-of-the-art methods.Experiments on MSVD dataset show that the proposed method improves the text retrieval video task by 5.0%compared with the state-of-the-art methods.

作者丁洛李逸凡于成龙刘洋王轩漆舒汉 DING Luo;LI Yifan;YU Chenglong;LIU Yang;WANG Xuan;QI Shuhan(School of Computer Science and Technology,Harbin Institute of Technology(Shenzhen),Shenzhen 518055,China;School of Digital Media,Shenzhen Institute of Information Technology,Shenzhen 518172,China;Peng Cheng Laboratory,Shenzhen 518055,China)

机构地区哈尔滨工业大学(深圳)计算机科学与技术学院深圳信息职业技术学院数字媒体学院鹏城实验室

出处《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第3期596-604,共9页 Journal of Beijing University of Aeronautics and Astronautics

基金国家自然科学基金(61902093) 广东省自然科学基金(2020A1515010652)。

关键词跨模态视频检索多语义线索多头目注意力机制距离度量损失函数多模态 cross-modal video retrieval multi-semantic clues multi-leader attention mechanism distance measurement loss function multi-modal

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

作者简介丁洛,男,硕士研究生。主要研究方向:多模态检索、目标检测;李逸凡,男,博士研究生。主要研究方向:视觉问答、目标识别技术;通讯作者:漆舒汉,男,博士,教授,硕士生导师。主要研究方向:计算机视觉、多媒体信息检索和机器博弈,E-mail:shuhanqi@cs.hitsz.edu.cn。

引文网络
相关文献

参考文献2

1张鸿,吴飞,庄越挺.跨媒体相关性推理与检索研究[J].计算机研究与发展,2008,45(5):869-876. 被引量：20
2李志欣,施智平,陈宏朝,吴璟莉.基于语义学习的图像多模态检索[J].计算机工程,2013,39(3):258-263. 被引量：6

二级参考文献32

1施智平,胡宏,李清勇,史忠植,段禅伦.基于纹理谱描述子的图像检索[J].软件学报,2005,16(6):1039-1045. 被引量：44
2张静,路红,薛向阳.基于索引结构的高效运动视频检索[J].计算机研究与发展,2006,43(11):1953-1958. 被引量：3
3庄毅,庄越挺,吴飞.Composite Distance Transformation for Indexing and κ-Nearest-Neighbor Searching in High-Dimensional Spaces[J].Journal of Computer Science & Technology,2007,22(2):208-217. 被引量：3
4Yong Rui,Thomas S Huang,Shih-Fu Chang.Image retrieval:Current techniques,promising directions and open Issues[J].Journal of Visual Communication and Image Representation,1999,10(1):39-62
5H McGurk,J MacDonald.Heating lips and seeing voices[J].Nature,1976,264(5588):746-748
6A Calvert.Cross-modal processing in the human brain:insights from functional neuron imaging studie[J].Cerebral Cortex,2001,11(12):1120-1123
7J Foote.An overview of audio information retrieval[J].ACM Multimedia Systems,1999,7(1):2-11
8Xinjing Wang,Weiying Ma,Guirong Xue,et al.Multimodel similarity propagation and its application for Web image retrieval[C].The 12th ACM Int'l Conf on Multimedia,New York,2004
9T Westerveld.Probabilistic multimedia retrieval[C].The 25th Int'l ACM SIGIR Conf on Research and Development in Intormation Retrieval,Tampere,Finland,2002
10R K Srihari,A B Rao,B Han,et al.A model for multimodal information Retrieval[C].IEEE Int'l Conf on Multimedia and Expo,New York,2000

共引文献23

1刘亚楠,吴飞,庄越挺.基于多模态子空间相关性传递的视频语义挖掘[J].计算机研究与发展,2009,46(1):1-8. 被引量：12
2冯根尧,张丽彬,张晓霞.媒介融合时代的文化产品创新与传播[J].经济研究导刊,2012(3):258-259. 被引量：6
3李广丽,张红斌.基于颜色特征相似度判别的肿瘤图像检索研究[J].计算机工程与设计,2012,33(11):4272-4277. 被引量：2
4李广丽,张红斌,移梦阳.数字图书馆中跨媒体检索模型的设计及优化探索[J].情报理论与实践,2013,36(2):104-108. 被引量：5
5宁建红,吴显勰,杨尚衡.跨媒体检索研究[J].福建电脑,2013,29(4):4-6.
6蒋建国,顾占冰,胡珍珍,齐美彬.多摄像机视域内的目标活动分析[J].电子学报,2014,42(2):306-311. 被引量：8
7吕元智.数字档案资源跨媒体语义检索实现框架与关键问题研究[J].档案学研究,2014(2):65-70. 被引量：8
8张兴旺,黄晓斌.数字图书馆跨媒体检索研究综述[J].情报资料工作,2014,35(3):37-42. 被引量：7
9刘颖,范九伦,李宗,黄源,燕皓阳.现勘图像数据库检索技术实例探讨[J].西安邮电大学学报,2015,20(3):11-20. 被引量：24
10董永亮,柴旭清.基于潜在语义的双层图像-文本多模态检索语义网络[J].计算机工程,2016,42(7):299-303. 被引量：6

同被引文献40

1李平安,王宗彦,吴淑芳,黄启良,何喜东.PDM环境下机械产品快速设计平台的研究与实现[J].现代制造工程,2010(10):47-51. 被引量：5
2同鸣,丁力伟,刘莹莹.多维语义线索和HCRF模型的足球视频精彩事件检测[J].计算机辅助设计与图形学学报,2013,25(11):1715-1724. 被引量：1
3廖一鸣,万剑华,臧文乾,刘文宋,林英豪.视频卫星数据的运动车辆提取[J].测绘科学,2018,43(4):144-149. 被引量：4
4何进,李洪文,陈海涛,卢彩云,王庆杰.保护性耕作技术与机具研究进展[J].农业机械学报,2018,49(4):1-19. 被引量：158
5李祥琴,杨利.Oracle关系数据库的运行效率优化技术分析[J].微电子学与计算机,2018,35(10):112-115. 被引量：3
6梁建胜,温贺平.基于深度学习的视频关键帧提取与视频检索[J].控制工程,2019,26(5):965-970. 被引量：22
7韩丰宇,范荣双,梁勇,张航,夏普.一种运动目标轨迹提取方法[J].测绘科学,2019,44(7):116-121. 被引量：6
8陈威,曹成茂,赵正涛,秦宽,程振勇.气吹式防堵大豆免耕播种机设计与试验[J].东北农业大学学报,2019,50(10):71-79. 被引量：6
9赵慧慧,赵凡,陈仁海,冯志勇.基于地理空间大数据的高效索引与检索算法[J].计算机研究与发展,2020,57(2):333-345. 被引量：24
10李茜,周华健,杨浩运,殷海兵.一种基于listwise的在线学习书目排序检索算法[J].计算机工程与科学,2020,42(4):749-754. 被引量：7

引证文献2

1刘宏新,周丽丽,张一鸣,赵一健,解勇涛.免耕播种装备PDM系统影像资源管理研究[J].农业机械学报,2023,54(2):198-207. 被引量：1
2王辉,张晓明,鲍丽芳,惠安,肖岚.基于云存储的电子档案数据跨域安全检索算法研究[J].集成电路与嵌入式系统,2025,25(3):66-72.

二级引证文献1

1徐洪伟.免耕播种机播深控制系统的设计[J].农机使用与维修,2023(7):26-28. 被引量：1

1青云QingCloud与寒武纪强强联合AIoT与边缘智能迎来新契机[J].世界电子元器件,2020(8):5-5.
2彭思扬.细读古代诗人心中的“不遇”[J].启迪,2021(4):17-18.
3刘永春,王秋花,郭庆波,高发廷.基于普通MCU实现SENT接口数据的采集[J].汽车电器,2021(4):52-54. 被引量：3
4蒙梁,盛丽丽,龚华达.基于标签交换的AOS帧自建链设计[J].广西通信技术,2020(1):44-46. 被引量：1
5朱超,苗腾,许童羽,李娜,邓寒冰,周云成.基于骨架和最优传输距离的玉米点云茎叶分割和表型提取[J].农业工程学报,2021,37(4):188-198. 被引量：10
6杨光明.基于内容检索的视频处理技术[J].卫星电视与宽带多媒体,2021(6):16-18.
7陈雁鹏.试析基于虚拟现实的多媒体交互设计研究[J].数码设计,2021,10(8):214-215.
8张丽娟,崔天舒,井佩光,苏育挺.基于深度多模态特征融合的短视频分类[J].北京航空航天大学学报,2021,47(3):478-485. 被引量：12
9马辉.基于深度特征融合的面部表情智能识别技术[J].科学技术创新,2021(11):78-79. 被引量：1
10王治和,王淑艳,杜辉.基于密度敏感距离的改进模糊C均值聚类算法[J].计算机工程,2021,47(5):88-96. 被引量：18

北京航空航天大学学报

2021年第3期

浏览历史

内容加载中请稍等...

基于多语义线索的跨模态视频检索算法被引量：2

参考文献2

二级参考文献32

共引文献23

同被引文献40

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多语义线索的跨模态视频检索算法 被引量：2

参考文献2

二级参考文献32

共引文献23

同被引文献40

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多语义线索的跨模态视频检索算法被引量：2