期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于交叉注意力与语义感知的视频内容描述
1
作者 张晶 周凯 吴文涛 《印刷与数字媒体技术研究》 北大核心 2025年第2期213-222,共10页
针对现有视频内容描述方法忽略对视频中活动信息的关注、对关键信息挖掘不够充分的问题,本研究提出了一种基于交叉注意力和语义感知的视频内容描述方法。首先,以视频活动为边界,利用聚类算法将视频切分为多个不同时长的视频片段,并提取... 针对现有视频内容描述方法忽略对视频中活动信息的关注、对关键信息挖掘不够充分的问题,本研究提出了一种基于交叉注意力和语义感知的视频内容描述方法。首先,以视频活动为边界,利用聚类算法将视频切分为多个不同时长的视频片段,并提取各片段的视觉特征;然后,使用设计的语义感知模块为视频设置语义标签;最后,构建交叉模态注意力模块,加强视觉特征中关键信息的特征表示,生成描述语句,并在公开数据集上测试验证。结果表明,本研究模型在BLEU、METEOR和ROUGE-L指标上有显著的提升,相较于当前的主流视频内容描述模型,在单词匹配、语义匹配、可读性等多方面有明显的改善。 展开更多
关键词 视频内容描述 视频理解 注意力机制 多模态 语义检测
在线阅读 下载PDF
基于S-YOLO V5和Vision Transformer的视频内容描述算法 被引量:1
2
作者 徐鹏 李铁柱 职保平 《印刷与数字媒体技术研究》 CAS 北大核心 2023年第4期212-222,共11页
视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于... 视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于神经网络模型KATNA提取关键帧,以最少帧数进行模型训练;其次,利用S-YOLO V5模型提取视频帧中的语义信息,并结合预训练ResNet101模型和预训练C3D模型提取视频静态视觉特征和动态视觉特征,并对两种模态特征进行融合;然后,基于ViT结构的强大长距离编码能力,构建模型编码器对融合特征进行长距离依赖编码;最后,将编码器的输出作为LSTM解码器的输入,依次输出预测词,生成最终的自然语言描述。通过在MSR-VTT数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为42.9、28.8、62.4和51.4;在MSVD数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为56.8、37.6、74.5以及98.5。与当前主流模型相比,本研究模型在多项评价指标上表现优异。 展开更多
关键词 视频内容描述 S-YOLO V5 Vision Transformer 多头注意力
在线阅读 下载PDF
基于ViT与语义引导的视频内容描述生成 被引量:2
3
作者 赵宏 陈志文 +1 位作者 郭岚 安冬 《计算机工程》 CAS CSCD 北大核心 2023年第5期247-254,共8页
现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(S... 现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(SDN)。在此基础上,通过ViT模型对静态和动态视觉特征进行全局编码,并与SDN提取的语义特征进行注意力融合,采用语义长短期记忆网络对融合特征进行解码,生成视频对应的描述文本。通过引入视频中的语义特征能够引导模型生成更符合人类习惯的描述,使生成的描述更具可读性。在MSR-VTT数据集上的测试结果表明,该模型的BLEU-4、METEOR、ROUGE-L和CIDEr指标分别为44.8、28.9、62.8和51.1,相比于当前主流的视频内容描述模型ADL和SBAT,提升的得分总和达到16.6和16.8。 展开更多
关键词 视频内容描述 视频理解 ViT模型 语义引导 长短期记忆网络 注意力机制
在线阅读 下载PDF
iMakeup:特定领域的大规模长视频数据集——用于细粒度视频语义内容描述 被引量:1
4
作者 林霄竹 金琴 陈师哲 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2019年第8期1350-1357,共8页
实际生活中,大多数视频均含有若干动作或物体,简单的单句描述难以展现视频中的全部信息,而各类长视频中,教学视频步骤清晰、逻辑明确,容易从中提取特征并使用深度学习相关算法进行实验验证,从长视频中提取复杂信息成为研究人员日益关注... 实际生活中,大多数视频均含有若干动作或物体,简单的单句描述难以展现视频中的全部信息,而各类长视频中,教学视频步骤清晰、逻辑明确,容易从中提取特征并使用深度学习相关算法进行实验验证,从长视频中提取复杂信息成为研究人员日益关注的问题之一.为此,文中收集整理了一个命名为iMakeup的大规模的美妆类教学视频数据集,其包含总时长256 h的热门50类2000个长视频,以及12823个短视频片段,每个片段均根据视频的逻辑步骤顺序进行划分,并标注起止时间和自然语句描述.文中主要通过视频网站下载收集原始视频,并请志愿者对视频的详细内容进行人工标注;同时统计分析了此数据集的规模大小和文本内容,并与其他类似研究领域的若干数据集进行对比;最后,展示了在此数据集上进行视频语义内容描述的基线实验效果,验证了此数据集在视频语义内容描述任务中的可行性.iMakeup数据集在收集整理时注重内容多样性和类别完整性,包含丰富的视觉、听觉甚至统计信息.除了基本的视频语义内容描述任务之外,该数据集还可用于视频分割、物体检测、时尚智能化推荐等多个前沿领域. 展开更多
关键词 大规模数据集 美妆 视频语义内容描述 视频分割
在线阅读 下载PDF
基于MPEG-7标准的视频描述 被引量:1
5
作者 汤义 李国辉 倪泞 《计算机工程与科学》 CSCD 2003年第5期46-49,共4页
随着多媒体技术和Web技术的发展,出现了大量的多媒体数据。为了更好地管理和检索多媒体数据,我们需要一种描述多媒体内容的标准。本文根据标准化的描述框架—MPEG-7,提出了视频对象特征提取与检索系统中的描述原型,主要包括MPEG-7标准... 随着多媒体技术和Web技术的发展,出现了大量的多媒体数据。为了更好地管理和检索多媒体数据,我们需要一种描述多媒体内容的标准。本文根据标准化的描述框架—MPEG-7,提出了视频对象特征提取与检索系统中的描述原型,主要包括MPEG-7标准的内容描述和视觉描述。最后,讨论了一些与视频描述相关的问题。 展开更多
关键词 MPEG-7 图像编码标准主 视频内容描述 多媒体 计算机
在线阅读 下载PDF
基于多模态融合与多层注意力的视频内容文本表述研究 被引量:10
6
作者 赵宏 郭岚 +1 位作者 陈志文 郑厚泽 《计算机工程》 CAS CSCD 北大核心 2022年第10期45-54,共10页
针对现有视频内容文本表述模型存在生成的文本表述单一、准确率不高等问题,提出一种融合帧级图像及音频信息的视频内容文本表述模型。基于自注意力机制设计单模态嵌入层网络结构,并将其嵌入单模态特征中学习单模态特征参数。采用联合表... 针对现有视频内容文本表述模型存在生成的文本表述单一、准确率不高等问题,提出一种融合帧级图像及音频信息的视频内容文本表述模型。基于自注意力机制设计单模态嵌入层网络结构,并将其嵌入单模态特征中学习单模态特征参数。采用联合表示、协作表示两种方法对单模态嵌入层输出的高维特征向量进行双模态特征融合,使模型能关注视频中不同目标间的交互关系,从而生成更加丰富、准确的视频文本表述。使用大规模数据集对模型进行预训练,并提取视频帧、视频所携带的音频等表征信息,将其送入编解码器实现视频内容的文本表述。在MSR-VTT和LSMDC数据集上的实验结果表明,所提模型的BLEU4、METEOR、ROUGEL和CIDEr指标分别为0.386、0.250、0.609和0.463,相较于MSR-VTT挑战赛中IIT DeIhi发布的模型,分别提升了0.082、0.037、0.115和0.257,能有效提升视频内容文本表述的准确率。 展开更多
关键词 视频内容文本描述 多模态融合 联合表示 协作表示 自注意力机制
在线阅读 下载PDF
基于Vision Transformer和语义学习的视频描述模型 被引量:1
7
作者 王翀 查易艺 +3 位作者 顾颖程 宋玉 程环宇 林杉 《印刷与数字媒体技术研究》 CAS 北大核心 2023年第5期49-59,68,共12页
针对当前视频内容描述任务中所生成的描述语句晦涩难懂问题,本研究提出一种基于ViT(Vision Transformer)和语义学习的视频描述模型。首先,采用深度可分离卷积优化ResNet152、C3D等特征提取网络,通过减少网络参数,降低模型时间开销;其次... 针对当前视频内容描述任务中所生成的描述语句晦涩难懂问题,本研究提出一种基于ViT(Vision Transformer)和语义学习的视频描述模型。首先,采用深度可分离卷积优化ResNet152、C3D等特征提取网络,通过减少网络参数,降低模型时间开销;其次,利用多模态融合网络融合多种模态特征,使不同模态进行语义对齐;然后,基于Vision Transformer网络建立一种长距离依赖性编码器,并结合时间注意力机制,在生成每个单词时有选择性地聚焦视频中的特定帧;最后,在解码阶段,利用LSTM循环网络并引入语义信息,使模型生成的描述更具可读性。通过在MSR-VTT数据集上进行测试,本研究模型可以实现0.425、0.288、0.624和0.538分的BLEU4、METEOR、ROUGE-L和CIDEr得分;在MSVD数据集上的BLEU4、METEOR、ROUGE-L和CIDEr得分分别达到了0.564、0.369、0.741和0.964分。相比当前主流视频内容描述模型,所提模型具有更好的描述生成效果。 展开更多
关键词 视频内容描述 语义学习 Vision Transformer 多模态 SCN解码器
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部