检索结果-维普期刊中文期刊服务平台

基于交叉注意力与语义感知的视频内容描述: 1; 作者张晶周凯吴文涛《印刷与数字媒体技术研究》北大核心 2025年第2期213-222,共10页; 针对现有视频内容描述方法忽略对视频中活动信息的关注、对关键信息挖掘不够充分的问题,本研究提出了一种基于交叉注意力和语义感知的视频内容描述方法。首先,以视频活动为边界,利用聚类算法将视频切分为多个不同时长的视频片段,并提取... 展开更多; 关键词视频内容描述视频理解注意力机制多模态语义检测; 在线阅读下载PDF 职称材料

基于S-YOLO V5和Vision Transformer的视频内容描述算法被引量：1: 2; 作者徐鹏李铁柱职保平《印刷与数字媒体技术研究》 CAS 北大核心 2023年第4期212-222,共11页; 视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于... 展开更多; 关键词视频内容描述 S-YOLO V5 Vision Transformer 多头注意力; 在线阅读下载PDF 职称材料

基于ViT与语义引导的视频内容描述生成被引量：2: 3; 作者赵宏陈志文 +1 位作者郭岚安冬《计算机工程》 CAS CSCD 北大核心 2023年第5期247-254,共8页; 现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(S... 展开更多; 关键词视频内容描述视频理解 ViT模型语义引导长短期记忆网络注意力机制; 在线阅读下载PDF 职称材料

iMakeup:特定领域的大规模长视频数据集——用于细粒度视频语义内容描述被引量：1: 4; 作者林霄竹金琴陈师哲《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2019年第8期1350-1357,共8页; 实际生活中,大多数视频均含有若干动作或物体,简单的单句描述难以展现视频中的全部信息,而各类长视频中,教学视频步骤清晰、逻辑明确,容易从中提取特征并使用深度学习相关算法进行实验验证,从长视频中提取复杂信息成为研究人员日益关注... 展开更多; 关键词大规模数据集美妆视频语义内容描述视频分割; 在线阅读下载PDF 职称材料

基于MPEG-7标准的视频描述被引量：1: 5; 作者汤义李国辉倪泞《计算机工程与科学》 CSCD 2003年第5期46-49,共4页; 随着多媒体技术和Web技术的发展,出现了大量的多媒体数据。为了更好地管理和检索多媒体数据,我们需要一种描述多媒体内容的标准。本文根据标准化的描述框架—MPEG-7,提出了视频对象特征提取与检索系统中的描述原型,主要包括MPEG-7标准... 展开更多; 关键词 MPEG-7 图像编码标准主视频内容描述多媒体计算机; 在线阅读下载PDF 职称材料

基于多模态融合与多层注意力的视频内容文本表述研究被引量：10: 6; 作者赵宏郭岚 +1 位作者陈志文郑厚泽《计算机工程》 CAS CSCD 北大核心 2022年第10期45-54,共10页; 针对现有视频内容文本表述模型存在生成的文本表述单一、准确率不高等问题,提出一种融合帧级图像及音频信息的视频内容文本表述模型。基于自注意力机制设计单模态嵌入层网络结构,并将其嵌入单模态特征中学习单模态特征参数。采用联合表... 展开更多; 关键词视频内容文本描述多模态融合联合表示协作表示自注意力机制; 在线阅读下载PDF 职称材料

基于Vision Transformer和语义学习的视频描述模型被引量：1: 7; 作者王翀查易艺 +3 位作者顾颖程宋玉程环宇林杉《印刷与数字媒体技术研究》 CAS 北大核心 2023年第5期49-59,68,共12页; 针对当前视频内容描述任务中所生成的描述语句晦涩难懂问题,本研究提出一种基于ViT(Vision Transformer)和语义学习的视频描述模型。首先,采用深度可分离卷积优化ResNet152、C3D等特征提取网络,通过减少网络参数,降低模型时间开销;其次... 展开更多; 关键词视频内容描述语义学习 Vision Transformer 多模态 SCN解码器; 在线阅读下载PDF 职称材料

题名基于交叉注意力与语义感知的视频内容描述: 1; 作者张晶周凯吴文涛; 机构山西铁道职业技术学院智能控制系太原理工大学信息与计算机学院中国空间技术研究院西安分院; 出处《印刷与数字媒体技术研究》北大核心 2025年第2期213-222,共10页; 基金国家自然科学基金项目(No.61802124)。; 文摘针对现有视频内容描述方法忽略对视频中活动信息的关注、对关键信息挖掘不够充分的问题,本研究提出了一种基于交叉注意力和语义感知的视频内容描述方法。首先,以视频活动为边界,利用聚类算法将视频切分为多个不同时长的视频片段,并提取各片段的视觉特征;然后,使用设计的语义感知模块为视频设置语义标签;最后,构建交叉模态注意力模块,加强视觉特征中关键信息的特征表示,生成描述语句,并在公开数据集上测试验证。结果表明,本研究模型在BLEU、METEOR和ROUGE-L指标上有显著的提升,相较于当前的主流视频内容描述模型,在单词匹配、语义匹配、可读性等多方面有明显的改善。; 关键词视频内容描述视频理解注意力机制多模态语义检测; Keywords Video content description Video understanding Attention mechanisms Multimodality Semantic detection; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于S-YOLO V5和Vision Transformer的视频内容描述算法被引量：1: 2; 作者徐鹏李铁柱职保平; 机构黄河水利职业技术学院信息工程学院河南大学计算机与信息工程学院开封市虚拟现实应用工程技术研究中心; 出处《印刷与数字媒体技术研究》 CAS 北大核心 2023年第4期212-222,共11页; 基金国家自然科学基金青年项目——基于原型观测的水电机组-厂房结构振动传递路径识别研究(No.51709125) 河南省科技攻关项目——概率-区间混合不确定的渡槽抗震可靠性研究——以沙河为例(No.212102310479)。; 文摘视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于神经网络模型KATNA提取关键帧,以最少帧数进行模型训练;其次,利用S-YOLO V5模型提取视频帧中的语义信息,并结合预训练ResNet101模型和预训练C3D模型提取视频静态视觉特征和动态视觉特征,并对两种模态特征进行融合;然后,基于ViT结构的强大长距离编码能力,构建模型编码器对融合特征进行长距离依赖编码;最后,将编码器的输出作为LSTM解码器的输入,依次输出预测词,生成最终的自然语言描述。通过在MSR-VTT数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为42.9、28.8、62.4和51.4;在MSVD数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为56.8、37.6、74.5以及98.5。与当前主流模型相比,本研究模型在多项评价指标上表现优异。; 关键词视频内容描述 S-YOLO V5 Vision Transformer 多头注意力; Keywords Video content description S-YOLO V5 Vision Transformer Multi-head attention; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于ViT与语义引导的视频内容描述生成被引量：2: 3; 作者赵宏陈志文郭岚安冬; 机构兰州理工大学计算机与通信学院; 出处《计算机工程》 CAS CSCD 北大核心 2023年第5期247-254,共8页; 基金国家自然科学基金“基于深度学习的广谱恶意域名检测方法研究”(62166025) 甘肃省重点研发计划“监控视频内容理解和描述文本生成以及在重点行业的示范应用”(21YF5GA073)。; 文摘现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(SDN)。在此基础上,通过ViT模型对静态和动态视觉特征进行全局编码,并与SDN提取的语义特征进行注意力融合,采用语义长短期记忆网络对融合特征进行解码,生成视频对应的描述文本。通过引入视频中的语义特征能够引导模型生成更符合人类习惯的描述,使生成的描述更具可读性。在MSR-VTT数据集上的测试结果表明,该模型的BLEU-4、METEOR、ROUGE-L和CIDEr指标分别为44.8、28.9、62.8和51.1,相比于当前主流的视频内容描述模型ADL和SBAT,提升的得分总和达到16.6和16.8。; 关键词视频内容描述视频理解 ViT模型语义引导长短期记忆网络注意力机制; Keywords video content caption video understanding Vision Transformer(ViT)model semantic guidance Long Short-Term Memory(LSTM)network attention mechanism; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名iMakeup:特定领域的大规模长视频数据集——用于细粒度视频语义内容描述被引量：1: 4; 作者林霄竹金琴陈师哲; 机构中国人民大学信息学院多媒体计算实验室; 出处《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2019年第8期1350-1357,共8页; 基金国家自然科学基金(61772535) 国家重点研发计划(2016YFB1001202); 文摘实际生活中,大多数视频均含有若干动作或物体,简单的单句描述难以展现视频中的全部信息,而各类长视频中,教学视频步骤清晰、逻辑明确,容易从中提取特征并使用深度学习相关算法进行实验验证,从长视频中提取复杂信息成为研究人员日益关注的问题之一.为此,文中收集整理了一个命名为iMakeup的大规模的美妆类教学视频数据集,其包含总时长256 h的热门50类2000个长视频,以及12823个短视频片段,每个片段均根据视频的逻辑步骤顺序进行划分,并标注起止时间和自然语句描述.文中主要通过视频网站下载收集原始视频,并请志愿者对视频的详细内容进行人工标注;同时统计分析了此数据集的规模大小和文本内容,并与其他类似研究领域的若干数据集进行对比;最后,展示了在此数据集上进行视频语义内容描述的基线实验效果,验证了此数据集在视频语义内容描述任务中的可行性.iMakeup数据集在收集整理时注重内容多样性和类别完整性,包含丰富的视觉、听觉甚至统计信息.除了基本的视频语义内容描述任务之外,该数据集还可用于视频分割、物体检测、时尚智能化推荐等多个前沿领域.; 关键词大规模数据集美妆视频语义内容描述视频分割; Keywords large-scale dataset makeup video caption video segmentation; 分类号 TP391.41 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于MPEG-7标准的视频描述被引量：1: 5; 作者汤义李国辉倪泞; 机构国防科技大学人文与管理学院多媒体实验室; 出处《计算机工程与科学》 CSCD 2003年第5期46-49,共4页; 文摘随着多媒体技术和Web技术的发展,出现了大量的多媒体数据。为了更好地管理和检索多媒体数据,我们需要一种描述多媒体内容的标准。本文根据标准化的描述框架—MPEG-7,提出了视频对象特征提取与检索系统中的描述原型,主要包括MPEG-7标准的内容描述和视觉描述。最后,讨论了一些与视频描述相关的问题。; 关键词 MPEG-7 图像编码标准主视频内容描述多媒体计算机; Keywords MPEG-7 video content description multimedia information retrieval; 分类号 TN919.81 [电子电信—通信与信息系统] TP391.41 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于多模态融合与多层注意力的视频内容文本表述研究被引量：10: 6; 作者赵宏郭岚陈志文郑厚泽; 机构兰州理工大学计算机与通信学院; 出处《计算机工程》 CAS CSCD 北大核心 2022年第10期45-54,共10页; 基金国家自然科学基金(62166025,51668043) 甘肃省重点研发计划(21YF5GA073)。; 文摘针对现有视频内容文本表述模型存在生成的文本表述单一、准确率不高等问题,提出一种融合帧级图像及音频信息的视频内容文本表述模型。基于自注意力机制设计单模态嵌入层网络结构,并将其嵌入单模态特征中学习单模态特征参数。采用联合表示、协作表示两种方法对单模态嵌入层输出的高维特征向量进行双模态特征融合,使模型能关注视频中不同目标间的交互关系,从而生成更加丰富、准确的视频文本表述。使用大规模数据集对模型进行预训练,并提取视频帧、视频所携带的音频等表征信息,将其送入编解码器实现视频内容的文本表述。在MSR-VTT和LSMDC数据集上的实验结果表明,所提模型的BLEU4、METEOR、ROUGEL和CIDEr指标分别为0.386、0.250、0.609和0.463,相较于MSR-VTT挑战赛中IIT DeIhi发布的模型,分别提升了0.082、0.037、0.115和0.257,能有效提升视频内容文本表述的准确率。; 关键词视频内容文本描述多模态融合联合表示协作表示自注意力机制; Keywords text description of video content multi-modal fusion joint representation collaborative representation self attention mechanism; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于Vision Transformer和语义学习的视频描述模型被引量：1: 7; 作者王翀查易艺顾颖程宋玉程环宇林杉; 机构国网江苏省电力有限公司信息通信分公司东南大学电气工程学院; 出处《印刷与数字媒体技术研究》 CAS 北大核心 2023年第5期49-59,68,共12页; 基金国网江苏省电力公司科技项目(No.J2021133) 江苏省重点研发计划项目(No.BE2020688)。; 文摘针对当前视频内容描述任务中所生成的描述语句晦涩难懂问题,本研究提出一种基于ViT(Vision Transformer)和语义学习的视频描述模型。首先,采用深度可分离卷积优化ResNet152、C3D等特征提取网络,通过减少网络参数,降低模型时间开销;其次,利用多模态融合网络融合多种模态特征,使不同模态进行语义对齐;然后,基于Vision Transformer网络建立一种长距离依赖性编码器,并结合时间注意力机制,在生成每个单词时有选择性地聚焦视频中的特定帧;最后,在解码阶段,利用LSTM循环网络并引入语义信息,使模型生成的描述更具可读性。通过在MSR-VTT数据集上进行测试,本研究模型可以实现0.425、0.288、0.624和0.538分的BLEU4、METEOR、ROUGE-L和CIDEr得分;在MSVD数据集上的BLEU4、METEOR、ROUGE-L和CIDEr得分分别达到了0.564、0.369、0.741和0.964分。相比当前主流视频内容描述模型,所提模型具有更好的描述生成效果。; 关键词视频内容描述语义学习 Vision Transformer 多模态 SCN解码器; Keywords Video captioning Semantic learning Vision Transformer Multimodal SCN Decoder; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于交叉注意力与语义感知的视频内容描述	张晶周凯吴文涛	《印刷与数字媒体技术研究》北大核心	2025	0	在线阅读下载PDF 职称材料
2	基于S-YOLO V5和Vision Transformer的视频内容描述算法	徐鹏李铁柱职保平	《印刷与数字媒体技术研究》 CAS 北大核心	2023	1	在线阅读下载PDF 职称材料
3	基于ViT与语义引导的视频内容描述生成	赵宏陈志文郭岚安冬	《计算机工程》 CAS CSCD 北大核心	2023	2	在线阅读下载PDF 职称材料
4	iMakeup:特定领域的大规模长视频数据集——用于细粒度视频语义内容描述	林霄竹金琴陈师哲	《计算机辅助设计与图形学学报》 EI CSCD 北大核心	2019	1	在线阅读下载PDF 职称材料
5	基于MPEG-7标准的视频描述	汤义李国辉倪泞	《计算机工程与科学》 CSCD	2003	1	在线阅读下载PDF 职称材料
6	基于多模态融合与多层注意力的视频内容文本表述研究	赵宏郭岚陈志文郑厚泽	《计算机工程》 CAS CSCD 北大核心	2022	10	在线阅读下载PDF 职称材料
7	基于Vision Transformer和语义学习的视频描述模型	王翀查易艺顾颖程宋玉程环宇林杉	《印刷与数字媒体技术研究》 CAS 北大核心	2023	1	在线阅读下载PDF 职称材料