期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于细粒度视觉特征和知识图谱的视觉故事生成算法 被引量:6
1
作者 李朦朦 江爱文 +3 位作者 龙羽中 宁铭 彭虎 王明文 《中文信息学报》 CSCD 北大核心 2022年第9期139-148,共10页
视觉故事生成是图像内容描述衍生的跨模态学习任务,在图文游记自动生成、启蒙教育等领域有较好的应用研究意义。目前主流方法存在对图像细粒度特征描述薄弱、故事文本的图文相关性低、语言不丰富等问题。为此,该文提出了基于细粒度视觉... 视觉故事生成是图像内容描述衍生的跨模态学习任务,在图文游记自动生成、启蒙教育等领域有较好的应用研究意义。目前主流方法存在对图像细粒度特征描述薄弱、故事文本的图文相关性低、语言不丰富等问题。为此,该文提出了基于细粒度视觉特征和知识图谱的视觉故事生成算法。该算法针对如何对图像内容进行充分挖掘和扩展表示,在视觉和高层语义方面,分别设计实现了图像细粒度视觉特征生成器和图像语义概念词集合生成器两个重要模块。在这两个模块中,细粒度视觉信息通过含有实体关系的场景图结构进行图卷积学习,高层语义信息综合外部知识图谱与相邻图像的语义关联进行扩充丰富,最终实现对图像序列内容较为全面细致的表示。该文算法在目前视觉故事生成领域规模最大的VIST数据集上与主流先进的算法进行了测试。实验结果表明,该文所提算法生成的故事文本,在图文相关性、故事逻辑性、文字多样性等方面,在Distinct-N和TTR等客观指标上均取得较大领先优势,具有良好的应用前景。 展开更多
关键词 视觉故事生成 场景图 知识图谱 文本生成 细粒度视觉特征
在线阅读 下载PDF
基于双Transformer结构的多模态视频段落描述生成研究
2
作者 赵宏 张立军 《计算机工程与应用》 2025年第21期182-191,共10页
针对现有视频段落描述方法对视频中主要事件的关注度不足与多事件描述之间缺乏连贯性的问题,在现有编码器-解码器框架的基础上,提出了一种基于双Transformer结构的多模态视频段落描述模型。采用Faster-RCNN对视频中心帧目标进行细粒度... 针对现有视频段落描述方法对视频中主要事件的关注度不足与多事件描述之间缺乏连贯性的问题,在现有编码器-解码器框架的基础上,提出了一种基于双Transformer结构的多模态视频段落描述模型。采用Faster-RCNN对视频中心帧目标进行细粒度特征提取,由混合注意力结合全局视觉特征选择最具代表性的细粒度局部视觉特征,对视频中主要事件信息进行补充与增强,提高视频内容描述的准确性;提出在Transformer结构中增加存储模块与混合注意力模块,并设计了双Transformer结构,内部Transformer对事件内一致性进行建模,外部Transformer由混合注意力计算与当前事件最相关的状态建模事件间的一致性,结合内外部Transformer的输出对事件内容进行预测,提高生成描述语句的连贯性。在ActivityNet Captions数据集和YouCookII数据集上的实验结果表明,所提模型在BLEU-4、METEOR、ROUGE-L和CIDEr指标上相较于现有主流视频段落描述模型有明显提升,验证了模型的有效性。 展开更多
关键词 视频段落描述 编码器-解码器结构 细粒度局部视觉特征 双Transformer结构
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部