期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于细粒度视觉特征和知识图谱的视觉故事生成算法
被引量:
6
1
作者
李朦朦
江爱文
+3 位作者
龙羽中
宁铭
彭虎
王明文
《中文信息学报》
CSCD
北大核心
2022年第9期139-148,共10页
视觉故事生成是图像内容描述衍生的跨模态学习任务,在图文游记自动生成、启蒙教育等领域有较好的应用研究意义。目前主流方法存在对图像细粒度特征描述薄弱、故事文本的图文相关性低、语言不丰富等问题。为此,该文提出了基于细粒度视觉...
视觉故事生成是图像内容描述衍生的跨模态学习任务,在图文游记自动生成、启蒙教育等领域有较好的应用研究意义。目前主流方法存在对图像细粒度特征描述薄弱、故事文本的图文相关性低、语言不丰富等问题。为此,该文提出了基于细粒度视觉特征和知识图谱的视觉故事生成算法。该算法针对如何对图像内容进行充分挖掘和扩展表示,在视觉和高层语义方面,分别设计实现了图像细粒度视觉特征生成器和图像语义概念词集合生成器两个重要模块。在这两个模块中,细粒度视觉信息通过含有实体关系的场景图结构进行图卷积学习,高层语义信息综合外部知识图谱与相邻图像的语义关联进行扩充丰富,最终实现对图像序列内容较为全面细致的表示。该文算法在目前视觉故事生成领域规模最大的VIST数据集上与主流先进的算法进行了测试。实验结果表明,该文所提算法生成的故事文本,在图文相关性、故事逻辑性、文字多样性等方面,在Distinct-N和TTR等客观指标上均取得较大领先优势,具有良好的应用前景。
展开更多
关键词
视觉
故事生成
场景图
知识图谱
文本生成
细粒度视觉特征
在线阅读
下载PDF
职称材料
基于双Transformer结构的多模态视频段落描述生成研究
2
作者
赵宏
张立军
《计算机工程与应用》
2025年第21期182-191,共10页
针对现有视频段落描述方法对视频中主要事件的关注度不足与多事件描述之间缺乏连贯性的问题,在现有编码器-解码器框架的基础上,提出了一种基于双Transformer结构的多模态视频段落描述模型。采用Faster-RCNN对视频中心帧目标进行细粒度...
针对现有视频段落描述方法对视频中主要事件的关注度不足与多事件描述之间缺乏连贯性的问题,在现有编码器-解码器框架的基础上,提出了一种基于双Transformer结构的多模态视频段落描述模型。采用Faster-RCNN对视频中心帧目标进行细粒度特征提取,由混合注意力结合全局视觉特征选择最具代表性的细粒度局部视觉特征,对视频中主要事件信息进行补充与增强,提高视频内容描述的准确性;提出在Transformer结构中增加存储模块与混合注意力模块,并设计了双Transformer结构,内部Transformer对事件内一致性进行建模,外部Transformer由混合注意力计算与当前事件最相关的状态建模事件间的一致性,结合内外部Transformer的输出对事件内容进行预测,提高生成描述语句的连贯性。在ActivityNet Captions数据集和YouCookII数据集上的实验结果表明,所提模型在BLEU-4、METEOR、ROUGE-L和CIDEr指标上相较于现有主流视频段落描述模型有明显提升,验证了模型的有效性。
展开更多
关键词
视频段落描述
编码器-解码器结构
细粒度
局部
视觉
特征
双Transformer结构
在线阅读
下载PDF
职称材料
题名
基于细粒度视觉特征和知识图谱的视觉故事生成算法
被引量:
6
1
作者
李朦朦
江爱文
龙羽中
宁铭
彭虎
王明文
机构
江西师范大学计算机信息工程学院
九江学院计算机与大数据科学学院
出处
《中文信息学报》
CSCD
北大核心
2022年第9期139-148,共10页
基金
国家自然科学基金(61966018,61876074)。
文摘
视觉故事生成是图像内容描述衍生的跨模态学习任务,在图文游记自动生成、启蒙教育等领域有较好的应用研究意义。目前主流方法存在对图像细粒度特征描述薄弱、故事文本的图文相关性低、语言不丰富等问题。为此,该文提出了基于细粒度视觉特征和知识图谱的视觉故事生成算法。该算法针对如何对图像内容进行充分挖掘和扩展表示,在视觉和高层语义方面,分别设计实现了图像细粒度视觉特征生成器和图像语义概念词集合生成器两个重要模块。在这两个模块中,细粒度视觉信息通过含有实体关系的场景图结构进行图卷积学习,高层语义信息综合外部知识图谱与相邻图像的语义关联进行扩充丰富,最终实现对图像序列内容较为全面细致的表示。该文算法在目前视觉故事生成领域规模最大的VIST数据集上与主流先进的算法进行了测试。实验结果表明,该文所提算法生成的故事文本,在图文相关性、故事逻辑性、文字多样性等方面,在Distinct-N和TTR等客观指标上均取得较大领先优势,具有良好的应用前景。
关键词
视觉
故事生成
场景图
知识图谱
文本生成
细粒度视觉特征
Keywords
visual storytelling
scene graph
knowledge graph
text generation
fine-grained vision features
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于双Transformer结构的多模态视频段落描述生成研究
2
作者
赵宏
张立军
机构
兰州理工大学计算机与通信学院
出处
《计算机工程与应用》
2025年第21期182-191,共10页
基金
国家自然科学基金(62166025)。
文摘
针对现有视频段落描述方法对视频中主要事件的关注度不足与多事件描述之间缺乏连贯性的问题,在现有编码器-解码器框架的基础上,提出了一种基于双Transformer结构的多模态视频段落描述模型。采用Faster-RCNN对视频中心帧目标进行细粒度特征提取,由混合注意力结合全局视觉特征选择最具代表性的细粒度局部视觉特征,对视频中主要事件信息进行补充与增强,提高视频内容描述的准确性;提出在Transformer结构中增加存储模块与混合注意力模块,并设计了双Transformer结构,内部Transformer对事件内一致性进行建模,外部Transformer由混合注意力计算与当前事件最相关的状态建模事件间的一致性,结合内外部Transformer的输出对事件内容进行预测,提高生成描述语句的连贯性。在ActivityNet Captions数据集和YouCookII数据集上的实验结果表明,所提模型在BLEU-4、METEOR、ROUGE-L和CIDEr指标上相较于现有主流视频段落描述模型有明显提升,验证了模型的有效性。
关键词
视频段落描述
编码器-解码器结构
细粒度
局部
视觉
特征
双Transformer结构
Keywords
video paragraph captioning
encoder-decoder framework
fine-grained local visual features
dual-Transformer structure
分类号
TP391 [自动化与计算机技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于细粒度视觉特征和知识图谱的视觉故事生成算法
李朦朦
江爱文
龙羽中
宁铭
彭虎
王明文
《中文信息学报》
CSCD
北大核心
2022
6
在线阅读
下载PDF
职称材料
2
基于双Transformer结构的多模态视频段落描述生成研究
赵宏
张立军
《计算机工程与应用》
2025
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部