-
题名基于预训练模型自适应匹配的视觉故事生成算法
- 1
-
-
作者
宁铭
江爱文
崔朝阳
刘长红
王明文
-
机构
江西师范大学计算机信息工程学院
江西师范大学数字产业学院
-
出处
《中文信息学报》
CSCD
北大核心
2024年第5期155-166,共12页
-
基金
国家自然科学基金(61966018,62067004,62266023)。
-
文摘
视觉故事生成任务是为一组图像序列生成具有表现力和连贯性的、能准确描述所涉及视觉内容的语句段落,是当前计算机视觉和自然语言处理交叉领域中一个有趣而又快速发展的多模态研究方向。随着预训练模型在各种下游任务的成功,基于预训练模型的视觉故事生成算法也被广泛研究。但因为数据模态的差异和语义鸿沟的存在,预训练模型在微调学习过程中会产生灾难性遗忘问题。如何协调视觉和语言两种模态数据的预训练模型,是当前多模态预训练模型研究的主要目标之一。该文提出基于预训练模型自适应匹配的视觉故事生成算法,一方面综合挖掘图像流的视觉、关系、序列等多样化互补信息,弥补语义差异;同时,另一方面用适应性损失对图文两种模态数据进行特征对齐,以及对图像流数据进行连续信息对齐,取得了较好的效果。算法在目前已公开的视觉故事生成数据集(VIST)上与近年的先进算法进行实验比较。评测结果表明,该文算法在生成故事的图文相关性、文本多样性、内容逻辑连贯性等指标上取得了具有竞争力的结果。
-
关键词
视觉故事
适应匹配损失
预训练模型
多模态特征
图像序列
-
Keywords
visual storytelling
adaptive matching loss
pretrained model
multimodal feature
image sequence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于细粒度视觉特征和知识图谱的视觉故事生成算法
被引量:6
- 2
-
-
作者
李朦朦
江爱文
龙羽中
宁铭
彭虎
王明文
-
机构
江西师范大学计算机信息工程学院
九江学院计算机与大数据科学学院
-
出处
《中文信息学报》
CSCD
北大核心
2022年第9期139-148,共10页
-
基金
国家自然科学基金(61966018,61876074)。
-
文摘
视觉故事生成是图像内容描述衍生的跨模态学习任务,在图文游记自动生成、启蒙教育等领域有较好的应用研究意义。目前主流方法存在对图像细粒度特征描述薄弱、故事文本的图文相关性低、语言不丰富等问题。为此,该文提出了基于细粒度视觉特征和知识图谱的视觉故事生成算法。该算法针对如何对图像内容进行充分挖掘和扩展表示,在视觉和高层语义方面,分别设计实现了图像细粒度视觉特征生成器和图像语义概念词集合生成器两个重要模块。在这两个模块中,细粒度视觉信息通过含有实体关系的场景图结构进行图卷积学习,高层语义信息综合外部知识图谱与相邻图像的语义关联进行扩充丰富,最终实现对图像序列内容较为全面细致的表示。该文算法在目前视觉故事生成领域规模最大的VIST数据集上与主流先进的算法进行了测试。实验结果表明,该文所提算法生成的故事文本,在图文相关性、故事逻辑性、文字多样性等方面,在Distinct-N和TTR等客观指标上均取得较大领先优势,具有良好的应用前景。
-
关键词
视觉故事生成
场景图
知识图谱
文本生成
细粒度视觉特征
-
Keywords
visual storytelling
scene graph
knowledge graph
text generation
fine-grained vision features
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-