-
题名FG-ECVG:细粒度情感可控的视频生成算法
- 1
-
-
作者
卫青蓝
段笑妍
肖红江
薛瑞琪
王宇豪
-
机构
中国传媒大学数据科学与智能媒体学院
北京大学软件与微电子学院
中国传媒大学媒体融合与传播国家重点实验室
-
出处
《计算机辅助设计与图形学学报》
北大核心
2025年第3期396-406,共11页
-
基金
国家自然科学基金(62301510)
国家广播电视总局中长期科技计划(2024AC0400)
中央高校基本科研业务费专项资金(CUC23GZ005,CUC24SG001).
-
文摘
情感引导的多媒体内容生成是推动可控人工智能内容生成技术发展的重要一环,对于丰富公众表达情绪和观点的方式具有独特价值.针对大模型生成的视觉内容情感属性模糊、交互性弱的问题,提出一种基于文本指令优化的视频生成算法FG-ECVG,可以实现自动化生成高情感可控、强交互性的文本指令到视频内容.首先基于效价-唤醒-控制情感模型构建一个引导词典,并基于该词典对输入文本进行情感极性分析和情感引导词匹配,实现整体视觉氛围的情感控制;然后基于检索—增强—生成算法构建一个视觉细节扩写框架,为用户输入的文本指令添加结构化的类人情感视觉元素,提升生成内容的情感颗粒度.在EmoSet数据集上5类场景类别进行情感6分类内容生成,并对主观及客观微视频评价进行实验的结果表明,与仅使用生成式视觉大模型相比,所提算法生成的视频内容具有更强的情感表现力,情感2分类和情感6分类准确率分别提升23.33个百分点和20.00个百分点;与目前较新的视觉情感迁移或生成算法相比,情感6分类准确率平均提升26.67个百分点,证明了该算法的有效性和优越性.
-
关键词
可控生成
文生视频
细粒度情感可控
-
Keywords
controllable generation
text to video
fine-grained emotion controllability
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-