-
题名生成对抗网络及其文本图像合成综述
被引量:10
- 1
-
-
作者
王威
李玉洁
郭富林
刘岩
何俊霖
-
机构
桂林电子科技大学人工智能学院
郑州轻工业大学计算机与通信工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2022年第19期14-36,共23页
-
基金
国家自然科学基金(61903090)
广西自然科学基金(2022GXNSFBA035644)
广西科技重大专项(桂科AA22068057)。
-
文摘
随着深度学习的快速发展,基于生成对抗网络的文本图像合成领域成为了当下计算机视觉研究的热点。生成对抗网络同时包含生成器和鉴别器,通过两者的博弈来实现逼真数据的生成。受生成对抗网络的启发,近几年提出了一系列的文本图像合成模型,从图像质量、多样性、语义一致性方面不断取得突破。为推动文本图像合成领域的研究发展,对现有文本图像合成技术进行了全面概述。从文本编码、文本直接合成图像、文本引导图像合成方面对文本图像合成模型进行了分类整理,并详细探讨了各类基于生成对抗网络的代表性模型的模型框架和关键性贡献。分析了现有的评估指标和常用的数据集,提出了现有方法在复杂场景和文本、多模态、轻量化模型、模型评价方法等方面的不足和未来的发展趋势。总结了目前生成对抗网络在各领域的发展,重点关注了在文本图像合成领域的应用,可以作为一个研究人员进行图像合成研究时选择深度学习相关方法的权衡和参考。
-
关键词
文本图像合成
生成对抗网络
文本编码
深度学习
-
Keywords
text-to-image synthesis
generative adversarial network
text encoding
deep learning
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名基于知识元模型的跨模态聊天卡通表情图像合成
被引量:1
- 2
-
-
作者
李小瑞
谢诚
李宾
柳青
胡健龙
-
机构
云南大学软件学院
-
出处
《图学学报》
CSCD
北大核心
2021年第6期908-916,共9页
-
基金
云南省科技厅面上项目(202001BB050035,202001BB05003)
中国科协“青年人才托举工程”项目(W8193209)。
-
文摘
传统的聊天卡通表情图像生成技术主要基于预定义的聊天卡通表情图像库,通过用户的语义描述,进行“语义-视觉”跨模态检索,匹配合适的表情图像。但是,预定义表情图像库样本数量有限且是固定形式的,在实际的聊天场景中常常出现表情图像的错误匹配或无合适匹配。针对此问题,聚焦于合成新的聊天卡通表情图像而非检索,设计了一种基于知识元模型的跨模态聊天卡通表情图像合成方法,根据用户的语义描述,即时合成对应的聊天卡通表情图像。通过表情知识元模型建立聊天卡通表情图像的内在语义逻辑关系,增强聊天卡通表情图像合成的语义一致性。通过多生成器模型,从每个元知识点合成对应的局部图像,再经过联合生成器整合为完整的卡通表情图像,极大地减少了训练样本需求。在公开的聊天卡通表情图像合成数据集的测试中,该方法在语义一致性上取得了更好的结果,同时在图像质量上与现有的方法具有可比性。
-
关键词
图像生成
跨模态学习
文本合成图像(T2I)
知识元模型
图像表情包
-
Keywords
image synthesis
cross-modal learning
text to image(T2I)
knowledge meta-model
emoticon pack
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名人在环路的细分行业logo生成方法
- 3
-
-
作者
李纪远
管哲予
宋海川
谭鑫
马利庄
-
机构
华东师范大学计算机科学与技术学院
-
出处
《图学学报》
北大核心
2025年第2期382-392,共11页
-
基金
国家自然科学基金(62302167,62222602)
上海市青年科技英才扬帆计划(23YF1410500)。
-
文摘
logo图像相比于其他生成图像类型,有着高度抽象、设计多变、风格统一的特点,因此较难直接控制生成结果。为了实现符合各行业特点、满足多种设计构成形态需要的logo高效生成,提出了一种人在环路的细分领域logo生成方法。首先,基于Dreambooth微调文生图扩散模型,以网络公开资源搜集的logo作为数据集,将文生图模型Stable Diffusion XL作为基座模型训练出适用于基础logo生成的“雏形模型”。然后,构造出多组适用于各目标行业领域的文本提示词库,在提示词库指导下,通过雏形模型对各目标行业的logo进行生成。接着,通过人工介入对生成结果进行筛选,推演构造出符合行业需求的二次数据集。最后,利用得到二次数据集对模型基于LoRA进行迭代微调,得到生成logo的“成品模型”,并通过生成图像与提示词的余弦相似度以及人工问卷指标对成品模型的生成结果进行评估,验证了成品模型生成的logo图像在行业关联度、结构完整性以及美观程度等评价维度上相比于未经过上述处理的原模型直接生成的效果有可观提升。
-
关键词
图像生成
扩散模型
人在回路
训练集构造
文本合成图像
-
Keywords
image synthesis
diffusion model
human-in-the-loop
training set construction
text to image
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-