期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
基于改进扩散模型结合条件控制的文本图像生成算法
1
作者 杜洪波 薛皓元 朱立军 《南京信息工程大学学报》 北大核心 2025年第5期611-623,共13页
针对现有的文本图像生成方法存在图像保真度低、图像生成操作难度大、仅适用于特定的任务场景等问题,提出一种新型的基于扩散模型的文本生成图像方法.该方法将扩散模型作为主要网络,设计一种新型结构的残差块,有效提升模型生成性能;通... 针对现有的文本图像生成方法存在图像保真度低、图像生成操作难度大、仅适用于特定的任务场景等问题,提出一种新型的基于扩散模型的文本生成图像方法.该方法将扩散模型作为主要网络,设计一种新型结构的残差块,有效提升模型生成性能;通过添加注意力模块CBAM来改进噪声估计网络,增强了模型对图像关键信息的提取能力,进一步提高了生成图像质量;结合条件控制网络,有效地实现了特定姿势的文本图像生成.与KNN-Diffusion、CogView2、text-StyleGAN、SimpleDiffusion等方法在数据集CelebA-HQ上做了定性、定量分析以及消融实验,根据评价指标以及生成结果显示,本文方法能够有效提高文本生成图像的质量,FID平均下降36.4%,Inception Score(IS)和结构相似性指数(SSIM)分别平均提高11.4%和3.9%,验证了本文算法的有效性.同时,本文模型结合了ControlNet网络,实现了定向动作的文本图像生成. 展开更多
关键词 扩散模型 文本图像生成 条件控制 残差块 CBAM
在线阅读 下载PDF
自然语言处理模型与文本图像生成技术驱动下的包装设计 被引量:10
2
作者 卢世主 闵子怡 +1 位作者 黄秋雨 王泓睿 《包装工程》 CAS 北大核心 2024年第22期232-241,258,共11页
目的针对传统包装设计耗时过长且面临多次修改迭代的问题,探究自然语言处理模型和文本图像生成技术在包装设计环节中的介入模式和衍生效果,寻求包装设计行业与AIGC技术的协同发展新路径。方法以传统包装设计流程为基础,构建了基于AIGC... 目的针对传统包装设计耗时过长且面临多次修改迭代的问题,探究自然语言处理模型和文本图像生成技术在包装设计环节中的介入模式和衍生效果,寻求包装设计行业与AIGC技术的协同发展新路径。方法以传统包装设计流程为基础,构建了基于AIGC的包装设计全流程模型,形成可循环动态迭代系统。采用实证研究和设计评估法,从视觉设计、心理属性和社会维度三个维度对两种方案分别进行评估,来验证此模型的可行性和有效性。结果基于包装设计方法要素,运用自然语言处理模型和文本图像生成技术,共同构建了全新的包装设计流程范式,并将其应用于具体的商业实践中,有效缩短了设计周期,为包装的创新表达提供了新的路径。结论在市场竞争日益加剧的情形下,基于AIGC的包装设计模型构建能够在最大程度满足设计目标的同时,高效实现从设计创意到设计落地的转化并进行多次快速的迭代,为商业包装实际应用领域提供了丰富的探索空间。 展开更多
关键词 AIGC 自然语言处理 文本图像生成 包装设计 模型构建
在线阅读 下载PDF
基于扩散模型的文本图像生成对比研究综述 被引量:4
3
作者 高欣宇 杜方 宋丽娟 《计算机工程与应用》 CSCD 北大核心 2024年第24期44-64,共21页
随着深度学习的不断发展,人工智能生成内容成为了一个热门话题,特别是扩散模型作为一种新兴的生成模型,在文本图像生成领域取得了显著进展。全面描述了扩散模型在文本图像生成任务中的应用,并与生成对抗网络和自回归模型的对比分析,揭... 随着深度学习的不断发展,人工智能生成内容成为了一个热门话题,特别是扩散模型作为一种新兴的生成模型,在文本图像生成领域取得了显著进展。全面描述了扩散模型在文本图像生成任务中的应用,并与生成对抗网络和自回归模型的对比分析,揭示了扩散模型的优势和局限性。同时深入探讨了扩散模型在提升图像质量、优化模型效率以及多语言文本图像生成方面的具体方法,通过在CUB、COCO和T2I-CompBench数据集上进行了实验分析,不仅验证了扩散模型零样本生成的能力,还凸显了其根据复杂文本提示生成高质量图像的能力。介绍了扩散模型在文本图像编辑、3D生成、视频及医学图像生成等领域的应用前景。总结了扩散模型在文本图像生成任务上面临的挑战以及未来的发展趋势,有助于研究者更深入地推进这一领域的研究。 展开更多
关键词 文本图像生成 扩散模型 生成对抗网络 自回归模型
在线阅读 下载PDF
基于注意力和动态记忆模块的文本图像生成方法 被引量:1
4
作者 张鹤 雷浩鹏 +1 位作者 王明文 张尚昆 《计算机工程与应用》 CSCD 北大核心 2024年第17期224-232,共9页
针对文本生成图像任务中多阶段生成模型存在的问题,如缺乏图像纹理信息特征和文本描述与生成图像之间一致性差异,提出了一种新颖的生成对抗网络(ADM-GAN)模型。该模型使用注意力和动态记忆模块进行优化。通过文本编码器将文本描述转化... 针对文本生成图像任务中多阶段生成模型存在的问题,如缺乏图像纹理信息特征和文本描述与生成图像之间一致性差异,提出了一种新颖的生成对抗网络(ADM-GAN)模型。该模型使用注意力和动态记忆模块进行优化。通过文本编码器将文本描述转化为嵌入向量,并利用生成器结合随机噪声生成低分辨率图像。引入了空间注意力和通道注意力模块,旨在融合低分辨率图像隐藏特征与重要的单词级语义特征,从而确保文本描述与图像特征的一致性。使用动态记忆模块捕获文本与图像间的语义对应关系,并根据生成过程动态调整记忆内容,细化图像纹理,提升文本到图像的合成效果。通过在公开的CUB和COCO数据集上的对比实验,同以往方法相比,Fréchet inception distance与inception score有了显著的提升,证明了该模型在一定程度上能够解决图像细节缺失以及语义信息丢失等问题,有效提高了图像与文本的一致性,取得了更加优异的效果。 展开更多
关键词 文本生成图像 生成对抗网络 注意力机制 动态记忆
在线阅读 下载PDF
生成对抗网络与文本图像生成方法综述 被引量:14
5
作者 赖丽娜 米瑜 +3 位作者 周龙龙 饶季勇 徐天阳 宋晓宁 《计算机工程与应用》 CSCD 北大核心 2023年第19期21-39,共19页
随着多传感器的普及,多模态数据获得科研和产业面的持续关注,通过深度学习来处理多源模态信息的技术是核心所在。文本生成图像是多模态技术的方向之一,由于生成对抗网络(GAN)生成图像更具有真实感,使得文本图像生成取得卓越进展。它可... 随着多传感器的普及,多模态数据获得科研和产业面的持续关注,通过深度学习来处理多源模态信息的技术是核心所在。文本生成图像是多模态技术的方向之一,由于生成对抗网络(GAN)生成图像更具有真实感,使得文本图像生成取得卓越进展。它可用于图像编辑和着色、风格转换、物体变形、照片增强等多个领域。将基于图像生成功能的GAN网络分为四大类:语义增强GAN、可增长式GAN、多样性增强GAN、清晰度增强GAN,并根据分类法提供的方向将基于功能的文本图像生成模型进行整合比较,厘清脉络;分析了现有的评估指标以及常用的数据集,阐明了对复杂文本的处理等方面的可行性以及未来的发展趋势;系统性地补充了生成对抗网络在文本图像生成方面的分析,将有助于研究者进一步推进这一领域。 展开更多
关键词 多模态 生成对抗网络 文本图像生成 深度学习
在线阅读 下载PDF
一种基于自注意力机制的文本图像生成对抗网络 被引量:11
6
作者 黄宏宇 谷子丰 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第3期55-61,共7页
图像自动生成一直以来都是计算机视觉领域的一项重要挑战,其中的文本到图像的生成更是图像生成领域的重要分支。随着深度学习技术迅猛发展,生成对抗网络的出现使得图像生成领域焕发生机,借助生成对抗网络能够生成较为生动且多样的图像... 图像自动生成一直以来都是计算机视觉领域的一项重要挑战,其中的文本到图像的生成更是图像生成领域的重要分支。随着深度学习技术迅猛发展,生成对抗网络的出现使得图像生成领域焕发生机,借助生成对抗网络能够生成较为生动且多样的图像。本文将自注意力机制引入生成对抗网络,提出GAN-SelfAtt以提升生成图像的质量。同时,使用WGAN、WGAN-GP 2种生成对抗网络框架对GAN-SelfAtt进行实现。实验结果表明,自注意力机制的引入能够提高生成图像的清晰度,这归功于自注意力机制弥补了卷积运算中只能计算局部像素区域内的相关性的缺陷。除此之外,GAN-SelfAtt在训练时有着更好的稳定性,避免了原始生成对抗网络中的模式坍塌问题。 展开更多
关键词 文本生成图像 生成对抗网络 自注意力机制 深度学习
在线阅读 下载PDF
对比学习改进文本生成图像方法的研究
7
作者 赵宏 王贺 李文改 《计算机工程与应用》 北大核心 2025年第14期264-273,共10页
针对现有文本生成图像方法中仅依赖图像和文本之间的语义相似度损失为约束,模型难以有效学习到图像与对应多个文本之间的关系,导致生成图像和文本之间语义匹配度低的问题,提出一种引入对比学习对文本生成图像模型改进的方法。在训练阶段... 针对现有文本生成图像方法中仅依赖图像和文本之间的语义相似度损失为约束,模型难以有效学习到图像与对应多个文本之间的关系,导致生成图像和文本之间语义匹配度低的问题,提出一种引入对比学习对文本生成图像模型改进的方法。在训练阶段,采用对比学习的方法,计算同一图像的不同文本生成图像之间的对比损失,使模型能够学习同一图像的不同文本表示,以提高生成图像和文本语义的一致性。同时,计算生成图像与真实图像之间的对比损失,保证生成图像向真实图像靠拢。在生成器中,设计一种新的特征融合模块,通过注意力图作为条件,引导图像特征与文本特征对齐,从而提高生成图像的细节表达。实验结果表明,与基准模型相比,在CUB数据集上的Inception Score分数提高了7.32%,Fréchet Inception Distance分数下降了21.06%;在COCO数据集上的Fréchet In-ception Distance分数下降了36.43%。证明该方法生成的图像具有更好的文本语义一致性和真实性。 展开更多
关键词 文本生成图像 生成对抗网络(GAN) 对比学习 特征融合 语义一致性
在线阅读 下载PDF
基于多语种文本符号的艺术图像生成模型
8
作者 唐宏 卓诗语 《无线电通信技术》 北大核心 2025年第3期486-492,共7页
文本生成图像(Text-to-Image,TTI)任务是指利用文本符号来生成图像,在艺术设计领域中有重要应用前景。由于缺乏不同语种的注释图像数据,对TTI的研究主要集中在英文领域,现有TTI模型无法利用其他语种数据进行图像生成。基于上述考虑,研... 文本生成图像(Text-to-Image,TTI)任务是指利用文本符号来生成图像,在艺术设计领域中有重要应用前景。由于缺乏不同语种的注释图像数据,对TTI的研究主要集中在英文领域,现有TTI模型无法利用其他语种数据进行图像生成。基于上述考虑,研究多语种TTI(Multilingual TTI,MTTI)以及基于神经机器翻译引导的MTTI系统,依托多语种多模态编码器,提出基于多语种文本符号的艺术图像生成模型(Art Image Generation Model Based on Multilingual Text Symbols,AIG-MTS),学习权重并整合多语种文本知识,减少语种之间的差异,提高模型性能。在标准数据集COCO-CN、Multi30K Task2和LAION-5B上进行实验,相比于主流算法,AIG-MTS模型在所有数据集上的性能最佳。 展开更多
关键词 设计领域 多语种 文本生成图像 多模态编码器 神经机器翻译
在线阅读 下载PDF
基于语义增强和特征融合的文本生成图像方法
9
作者 吴昊文 王鹏 +3 位作者 李亮亮 邸若海 李晓艳 吕志刚 《计算机工程与应用》 北大核心 2025年第15期229-240,共12页
文本生成图像是机器学习领域中非常具有挑战性的任务,虽然目前已有很大的突破,但仍然存在图像细粒度不够和语义一致性弱的问题,因此提出了一种基于语义增强和特征融合的文本生成图像方法(SEF-GAN)。针对初始特征表征不足问题,提出了空... 文本生成图像是机器学习领域中非常具有挑战性的任务,虽然目前已有很大的突破,但仍然存在图像细粒度不够和语义一致性弱的问题,因此提出了一种基于语义增强和特征融合的文本生成图像方法(SEF-GAN)。针对初始特征表征不足问题,提出了空间交叉重建模块,对不同信息量特征图进行分离与交叉重建,获得更精细化特征。为了提高文本属性信息的有效利用表征,设计了语义关联注意力模块,提高了文本描述和视觉内容之间的语义一致性。为了充分利用图像区域特征与文本语义标签之间的隐藏联系,构建了通道特征融合模块,将区域图像特征与文本隐层特征进行仿射,对目标区域重构并保留图像中与文本无关内容,并连接反残差结构进一步增强特征表达能力。在CUB和COCO数据集上实验结果表明,相对于现有先进方法,该方法将IS指标分别提高了18.8%和6.3%,FID指标分别提高了33.9%和14.6%,RP指标分别提高了10.9%和3.3%。证实所提方法能有效生成细节更丰富的图像,与文本描述更加吻合。 展开更多
关键词 文本生成图像 生成对抗网络 属性特征学习 图像语义融合 反残差结构
在线阅读 下载PDF
TCPColor:基于文本到图像生成模型的中国画配色方案推荐系统
10
作者 张迪 张文安 +4 位作者 姜智德 吴爱霞 孔浩 郭显 陈为 《图学学报》 北大核心 2025年第3期520-531,共12页
传统中国绘画(国画)是中国特有的绘画形式,在其基础上探索配色方案的使用,对现代设计师探索传统艺术与现代设计理念融合有重要意义,但是基于国画知识的色彩推荐系统研究较少,尚未有基于主题、物象和意境等多维度特征提供有效的配色检索... 传统中国绘画(国画)是中国特有的绘画形式,在其基础上探索配色方案的使用,对现代设计师探索传统艺术与现代设计理念融合有重要意义,但是基于国画知识的色彩推荐系统研究较少,尚未有基于主题、物象和意境等多维度特征提供有效的配色检索和推荐的方案。为此,提出一个中国画配色方案推荐系统TCPColor,以中文文本到图像生成模型太乙为基础,使用专家标注的宋代国画数据对模型进行了微调,然后对生成图像使用视觉显著性算法、K-Means聚类和基于色彩距离的色表匹配生成了具有国画风格的配色方案,通过消融实验验证了配色方案提取方法的有效性,并通过客观色彩分析评估了生成配色方案的差异性及与国画配色方案的相似度。与国画专家和志愿者合作进行案例分析、专家评估和用户研究,证明了该研究在配色方案推荐方面的实用性。 展开更多
关键词 传统中国绘画 配色方案 色彩推荐系统 单词颜色关联 文本图像生成
在线阅读 下载PDF
结合语义分割图的注意力机制文本生成图像 被引量:2
11
作者 梁成名 李云红 +3 位作者 李丽敏 苏雪平 朱绵云 朱耀麟 《空军工程大学学报》 CSCD 北大核心 2024年第4期118-127,共10页
针对生成对抗网络生成图像存在结构不完整、内容不真实、质量差的问题,提出一种结合语义分割图的注意力机制文本到图像生成模型(SSA-GAN)。首先采用一种简单有效的深度融合模块,以全局句子向量作为输入条件,在生成图像的同时,充分融合... 针对生成对抗网络生成图像存在结构不完整、内容不真实、质量差的问题,提出一种结合语义分割图的注意力机制文本到图像生成模型(SSA-GAN)。首先采用一种简单有效的深度融合模块,以全局句子向量作为输入条件,在生成图像的同时,充分融合文本信息。其次结合语义分割图像,提取其边缘轮廓特征,为模型提供额外的生成和约束条件。然后采用注意力机制为模型提供细粒度词级信息,丰富所生成图像的细节。最后使用多模态相似度计算模型计算细粒度的图像-文本匹配损失,更好地训练生成器。通过CUB-200和Oxford-102 Flowers数据集测试并验证模型,结果表明:所提模型(SSA-GAN)与StackGAN、AttnGAN、DF-GAN以及RAT-GAN等模型最终生成的图像质量相比,IS指标值最高分别提升了13.7%和43.2%,FID指标值最高分别降低了34.7%和74.9%,且具有更好的可视化效果,证明了所提方法的有效性。 展开更多
关键词 文本生成图像 语义分割图像 生成对抗网络 注意力机制 仿射变换
在线阅读 下载PDF
文本生成图像研究综述 被引量:12
12
作者 曹寅 秦俊平 +4 位作者 马千里 孙昊 闫凯 王磊 任家琪 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第2期219-238,共20页
对文本生成图像任务进行综合评估和整理,根据生成图像的理念,将文本生成图像任务分为3大类:基于生成对抗网络架构生成图像、基于自回归模型架构生成图像、基于扩散模型架构生成图像.针对基于生成对抗网络架构的文本生成图像方法,按照改... 对文本生成图像任务进行综合评估和整理,根据生成图像的理念,将文本生成图像任务分为3大类:基于生成对抗网络架构生成图像、基于自回归模型架构生成图像、基于扩散模型架构生成图像.针对基于生成对抗网络架构的文本生成图像方法,按照改进的不同技术点归纳为6小类:采用多层次体系嵌套架构、注意力机制的应用、应用孪生网络、采用循环一致方法、深度融合文本特征和改进无条件模型.通过对不同方法的分析,总结并讨论了现有的文本生成图像方法通用评估指标和数据集. 展开更多
关键词 人工智能生成内容 文本生成图像 生成对抗网络 自回归模型 扩散模型
在线阅读 下载PDF
基于自监督注意和图像特征融合的文本生成图像方法 被引量:3
13
作者 廖涌卉 张海涛 金海波 《液晶与显示》 CAS CSCD 北大核心 2024年第2期180-191,共12页
现有的层级式文本生成图像的方法在初始图像生成阶段仅使用上采样进行特征提取,上采样过程本质是卷积运算,卷积运算的局限性会造成全局信息被忽略并且远程语义无法交互。虽然已经有方法在模型中加入自注意力机制,但依然存在图像细节缺... 现有的层级式文本生成图像的方法在初始图像生成阶段仅使用上采样进行特征提取,上采样过程本质是卷积运算,卷积运算的局限性会造成全局信息被忽略并且远程语义无法交互。虽然已经有方法在模型中加入自注意力机制,但依然存在图像细节缺失、图像结构性错误等问题。针对上述存在的问题,提出一种基于自监督注意和图像特征融合的生成对抗网络模型SAF-GAN。将基于ContNet的自监督模块加入到初始特征生成阶段,利用注意机制进行图像特征之间的自主映射学习,通过特征的上下文关系引导动态注意矩阵,实现上下文挖掘和自注意学习的高度结合,提高低分辨率图像特征的生成效果,后续通过不同阶段网络的交替训练实现高分辨率图像的细化生成。同时加入了特征融合增强模块,通过将模型上一阶段的低分辨率特征与当前阶段的特征进行融合,生成网络可以充分利用低层特征的高语义信息和高层特征的高分辨率信息,更加保证了不同分辨率特征图的语义一致性,从而实现高分辨率的逼真的图像生成。实验结果表明,相较于基准模型(AttnGAN),SAF-GAN模型在IS和FID指标上均有改善,在CUB数据集上的IS分数提升了0.31,FID指标降低了3.45;在COCO数据集上的IS分数提升了2.68,FID指标降低了5.18。SAF-GAN模型能够有效生成更加真实的图像,证明了该方法的有效性。 展开更多
关键词 计算机视觉 生成对抗网络 文本生成图像 CotNet 图像特征融合
在线阅读 下载PDF
基于条件语义增强的文本到图像生成 被引量:2
14
作者 余凯 宾燚 +1 位作者 郑自强 杨阳 《软件学报》 EI CSCD 北大核心 2024年第5期2150-2164,共15页
文本到图像生成取得了视觉上的优异效果,但存在细节表达不足的问题.于是提出基于条件语义增强的生成对抗模型(conditional semantic augmentation generative adversarial network,CSA-GAN).所提模型首先将文本进行编码,使用条件语义增... 文本到图像生成取得了视觉上的优异效果,但存在细节表达不足的问题.于是提出基于条件语义增强的生成对抗模型(conditional semantic augmentation generative adversarial network,CSA-GAN).所提模型首先将文本进行编码,使用条件语义增强对其进行处理.之后,提取生成器的中间特征进行上采样,再通过两层CNN生成图像的掩码.最后将文本编码送入两个感知器处理后和掩码进行融合,充分融合图像空间特征和文本语义,以提高细节表达.为了验证所提模型的生成图像的质量,在不同的数据集上进行定量分析、定性分析.使用IS(inception score)、FID(Frechet inception distance)指标对图像清晰度,多样性和图像的自然真实程度进行定量评估.定性分析包括可视化生成的图像,消融实验分析具体模块等.结果表明:所提模型均优于近年来同类最优工作.这充分验证所提出的方法具有更优性能,同时能够优化图像生成过程中一些主体特征细节的表达. 展开更多
关键词 文本图像生成 条件语义增强 空间-语义融合
在线阅读 下载PDF
融合XLnet与DMGAN的文本生成图像方法 被引量:1
15
作者 赵泽纬 车进 吕文涵 《液晶与显示》 CAS CSCD 北大核心 2024年第2期168-179,共12页
针对文本生成图像任务中的文本编码器不能深度挖掘文本信息,导致后续生成的图像存在语义不一致的问题,本文提出了一种改进DMGAN模型的文本生成图像方法。首先使用XLnet的预训练模型对文本进行编码,该模型在大规模语料库的预训练之下能... 针对文本生成图像任务中的文本编码器不能深度挖掘文本信息,导致后续生成的图像存在语义不一致的问题,本文提出了一种改进DMGAN模型的文本生成图像方法。首先使用XLnet的预训练模型对文本进行编码,该模型在大规模语料库的预训练之下能够捕获大量文本的先验知识,实现对上下文信息的深度挖掘;然后在DMGAN模型生成图像的初始阶段和图像细化阶段均加入通道注意力模块,突出重要的特征通道,进一步提升生成图像的语义一致性和空间布局合理性,以及模型的收敛速度和稳定性。实验结果表明,所提出模型在CUB数据集上生成的图像相比原DMGAN模型,IS指标提升了0.47,FID指标降低了2.78,充分说明该模型具有更好的跨模态生成能力。 展开更多
关键词 文本生成图像 XLnet模型 生成对抗网络 通道注意力
在线阅读 下载PDF
基于多文本描述的图像生成方法 被引量:1
16
作者 聂开琴 倪郑威 《电信科学》 北大核心 2024年第5期73-85,共13页
针对单条文本描述生成的图像质量不高且存在结构错误的问题进行研究,采用多阶段生成对抗网络模型,并提出对不同文本序列进行插值操作,从多条文本描述中提取特征,以丰富给定的文本描述,使生成图像具有更多细节。为了生成与文本更为相关... 针对单条文本描述生成的图像质量不高且存在结构错误的问题进行研究,采用多阶段生成对抗网络模型,并提出对不同文本序列进行插值操作,从多条文本描述中提取特征,以丰富给定的文本描述,使生成图像具有更多细节。为了生成与文本更为相关的图像,引入了多文本深度注意多模态相似度模型以得到注意力特征,并与上一层视觉特征联合作为下一层的输入,从而提升生成图像的真实程度和文本描述之间的语义一致性。为了能够让模型学会协调每个位置的细节,引入了自注意力机制,让生成器生成更加符合真实场景的图像。优化后的模型在CUB和MS-COCO数据集上进行验证,生成的图像不仅结构完整,语义一致性更强,视觉上的效果更加丰富多样。 展开更多
关键词 文本生成图像 生成对抗网络 计算机视觉 语义一致性 自注意力
在线阅读 下载PDF
基于扩散生成对抗网络的文本生成图像模型研究 被引量:6
17
作者 赵宏 李文改 《电子与信息学报》 EI CSCD 北大核心 2023年第12期4371-4381,共11页
文本生成图像是一项结合计算机视觉(CV)和自然语言处理(NLP)领域的综合性任务。以生成对抗网络(GANs)为基础的方法在文本生成图像方面取得了显著进展,但GANs方法的模型存在训练不稳定的问题。为解决这一问题,该文提出一种基于扩散Wasser... 文本生成图像是一项结合计算机视觉(CV)和自然语言处理(NLP)领域的综合性任务。以生成对抗网络(GANs)为基础的方法在文本生成图像方面取得了显著进展,但GANs方法的模型存在训练不稳定的问题。为解决这一问题,该文提出一种基于扩散Wasserstein生成对抗网络(WGAN)的文本生成图像模型(D-WGAN)。在DWGAN中,利用向判别器中输入扩散过程中随机采样的实例噪声,在实现模型稳定训练的同时,生成高质量和多样性的图像。考虑到扩散过程的采样成本较高,引入一种随机微分的方法,以简化采样过程。为了进一步对齐文本与图像的信息,提出使用基于对比学习的语言-图像预训练模型(CLIP)获得文本与图像信息之间的跨模态映射关系,从而提升文本和图像的一致性。在MSCOCO,CUB-200数据集上的实验结果表明,D-WGAN在实现稳定训练的同时,与当前最好的方法相比,FID分数分别降低了16.43%和1.97%,IS分数分别提升了3.38%和30.95%,说明D-WGAN生成的图像质量更高,更具有实用价值。 展开更多
关键词 文本生成图像 生成对抗网络 扩散过程 对比学习的语言-图像预训练模型 语义匹配
在线阅读 下载PDF
改进深度卷积生成式对抗网络的文本生成图像
18
作者 李云红 朱绵云 +3 位作者 任劼 苏雪平 周小计 于惠康 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第8期1875-1883,共9页
针对深度卷积生成式对抗网络(DCGAN)模型高维文本输入表示的稀疏性导致以文本为条件生成的图像结构缺失和图像不真实的问题,提出了一种改进深度卷积生成式对抗网络模型CA-DCGAN。采用深度卷积网络和循环文本编码器对输入的文本进行编码... 针对深度卷积生成式对抗网络(DCGAN)模型高维文本输入表示的稀疏性导致以文本为条件生成的图像结构缺失和图像不真实的问题,提出了一种改进深度卷积生成式对抗网络模型CA-DCGAN。采用深度卷积网络和循环文本编码器对输入的文本进行编码,得到文本的特征向量表示。引入条件增强(CA)模型,通过文本特征向量的均值和协方差矩阵产生附加的条件变量,代替原来的高维文本特征向量。将条件变量与随机噪声结合作为生成器的输入,并在生成器的损失中额外加入KL损失正则化项,避免模型训练过拟合,使模型可以更好的收敛,在判别器中使用谱约束(SN)层,防止其梯度下降太快造成生成器与判别器不平衡训练而发生模式崩溃的问题。实验验证结果表明:所提模型在Oxford-102-flowers和CUB-200数据集上生成的图像质量较alignDRAW、GAN-CLS、GAN-INT-CLS、StackGAN(64×64)、StackGAN-v1(64×64)模型更好且接近于真实样本,初始得分值最低分别提高了10.9%和5.6%,最高分别提高了41.4%和37.5%,FID值最低分别降低了11.4%和8.4%,最高分别降低了43.9%和42.5%,进一步表明了所提模型的有效性。 展开更多
关键词 深度卷积生成式对抗网络 文本生成图像 文本特征表示 条件增强 KL正则化
在线阅读 下载PDF
基于单阶段生成对抗网络的文本生成图像方法
19
作者 杨冰 那巍 向学勤 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第12期2412-2420,共9页
为了提高生成图像质量,提出新的文本生成图像方法,整体框架采用单阶段文本生成图像主干.在原有模型只使用句子信息生成图像的基础上,使用注意力机制把单词信息融入图像特征,采用合理地融入更多文本信息的方式提高生成图像的质量.引入对... 为了提高生成图像质量,提出新的文本生成图像方法,整体框架采用单阶段文本生成图像主干.在原有模型只使用句子信息生成图像的基础上,使用注意力机制把单词信息融入图像特征,采用合理地融入更多文本信息的方式提高生成图像的质量.引入对比损失,使相同语义图像之间更加接近,不同语义图像之间更加疏远,从而更好地保证文本与生成图像之间的语义一致性.在生成器中采用动态卷积来增强生成器的表达能力.实验结果表明,所提方法在数据集CUB(Fréchet inception distance(FID)从12.10提升到10.36)和数据集COCO(FID从15.41提升到12.74)上都获得了较好的性能提升. 展开更多
关键词 文本生成图像 注意力机制 对比损失 语义一致性 动态卷积
在线阅读 下载PDF
基于图像-文本语义一致性的文本生成图像方法 被引量:10
20
作者 薛志杭 许喆铭 +3 位作者 郎丛妍 冯松鹤 王涛 李浥东 《计算机研究与发展》 EI CSCD 北大核心 2023年第9期2180-2190,共11页
近年来,以生成对抗网络(generative adversarial network,GAN)为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法... 近年来,以生成对抗网络(generative adversarial network,GAN)为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法大多针对在图像全局特征与初始文本语义特征之间进行建模,忽略了初始文本特征的局限性,且没有充分利用具有语义一致性的生成图像对文本特征的指导作用,因而降低了文本生成图像中文本信息的表征性.其次,由于没有考虑到生成目标区域间的动态交互,生成网络只能粗略地划分目标区域,且忽略了图像局部区域与文本语义标签的潜在对应关系.为解决上述问题,提出了一种基于图像-文本语义一致性的文本生成图像方法ITSC-GAN.该模型首先设计了一个文本信息增强模块(text information enhancement module,TEM),利用生成图像对文本信息进行增强,从而提高文本特征的表征能力.另外,该模型提出了一个图像区域注意力模块(image regional attention module,IRAM),通过挖掘图像子区域之间的关系,增强图像特征的表征能力.通过联合利用这2个模块,使得图像局部特征与文本语义标签之间具有更高的一致性.最后,该模型使用生成器与判别器损失函数作为约束,以提升生成图像的质量,促进图像与文本描述的语义一致.实验结果表明,在CUB数据集上,与当前主流方法AttnGAN模型相比,ITSC-GAN模型的IS(inception score)指标增长了约7.42%,FID(Fréchet inception distance)减少了约28.76%,R-precision增加了约14.95%.大量实验结果充分验证了ITSC-GAN模型的有效性及优越性. 展开更多
关键词 文本生成图像 生成对抗网络 图像区域注意力 文本信息增强 语义一致性
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部