期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
对比学习改进文本生成图像方法的研究
1
作者 赵宏 王贺 李文改 《计算机工程与应用》 北大核心 2025年第14期264-273,共10页
针对现有文本生成图像方法中仅依赖图像和文本之间的语义相似度损失为约束,模型难以有效学习到图像与对应多个文本之间的关系,导致生成图像和文本之间语义匹配度低的问题,提出一种引入对比学习对文本生成图像模型改进的方法。在训练阶段... 针对现有文本生成图像方法中仅依赖图像和文本之间的语义相似度损失为约束,模型难以有效学习到图像与对应多个文本之间的关系,导致生成图像和文本之间语义匹配度低的问题,提出一种引入对比学习对文本生成图像模型改进的方法。在训练阶段,采用对比学习的方法,计算同一图像的不同文本生成图像之间的对比损失,使模型能够学习同一图像的不同文本表示,以提高生成图像和文本语义的一致性。同时,计算生成图像与真实图像之间的对比损失,保证生成图像向真实图像靠拢。在生成器中,设计一种新的特征融合模块,通过注意力图作为条件,引导图像特征与文本特征对齐,从而提高生成图像的细节表达。实验结果表明,与基准模型相比,在CUB数据集上的Inception Score分数提高了7.32%,Fréchet Inception Distance分数下降了21.06%;在COCO数据集上的Fréchet In-ception Distance分数下降了36.43%。证明该方法生成的图像具有更好的文本语义一致性和真实性。 展开更多
关键词 文本生成图像 生成对抗网络(GAN) 对比学习 特征融合 语义一致性
在线阅读 下载PDF
基于语义增强和特征融合的文本生成图像方法
2
作者 吴昊文 王鹏 +3 位作者 李亮亮 邸若海 李晓艳 吕志刚 《计算机工程与应用》 北大核心 2025年第15期229-240,共12页
文本生成图像是机器学习领域中非常具有挑战性的任务,虽然目前已有很大的突破,但仍然存在图像细粒度不够和语义一致性弱的问题,因此提出了一种基于语义增强和特征融合的文本生成图像方法(SEF-GAN)。针对初始特征表征不足问题,提出了空... 文本生成图像是机器学习领域中非常具有挑战性的任务,虽然目前已有很大的突破,但仍然存在图像细粒度不够和语义一致性弱的问题,因此提出了一种基于语义增强和特征融合的文本生成图像方法(SEF-GAN)。针对初始特征表征不足问题,提出了空间交叉重建模块,对不同信息量特征图进行分离与交叉重建,获得更精细化特征。为了提高文本属性信息的有效利用表征,设计了语义关联注意力模块,提高了文本描述和视觉内容之间的语义一致性。为了充分利用图像区域特征与文本语义标签之间的隐藏联系,构建了通道特征融合模块,将区域图像特征与文本隐层特征进行仿射,对目标区域重构并保留图像中与文本无关内容,并连接反残差结构进一步增强特征表达能力。在CUB和COCO数据集上实验结果表明,相对于现有先进方法,该方法将IS指标分别提高了18.8%和6.3%,FID指标分别提高了33.9%和14.6%,RP指标分别提高了10.9%和3.3%。证实所提方法能有效生成细节更丰富的图像,与文本描述更加吻合。 展开更多
关键词 文本生成图像 生成对抗网络 属性特征学习 图像语义融合 反残差结构
在线阅读 下载PDF
结合语义分割图的注意力机制文本生成图像 被引量:2
3
作者 梁成名 李云红 +3 位作者 李丽敏 苏雪平 朱绵云 朱耀麟 《空军工程大学学报》 CSCD 北大核心 2024年第4期118-127,共10页
针对生成对抗网络生成图像存在结构不完整、内容不真实、质量差的问题,提出一种结合语义分割图的注意力机制文本到图像生成模型(SSA-GAN)。首先采用一种简单有效的深度融合模块,以全局句子向量作为输入条件,在生成图像的同时,充分融合... 针对生成对抗网络生成图像存在结构不完整、内容不真实、质量差的问题,提出一种结合语义分割图的注意力机制文本到图像生成模型(SSA-GAN)。首先采用一种简单有效的深度融合模块,以全局句子向量作为输入条件,在生成图像的同时,充分融合文本信息。其次结合语义分割图像,提取其边缘轮廓特征,为模型提供额外的生成和约束条件。然后采用注意力机制为模型提供细粒度词级信息,丰富所生成图像的细节。最后使用多模态相似度计算模型计算细粒度的图像-文本匹配损失,更好地训练生成器。通过CUB-200和Oxford-102 Flowers数据集测试并验证模型,结果表明:所提模型(SSA-GAN)与StackGAN、AttnGAN、DF-GAN以及RAT-GAN等模型最终生成的图像质量相比,IS指标值最高分别提升了13.7%和43.2%,FID指标值最高分别降低了34.7%和74.9%,且具有更好的可视化效果,证明了所提方法的有效性。 展开更多
关键词 文本生成图像 语义分割图像 生成对抗网络 注意力机制 仿射变换
在线阅读 下载PDF
文本生成图像研究综述 被引量:12
4
作者 曹寅 秦俊平 +4 位作者 马千里 孙昊 闫凯 王磊 任家琪 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第2期219-238,共20页
对文本生成图像任务进行综合评估和整理,根据生成图像的理念,将文本生成图像任务分为3大类:基于生成对抗网络架构生成图像、基于自回归模型架构生成图像、基于扩散模型架构生成图像.针对基于生成对抗网络架构的文本生成图像方法,按照改... 对文本生成图像任务进行综合评估和整理,根据生成图像的理念,将文本生成图像任务分为3大类:基于生成对抗网络架构生成图像、基于自回归模型架构生成图像、基于扩散模型架构生成图像.针对基于生成对抗网络架构的文本生成图像方法,按照改进的不同技术点归纳为6小类:采用多层次体系嵌套架构、注意力机制的应用、应用孪生网络、采用循环一致方法、深度融合文本特征和改进无条件模型.通过对不同方法的分析,总结并讨论了现有的文本生成图像方法通用评估指标和数据集. 展开更多
关键词 人工智能生成内容 文本生成图像 生成对抗网络 自回归模型 扩散模型
在线阅读 下载PDF
基于自监督注意和图像特征融合的文本生成图像方法 被引量:3
5
作者 廖涌卉 张海涛 金海波 《液晶与显示》 CAS CSCD 北大核心 2024年第2期180-191,共12页
现有的层级式文本生成图像的方法在初始图像生成阶段仅使用上采样进行特征提取,上采样过程本质是卷积运算,卷积运算的局限性会造成全局信息被忽略并且远程语义无法交互。虽然已经有方法在模型中加入自注意力机制,但依然存在图像细节缺... 现有的层级式文本生成图像的方法在初始图像生成阶段仅使用上采样进行特征提取,上采样过程本质是卷积运算,卷积运算的局限性会造成全局信息被忽略并且远程语义无法交互。虽然已经有方法在模型中加入自注意力机制,但依然存在图像细节缺失、图像结构性错误等问题。针对上述存在的问题,提出一种基于自监督注意和图像特征融合的生成对抗网络模型SAF-GAN。将基于ContNet的自监督模块加入到初始特征生成阶段,利用注意机制进行图像特征之间的自主映射学习,通过特征的上下文关系引导动态注意矩阵,实现上下文挖掘和自注意学习的高度结合,提高低分辨率图像特征的生成效果,后续通过不同阶段网络的交替训练实现高分辨率图像的细化生成。同时加入了特征融合增强模块,通过将模型上一阶段的低分辨率特征与当前阶段的特征进行融合,生成网络可以充分利用低层特征的高语义信息和高层特征的高分辨率信息,更加保证了不同分辨率特征图的语义一致性,从而实现高分辨率的逼真的图像生成。实验结果表明,相较于基准模型(AttnGAN),SAF-GAN模型在IS和FID指标上均有改善,在CUB数据集上的IS分数提升了0.31,FID指标降低了3.45;在COCO数据集上的IS分数提升了2.68,FID指标降低了5.18。SAF-GAN模型能够有效生成更加真实的图像,证明了该方法的有效性。 展开更多
关键词 计算机视觉 生成对抗网络 文本生成图像 CotNet 图像特征融合
在线阅读 下载PDF
融合XLnet与DMGAN的文本生成图像方法 被引量:1
6
作者 赵泽纬 车进 吕文涵 《液晶与显示》 CAS CSCD 北大核心 2024年第2期168-179,共12页
针对文本生成图像任务中的文本编码器不能深度挖掘文本信息,导致后续生成的图像存在语义不一致的问题,本文提出了一种改进DMGAN模型的文本生成图像方法。首先使用XLnet的预训练模型对文本进行编码,该模型在大规模语料库的预训练之下能... 针对文本生成图像任务中的文本编码器不能深度挖掘文本信息,导致后续生成的图像存在语义不一致的问题,本文提出了一种改进DMGAN模型的文本生成图像方法。首先使用XLnet的预训练模型对文本进行编码,该模型在大规模语料库的预训练之下能够捕获大量文本的先验知识,实现对上下文信息的深度挖掘;然后在DMGAN模型生成图像的初始阶段和图像细化阶段均加入通道注意力模块,突出重要的特征通道,进一步提升生成图像的语义一致性和空间布局合理性,以及模型的收敛速度和稳定性。实验结果表明,所提出模型在CUB数据集上生成的图像相比原DMGAN模型,IS指标提升了0.47,FID指标降低了2.78,充分说明该模型具有更好的跨模态生成能力。 展开更多
关键词 文本生成图像 XLnet模型 生成对抗网络 通道注意力
在线阅读 下载PDF
基于扩散生成对抗网络的文本生成图像模型研究 被引量:6
7
作者 赵宏 李文改 《电子与信息学报》 EI CSCD 北大核心 2023年第12期4371-4381,共11页
文本生成图像是一项结合计算机视觉(CV)和自然语言处理(NLP)领域的综合性任务。以生成对抗网络(GANs)为基础的方法在文本生成图像方面取得了显著进展,但GANs方法的模型存在训练不稳定的问题。为解决这一问题,该文提出一种基于扩散Wasser... 文本生成图像是一项结合计算机视觉(CV)和自然语言处理(NLP)领域的综合性任务。以生成对抗网络(GANs)为基础的方法在文本生成图像方面取得了显著进展,但GANs方法的模型存在训练不稳定的问题。为解决这一问题,该文提出一种基于扩散Wasserstein生成对抗网络(WGAN)的文本生成图像模型(D-WGAN)。在DWGAN中,利用向判别器中输入扩散过程中随机采样的实例噪声,在实现模型稳定训练的同时,生成高质量和多样性的图像。考虑到扩散过程的采样成本较高,引入一种随机微分的方法,以简化采样过程。为了进一步对齐文本与图像的信息,提出使用基于对比学习的语言-图像预训练模型(CLIP)获得文本与图像信息之间的跨模态映射关系,从而提升文本和图像的一致性。在MSCOCO,CUB-200数据集上的实验结果表明,D-WGAN在实现稳定训练的同时,与当前最好的方法相比,FID分数分别降低了16.43%和1.97%,IS分数分别提升了3.38%和30.95%,说明D-WGAN生成的图像质量更高,更具有实用价值。 展开更多
关键词 文本生成图像 生成对抗网络 扩散过程 对比学习的语言-图像预训练模型 语义匹配
在线阅读 下载PDF
改进深度卷积生成式对抗网络的文本生成图像
8
作者 李云红 朱绵云 +3 位作者 任劼 苏雪平 周小计 于惠康 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第8期1875-1883,共9页
针对深度卷积生成式对抗网络(DCGAN)模型高维文本输入表示的稀疏性导致以文本为条件生成的图像结构缺失和图像不真实的问题,提出了一种改进深度卷积生成式对抗网络模型CA-DCGAN。采用深度卷积网络和循环文本编码器对输入的文本进行编码... 针对深度卷积生成式对抗网络(DCGAN)模型高维文本输入表示的稀疏性导致以文本为条件生成的图像结构缺失和图像不真实的问题,提出了一种改进深度卷积生成式对抗网络模型CA-DCGAN。采用深度卷积网络和循环文本编码器对输入的文本进行编码,得到文本的特征向量表示。引入条件增强(CA)模型,通过文本特征向量的均值和协方差矩阵产生附加的条件变量,代替原来的高维文本特征向量。将条件变量与随机噪声结合作为生成器的输入,并在生成器的损失中额外加入KL损失正则化项,避免模型训练过拟合,使模型可以更好的收敛,在判别器中使用谱约束(SN)层,防止其梯度下降太快造成生成器与判别器不平衡训练而发生模式崩溃的问题。实验验证结果表明:所提模型在Oxford-102-flowers和CUB-200数据集上生成的图像质量较alignDRAW、GAN-CLS、GAN-INT-CLS、StackGAN(64×64)、StackGAN-v1(64×64)模型更好且接近于真实样本,初始得分值最低分别提高了10.9%和5.6%,最高分别提高了41.4%和37.5%,FID值最低分别降低了11.4%和8.4%,最高分别降低了43.9%和42.5%,进一步表明了所提模型的有效性。 展开更多
关键词 深度卷积生成式对抗网络 文本生成图像 文本特征表示 条件增强 KL正则化
在线阅读 下载PDF
基于单阶段生成对抗网络的文本生成图像方法
9
作者 杨冰 那巍 向学勤 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第12期2412-2420,共9页
为了提高生成图像质量,提出新的文本生成图像方法,整体框架采用单阶段文本生成图像主干.在原有模型只使用句子信息生成图像的基础上,使用注意力机制把单词信息融入图像特征,采用合理地融入更多文本信息的方式提高生成图像的质量.引入对... 为了提高生成图像质量,提出新的文本生成图像方法,整体框架采用单阶段文本生成图像主干.在原有模型只使用句子信息生成图像的基础上,使用注意力机制把单词信息融入图像特征,采用合理地融入更多文本信息的方式提高生成图像的质量.引入对比损失,使相同语义图像之间更加接近,不同语义图像之间更加疏远,从而更好地保证文本与生成图像之间的语义一致性.在生成器中采用动态卷积来增强生成器的表达能力.实验结果表明,所提方法在数据集CUB(Fréchet inception distance(FID)从12.10提升到10.36)和数据集COCO(FID从15.41提升到12.74)上都获得了较好的性能提升. 展开更多
关键词 文本生成图像 注意力机制 对比损失 语义一致性 动态卷积
在线阅读 下载PDF
基于图像-文本语义一致性的文本生成图像方法 被引量:10
10
作者 薛志杭 许喆铭 +3 位作者 郎丛妍 冯松鹤 王涛 李浥东 《计算机研究与发展》 EI CSCD 北大核心 2023年第9期2180-2190,共11页
近年来,以生成对抗网络(generative adversarial network,GAN)为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法... 近年来,以生成对抗网络(generative adversarial network,GAN)为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法大多针对在图像全局特征与初始文本语义特征之间进行建模,忽略了初始文本特征的局限性,且没有充分利用具有语义一致性的生成图像对文本特征的指导作用,因而降低了文本生成图像中文本信息的表征性.其次,由于没有考虑到生成目标区域间的动态交互,生成网络只能粗略地划分目标区域,且忽略了图像局部区域与文本语义标签的潜在对应关系.为解决上述问题,提出了一种基于图像-文本语义一致性的文本生成图像方法ITSC-GAN.该模型首先设计了一个文本信息增强模块(text information enhancement module,TEM),利用生成图像对文本信息进行增强,从而提高文本特征的表征能力.另外,该模型提出了一个图像区域注意力模块(image regional attention module,IRAM),通过挖掘图像子区域之间的关系,增强图像特征的表征能力.通过联合利用这2个模块,使得图像局部特征与文本语义标签之间具有更高的一致性.最后,该模型使用生成器与判别器损失函数作为约束,以提升生成图像的质量,促进图像与文本描述的语义一致.实验结果表明,在CUB数据集上,与当前主流方法AttnGAN模型相比,ITSC-GAN模型的IS(inception score)指标增长了约7.42%,FID(Fréchet inception distance)减少了约28.76%,R-precision增加了约14.95%.大量实验结果充分验证了ITSC-GAN模型的有效性及优越性. 展开更多
关键词 文本生成图像 生成对抗网络 图像区域注意力 文本信息增强 语义一致性
在线阅读 下载PDF
基于多层次分辨率递进生成对抗网络的文本生成图像方法 被引量:5
11
作者 许一宁 何小海 +1 位作者 张津 卿粼波 《计算机应用》 CSCD 北大核心 2020年第12期3612-3617,共6页
针对文本生成图像任务存在生成图像有目标结构不合理、图像纹理不清晰等问题,在注意力生成对抗网络(AttnGAN)的基础上提出了多层次分辨率递进生成对抗网络(MPRGAN)模型。首先,在低分辨率层采用语义分离-融合生成模块,将文本特征在自注... 针对文本生成图像任务存在生成图像有目标结构不合理、图像纹理不清晰等问题,在注意力生成对抗网络(AttnGAN)的基础上提出了多层次分辨率递进生成对抗网络(MPRGAN)模型。首先,在低分辨率层采用语义分离-融合生成模块,将文本特征在自注意力机制引导下分离为3个特征向量,并用这些特征向量分别生成特征图谱;然后,将特征图谱融合为低分辨率图谱,并采用mask图像作为语义约束以提高低分辨率生成器的稳定性;最后,在高分辨率层采用分辨率递进残差结构,同时结合词注意力机制和像素混洗来进一步改善生成图像的质量。实验结果表明,在数据集CUB-200-2011和Oxford-102上,所提模型的IS分别达到了4.70和3.53,与AttnGAN相比分别提高了7.80%和3.82%。MPRGAN模型能够在一定程度上解决结构生成不稳定的问题,同时其生成的图像也更接近真实图像。 展开更多
关键词 文本生成图像 生成对抗网络 自注意力机制 残差结构 像素混洗
在线阅读 下载PDF
多层次结构生成对抗网络的文本生成图像方法 被引量:15
12
作者 孙钰 李林燕 +2 位作者 叶子寒 胡伏原 奚雪峰 《计算机应用》 CSCD 北大核心 2019年第11期3204-3209,共6页
近年来,生成对抗网络(GAN)在从文本描述到图像的生成中已经取得了显著成功,但仍然存在图像边缘模糊、局部纹理不清晰以及生成样本方差小等问题。针对上述不足,在叠加生成对抗网络模型(StackGAN++)基础上,提出了一种多层次结构生成对抗网... 近年来,生成对抗网络(GAN)在从文本描述到图像的生成中已经取得了显著成功,但仍然存在图像边缘模糊、局部纹理不清晰以及生成样本方差小等问题。针对上述不足,在叠加生成对抗网络模型(StackGAN++)基础上,提出了一种多层次结构生成对抗网络(MLGAN)模型,该网络模型由多个生成器和判别器以层次结构并列组成。首先,引入层次结构编码方法和词向量约束来改变网络中各层次生成器的条件向量,使图像的边缘细节和局部纹理更加清晰生动;然后,联合训练生成器和判别器,借助多个层次的生成图像分布共同逼近真实图像分布,使生成样本方差变大,增加生成样本的多样性;最后,从不同层次的生成器生成对应文本的不同尺度图像。实验结果表明,在CUB和Oxford-102数据集上MLGAN模型的Inception score分别达到了4.22和3.88,与StackGAN++相比,分别提高了4.45%和3.74%。MLGAN模型在解决生成图像的边缘模糊和局部纹理不清晰方面有了一定提升,其生成的图像更接近真实图像。 展开更多
关键词 生成对抗网络 文本生成图像 多层次结构生成对抗网络 多层次图像分布 层次结构编码
在线阅读 下载PDF
基于通道注意力机制的文本生成图像方法 被引量:2
13
作者 张云帆 易尧华 +1 位作者 汤梓伟 王新宇 《计算机工程》 CAS CSCD 北大核心 2022年第4期206-212,222,共8页
针对文本生成图像任务中生成图像细节缺失及低分辨率阶段生成图像存在结构性错误的问题,基于动态注意力机制生成对抗网络(DMGAN),引入内容感知上采样模块和通道注意力卷积模块,提出一种新的文本生成图像方法ECAGAN。在低分辨率图像生成... 针对文本生成图像任务中生成图像细节缺失及低分辨率阶段生成图像存在结构性错误的问题,基于动态注意力机制生成对抗网络(DMGAN),引入内容感知上采样模块和通道注意力卷积模块,提出一种新的文本生成图像方法ECAGAN。在低分辨率图像生成阶段的特征图上采样过程中采用基于内容感知的上采样方法,通过输入特征图计算得到重组卷积核,使用重组卷积核和特征图进行卷积操作,确保上采样后的特征图和文本条件的语义一致性,使生成的低分辨率图像更加准确,利用通道注意力卷积模块学习特征图各个特征通道的重要程度,突出重要的特征通道,抑制无效信息,使生成图像的细节更丰富。此外在训练过程中结合条件增强和感知损失函数辅助训练,增强训练过程的鲁棒性,提高生成图像质量。在CUB-200-2011数据集上的实验结果表明,ECAGAN模型初始分数达到了4.83,R值达到了75.62,与DMGAN方法相比,分别提高了1.6%和4.6%,并且可改善生成图像结构错乱的问题,同时能够生成清晰的图像细节,语义一致性更高,更加接近真实图像。 展开更多
关键词 生成对抗网络 文本生成图像 通道注意力机制 内容感知上采样 感知损失
在线阅读 下载PDF
基于美学评判的文本生成图像优化 被引量:3
14
作者 徐天宇 王智 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2019年第12期2438-2448,共11页
在对抗生成网络(GAN)这一概念的诞生及发展推动下,文本生成图像的研究取得进展和突破,但大部分的研究内容集中于提高生成图片稳定性和解析度的问题,提高生成结果美观度的研究则很少。而计算机视觉中另一项经典的课题——图像美观度评判... 在对抗生成网络(GAN)这一概念的诞生及发展推动下,文本生成图像的研究取得进展和突破,但大部分的研究内容集中于提高生成图片稳定性和解析度的问题,提高生成结果美观度的研究则很少。而计算机视觉中另一项经典的课题——图像美观度评判的研究也在深度神经网络的推动下提出了一些成果可信度较高的美观度评判模型。本文借助美观度评判模型,对实现文本生成图像目标的GAN模型进行了改造,以期提高其生成图片的美观度指标。首先针对StackGAN++模型,通过选定的美观度评判模型从美学角度评估其生成结果;然后通过借助评判模型构造美学损失的方式对其进行优化。结果使得其生成图像的总体美学分数比原模型提高了3.17%,同时Inception Score提高了2.68%,证明所提方法具有一定效果,但仍存在一定缺陷和提升空间。 展开更多
关键词 文本生成图像 对抗生成网络(GAN) 美观度评判 StackGAN++ 美学损失
在线阅读 下载PDF
一种基于谱归一化的两阶段堆叠结构生成对抗网络的文本生成图像模型 被引量:3
15
作者 王霞 徐慧英 朱信忠 《计算机工程与科学》 CSCD 北大核心 2022年第6期1083-1089,共7页
文本生成图像是机器学习领域非常具有挑战性的任务,虽然目前已经有了很大突破,但仍然存在模型训练不稳定以及梯度消失等问题。针对这些不足,在堆叠生成对抗网络(StackGAN)基础上,提出一种结合谱归一化与感知损失函数的文本生成图像模型... 文本生成图像是机器学习领域非常具有挑战性的任务,虽然目前已经有了很大突破,但仍然存在模型训练不稳定以及梯度消失等问题。针对这些不足,在堆叠生成对抗网络(StackGAN)基础上,提出一种结合谱归一化与感知损失函数的文本生成图像模型。首先,该模型将谱归一化运用到判别器网络中,将每层网络梯度限制在固定范围内,相对减缓判别器网络的收敛速度,从而提高网络训练的稳定性;其次,将感知损失函数添加到生成器网络中,增强文本语义与图像内容的一致性。使用Inception score评估所提模型生成图像的质量。实验结果表明,该模型与原始StackGAN相比,具有更好的稳定性且生成图像更加逼真。 展开更多
关键词 深度学习 生成对抗网络 文本生成图像 谱归一化 感知损失函数
在线阅读 下载PDF
基于Transformer交叉注意力的文本生成图像技术 被引量:6
16
作者 谈馨悦 何小海 +2 位作者 王正勇 罗晓东 卿粼波 《计算机科学》 CSCD 北大核心 2022年第2期107-115,共9页
近年来,以生成对抗网络为基础的从文本生成图像方法的研究取得了一定的进展。文本生成图像技术的关键在于构建文本信息和视觉信息间的桥梁,促进网络模型生成与对应文本描述一致的逼真图像。目前,主流的方法是通过预训练文本编码器来完... 近年来,以生成对抗网络为基础的从文本生成图像方法的研究取得了一定的进展。文本生成图像技术的关键在于构建文本信息和视觉信息间的桥梁,促进网络模型生成与对应文本描述一致的逼真图像。目前,主流的方法是通过预训练文本编码器来完成对输入文本描述的编码,但这些方法在文本编码器中未考虑与对应图像的语义对齐问题,独立对输入文本进行编码,忽略了语言空间与图像空间之间的语义鸿沟问题。为解决这一问题,文中设计了一种基于交叉注意力编码器的对抗生成网络(CAE-GAN),该网络通过交叉注意力编码器,将文本信息与视觉信息进行翻译和对齐,以捕捉文本与图像信息之间的跨模态映射关系,从而提升生成图像的逼真度和与输入文本描述的匹配度。实验结果表明,在CUB和coco数据集上,与当前主流的方法DM-GAN模型相比,CAE-GAN模型的IS(Inception Score)分数分别提升了2.53%和1.54%,FID (Fréchet Inception Distance)分数分别降低了15.10%和5.54%,由此可知,CAE-GAN模型生成图像的细节更加完整、质量更高。 展开更多
关键词 文本描述生成图像 生成对抗网络 交叉注意力编码 图像生成 计算机视觉
在线阅读 下载PDF
基于多语种文本符号的艺术图像生成模型
17
作者 唐宏 卓诗语 《无线电通信技术》 北大核心 2025年第3期486-492,共7页
文本生成图像(Text-to-Image,TTI)任务是指利用文本符号来生成图像,在艺术设计领域中有重要应用前景。由于缺乏不同语种的注释图像数据,对TTI的研究主要集中在英文领域,现有TTI模型无法利用其他语种数据进行图像生成。基于上述考虑,研... 文本生成图像(Text-to-Image,TTI)任务是指利用文本符号来生成图像,在艺术设计领域中有重要应用前景。由于缺乏不同语种的注释图像数据,对TTI的研究主要集中在英文领域,现有TTI模型无法利用其他语种数据进行图像生成。基于上述考虑,研究多语种TTI(Multilingual TTI,MTTI)以及基于神经机器翻译引导的MTTI系统,依托多语种多模态编码器,提出基于多语种文本符号的艺术图像生成模型(Art Image Generation Model Based on Multilingual Text Symbols,AIG-MTS),学习权重并整合多语种文本知识,减少语种之间的差异,提高模型性能。在标准数据集COCO-CN、Multi30K Task2和LAION-5B上进行实验,相比于主流算法,AIG-MTS模型在所有数据集上的性能最佳。 展开更多
关键词 设计领域 多语种 文本生成图像 多模态编码器 神经机器翻译
在线阅读 下载PDF
基于改进扩散模型结合条件控制的文本图像生成算法
18
作者 杜洪波 薛皓元 朱立军 《南京信息工程大学学报》 北大核心 2025年第5期611-623,共13页
针对现有的文本图像生成方法存在图像保真度低、图像生成操作难度大、仅适用于特定的任务场景等问题,提出一种新型的基于扩散模型的文本生成图像方法.该方法将扩散模型作为主要网络,设计一种新型结构的残差块,有效提升模型生成性能;通... 针对现有的文本图像生成方法存在图像保真度低、图像生成操作难度大、仅适用于特定的任务场景等问题,提出一种新型的基于扩散模型的文本生成图像方法.该方法将扩散模型作为主要网络,设计一种新型结构的残差块,有效提升模型生成性能;通过添加注意力模块CBAM来改进噪声估计网络,增强了模型对图像关键信息的提取能力,进一步提高了生成图像质量;结合条件控制网络,有效地实现了特定姿势的文本图像生成.与KNN-Diffusion、CogView2、text-StyleGAN、SimpleDiffusion等方法在数据集CelebA-HQ上做了定性、定量分析以及消融实验,根据评价指标以及生成结果显示,本文方法能够有效提高文本生成图像的质量,FID平均下降36.4%,Inception Score(IS)和结构相似性指数(SSIM)分别平均提高11.4%和3.9%,验证了本文算法的有效性.同时,本文模型结合了ControlNet网络,实现了定向动作的文本图像生成. 展开更多
关键词 扩散模型 文本图像生成 条件控制 残差块 CBAM
在线阅读 下载PDF
TCPColor:基于文本到图像生成模型的中国画配色方案推荐系统
19
作者 张迪 张文安 +4 位作者 姜智德 吴爱霞 孔浩 郭显 陈为 《图学学报》 北大核心 2025年第3期520-531,共12页
传统中国绘画(国画)是中国特有的绘画形式,在其基础上探索配色方案的使用,对现代设计师探索传统艺术与现代设计理念融合有重要意义,但是基于国画知识的色彩推荐系统研究较少,尚未有基于主题、物象和意境等多维度特征提供有效的配色检索... 传统中国绘画(国画)是中国特有的绘画形式,在其基础上探索配色方案的使用,对现代设计师探索传统艺术与现代设计理念融合有重要意义,但是基于国画知识的色彩推荐系统研究较少,尚未有基于主题、物象和意境等多维度特征提供有效的配色检索和推荐的方案。为此,提出一个中国画配色方案推荐系统TCPColor,以中文文本到图像生成模型太乙为基础,使用专家标注的宋代国画数据对模型进行了微调,然后对生成图像使用视觉显著性算法、K-Means聚类和基于色彩距离的色表匹配生成了具有国画风格的配色方案,通过消融实验验证了配色方案提取方法的有效性,并通过客观色彩分析评估了生成配色方案的差异性及与国画配色方案的相似度。与国画专家和志愿者合作进行案例分析、专家评估和用户研究,证明了该研究在配色方案推荐方面的实用性。 展开更多
关键词 传统中国绘画 配色方案 色彩推荐系统 单词颜色关联 文本图像生成
在线阅读 下载PDF
基于注意力和动态记忆模块的文本图像生成方法 被引量:1
20
作者 张鹤 雷浩鹏 +1 位作者 王明文 张尚昆 《计算机工程与应用》 CSCD 北大核心 2024年第17期224-232,共9页
针对文本生成图像任务中多阶段生成模型存在的问题,如缺乏图像纹理信息特征和文本描述与生成图像之间一致性差异,提出了一种新颖的生成对抗网络(ADM-GAN)模型。该模型使用注意力和动态记忆模块进行优化。通过文本编码器将文本描述转化... 针对文本生成图像任务中多阶段生成模型存在的问题,如缺乏图像纹理信息特征和文本描述与生成图像之间一致性差异,提出了一种新颖的生成对抗网络(ADM-GAN)模型。该模型使用注意力和动态记忆模块进行优化。通过文本编码器将文本描述转化为嵌入向量,并利用生成器结合随机噪声生成低分辨率图像。引入了空间注意力和通道注意力模块,旨在融合低分辨率图像隐藏特征与重要的单词级语义特征,从而确保文本描述与图像特征的一致性。使用动态记忆模块捕获文本与图像间的语义对应关系,并根据生成过程动态调整记忆内容,细化图像纹理,提升文本到图像的合成效果。通过在公开的CUB和COCO数据集上的对比实验,同以往方法相比,Fréchet inception distance与inception score有了显著的提升,证明了该模型在一定程度上能够解决图像细节缺失以及语义信息丢失等问题,有效提高了图像与文本的一致性,取得了更加优异的效果。 展开更多
关键词 文本生成图像 生成对抗网络 注意力机制 动态记忆
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部