期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于跨模态级联扩散模型的图像描述方法
1
作者 陈巧红 郭孟浩 +1 位作者 方贤 孙麒 《浙江大学学报(工学版)》 北大核心 2025年第4期787-794,共8页
现有文本扩散模型方法无法有效根据语义条件控制扩散过程,扩散模型训练过程的收敛较为困难,为此提出基于跨模态级联扩散模型的非自回归图像描述方法.引入跨模态语义对齐模块用于对齐视觉模态和文本模态之间的语义关系,将对齐后的语义特... 现有文本扩散模型方法无法有效根据语义条件控制扩散过程,扩散模型训练过程的收敛较为困难,为此提出基于跨模态级联扩散模型的非自回归图像描述方法.引入跨模态语义对齐模块用于对齐视觉模态和文本模态之间的语义关系,将对齐后的语义特征向量作为后续扩散模型的语义条件.通过设计级联式的扩散模型逐步引入丰富的语义信息,确保生成的图像描述贴近整体语境.增强文本扩散过程中的噪声计划以提升模型对文本信息的敏感性,充分训练模型以增强模型的整体性能.实验结果表明,所提方法能够生成比传统图像描述生成方法更准确和丰富的文本描述.所提方法在各项评价指标上均明显优于其他非自回归文本生成方法,展现了在图像描述任务中使用扩散模型的有效性和潜力. 展开更多
关键词 深度学习 图像描述 扩散模型 多模态编码器 级联结构
在线阅读 下载PDF
基于模态语义增强的跨模态食谱检索方法 被引量:1
2
作者 李明 周栋 +1 位作者 雷芳 曹步清 《计算机应用研究》 CSCD 北大核心 2024年第4期1131-1137,共7页
在跨模态食谱检索任务中,如何有效地对模态进行特征表示是一个热点问题。目前一般使用两个独立的神经网络分别获取图像和食谱的特征,通过跨模态对齐实现跨模态检索。但这些方法主要关注模态内的特征信息,忽略了模态间的特征交互,导致部... 在跨模态食谱检索任务中,如何有效地对模态进行特征表示是一个热点问题。目前一般使用两个独立的神经网络分别获取图像和食谱的特征,通过跨模态对齐实现跨模态检索。但这些方法主要关注模态内的特征信息,忽略了模态间的特征交互,导致部分有效模态信息丢失。针对该问题,提出一种通过多模态编码器来增强模态语义的跨模态食谱检索方法。首先使用预训练模型提取图像和食谱的初始语义特征,并借助对抗损失缩小模态间差异;然后利用成对跨模态注意力使来自一个模态的特征反复强化另一个模态的特征,进一步提取有效信息;接着采用自注意力机制对模态的内部特征进行建模,以捕捉丰富的模态特定语义信息和潜在关联知识;最后,引入三元组损失最小化同类样本间的距离,实现跨模态检索学习。在Recipe 1M数据集上的实验结果表明,该方法在中位数排名(MedR)和前K召回率(R@K)等方面均优于目前的主流方法,为跨模态检索任务提供了有力的解决方案。 展开更多
关键词 模态食谱检索 特征提取 模态语义增强 多模态编码器
在线阅读 下载PDF
基于多语种文本符号的艺术图像生成模型
3
作者 唐宏 卓诗语 《无线电通信技术》 北大核心 2025年第3期486-492,共7页
文本生成图像(Text-to-Image,TTI)任务是指利用文本符号来生成图像,在艺术设计领域中有重要应用前景。由于缺乏不同语种的注释图像数据,对TTI的研究主要集中在英文领域,现有TTI模型无法利用其他语种数据进行图像生成。基于上述考虑,研... 文本生成图像(Text-to-Image,TTI)任务是指利用文本符号来生成图像,在艺术设计领域中有重要应用前景。由于缺乏不同语种的注释图像数据,对TTI的研究主要集中在英文领域,现有TTI模型无法利用其他语种数据进行图像生成。基于上述考虑,研究多语种TTI(Multilingual TTI,MTTI)以及基于神经机器翻译引导的MTTI系统,依托多语种多模态编码器,提出基于多语种文本符号的艺术图像生成模型(Art Image Generation Model Based on Multilingual Text Symbols,AIG-MTS),学习权重并整合多语种文本知识,减少语种之间的差异,提高模型性能。在标准数据集COCO-CN、Multi30K Task2和LAION-5B上进行实验,相比于主流算法,AIG-MTS模型在所有数据集上的性能最佳。 展开更多
关键词 设计领域 多语种 文本生成图像 多模态编码器 神经机器翻译
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部