期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于跨模态级联扩散模型的图像描述方法
1
作者 陈巧红 郭孟浩 +1 位作者 方贤 孙麒 《浙江大学学报(工学版)》 北大核心 2025年第4期787-794,共8页
现有文本扩散模型方法无法有效根据语义条件控制扩散过程,扩散模型训练过程的收敛较为困难,为此提出基于跨模态级联扩散模型的非自回归图像描述方法.引入跨模态语义对齐模块用于对齐视觉模态和文本模态之间的语义关系,将对齐后的语义特... 现有文本扩散模型方法无法有效根据语义条件控制扩散过程,扩散模型训练过程的收敛较为困难,为此提出基于跨模态级联扩散模型的非自回归图像描述方法.引入跨模态语义对齐模块用于对齐视觉模态和文本模态之间的语义关系,将对齐后的语义特征向量作为后续扩散模型的语义条件.通过设计级联式的扩散模型逐步引入丰富的语义信息,确保生成的图像描述贴近整体语境.增强文本扩散过程中的噪声计划以提升模型对文本信息的敏感性,充分训练模型以增强模型的整体性能.实验结果表明,所提方法能够生成比传统图像描述生成方法更准确和丰富的文本描述.所提方法在各项评价指标上均明显优于其他非自回归文本生成方法,展现了在图像描述任务中使用扩散模型的有效性和潜力. 展开更多
关键词 深度学习 图像描述 扩散模型 多模态编码 级联结构
在线阅读 下载PDF
基于模态语义增强的跨模态食谱检索方法 被引量:1
2
作者 李明 周栋 +1 位作者 雷芳 曹步清 《计算机应用研究》 CSCD 北大核心 2024年第4期1131-1137,共7页
在跨模态食谱检索任务中,如何有效地对模态进行特征表示是一个热点问题。目前一般使用两个独立的神经网络分别获取图像和食谱的特征,通过跨模态对齐实现跨模态检索。但这些方法主要关注模态内的特征信息,忽略了模态间的特征交互,导致部... 在跨模态食谱检索任务中,如何有效地对模态进行特征表示是一个热点问题。目前一般使用两个独立的神经网络分别获取图像和食谱的特征,通过跨模态对齐实现跨模态检索。但这些方法主要关注模态内的特征信息,忽略了模态间的特征交互,导致部分有效模态信息丢失。针对该问题,提出一种通过多模态编码器来增强模态语义的跨模态食谱检索方法。首先使用预训练模型提取图像和食谱的初始语义特征,并借助对抗损失缩小模态间差异;然后利用成对跨模态注意力使来自一个模态的特征反复强化另一个模态的特征,进一步提取有效信息;接着采用自注意力机制对模态的内部特征进行建模,以捕捉丰富的模态特定语义信息和潜在关联知识;最后,引入三元组损失最小化同类样本间的距离,实现跨模态检索学习。在Recipe 1M数据集上的实验结果表明,该方法在中位数排名(MedR)和前K召回率(R@K)等方面均优于目前的主流方法,为跨模态检索任务提供了有力的解决方案。 展开更多
关键词 模态食谱检索 特征提取 模态语义增强 多模态编码
在线阅读 下载PDF
基于多语种文本符号的艺术图像生成模型
3
作者 唐宏 卓诗语 《无线电通信技术》 北大核心 2025年第3期486-492,共7页
文本生成图像(Text-to-Image,TTI)任务是指利用文本符号来生成图像,在艺术设计领域中有重要应用前景。由于缺乏不同语种的注释图像数据,对TTI的研究主要集中在英文领域,现有TTI模型无法利用其他语种数据进行图像生成。基于上述考虑,研... 文本生成图像(Text-to-Image,TTI)任务是指利用文本符号来生成图像,在艺术设计领域中有重要应用前景。由于缺乏不同语种的注释图像数据,对TTI的研究主要集中在英文领域,现有TTI模型无法利用其他语种数据进行图像生成。基于上述考虑,研究多语种TTI(Multilingual TTI,MTTI)以及基于神经机器翻译引导的MTTI系统,依托多语种多模态编码器,提出基于多语种文本符号的艺术图像生成模型(Art Image Generation Model Based on Multilingual Text Symbols,AIG-MTS),学习权重并整合多语种文本知识,减少语种之间的差异,提高模型性能。在标准数据集COCO-CN、Multi30K Task2和LAION-5B上进行实验,相比于主流算法,AIG-MTS模型在所有数据集上的性能最佳。 展开更多
关键词 设计领域 多语种 文本生成图像 多模态编码 神经机器翻译
在线阅读 下载PDF
基于跨模态多维关系增强的多模态模型研究
4
作者 成曦 杨关 +1 位作者 刘小明 刘阳 《计算机应用研究》 CSCD 北大核心 2023年第8期2367-2374,共8页
针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系,导致多模态关系推理效果不佳的问题,提出了一个基于跨模态多维关系增强的多模态模型(multi-dimensional relationship enhancement model,MRE),用于提... 针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系,导致多模态关系推理效果不佳的问题,提出了一个基于跨模态多维关系增强的多模态模型(multi-dimensional relationship enhancement model,MRE),用于提取潜层结构下图像各要素之间的空间关系信息,并推理出视觉—语言间的语义相关性。设计了特征多样性模块用于挖掘图像中与显著区域相关的次显著区域特征,从而增强图像空间关系特征表示。同时设计了上下文引导注意模块来引导模型学习语言上下文在图像中的关系,实现跨模态关系对齐。在MSCOCO数据集上的实验表明所提模型获得了更好的性能,其中BLEU-4和CIDEr分数分别提升了0.5%和1.3%。将这种方法应用到视觉问答任务中,在VQA 2.0数据集上性能得到了0.62%的提升,证明了该方法在多模态任务方面的广泛适用性。 展开更多
关键词 图像描述 视觉问答 特征多样性 空间关系 上下文语义关系 特征融合 多模态编码
在线阅读 下载PDF
基于视觉关系推理与上下文门控机制的图像描述 被引量:3
5
作者 陈巧红 裴皓磊 孙麒 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第3期542-549,共8页
为了探索图像场景理解所需要的视觉区域间关系的建模与推理,提出视觉关系推理模块.该模块基于图像中不同的语义和空间上下文信息,对相关视觉对象间的关系模式进行动态编码,并推断出与当前生成的关系词最相关的语义特征输出.通过引入上... 为了探索图像场景理解所需要的视觉区域间关系的建模与推理,提出视觉关系推理模块.该模块基于图像中不同的语义和空间上下文信息,对相关视觉对象间的关系模式进行动态编码,并推断出与当前生成的关系词最相关的语义特征输出.通过引入上下文门控机制,以根据不同类型的单词动态地权衡视觉注意力模块和视觉关系推理模块的贡献.实验结果表明,对比以往基于注意力机制的图像描述方法,基于视觉关系推理与上下文门控机制的图像描述方法更好;所提模块可以动态建模和推理不同类型生成单词的最相关特征,对输入图像中物体关系的描述更加准确. 展开更多
关键词 图像语义描述 视觉关系推理 多模态编码 上下文门控机制 注意力机制
在线阅读 下载PDF
基于RGB特征与深度特征融合的物体识别算法 被引量:15
6
作者 卢良锋 谢志军 叶宏武 《计算机工程》 CAS CSCD 北大核心 2016年第5期186-193,共8页
RGB图像和深度图像的同时使用能有效提高物体识别的准确率。然而,已有研究仅将RGB图像和深度图像的特征进行简单的线性连接,没有根据RGB特征和深度特征的差异性进行特征提取和融合,充分发挥RGB-D图像的优势。为此,提出一种多模态稀疏自... RGB图像和深度图像的同时使用能有效提高物体识别的准确率。然而,已有研究仅将RGB图像和深度图像的特征进行简单的线性连接,没有根据RGB特征和深度特征的差异性进行特征提取和融合,充分发挥RGB-D图像的优势。为此,提出一种多模态稀疏自编码算法,在进行差异性特征提取的同时完成RGB特征和深度特征的有效融合。结合多模态稀疏自编码算法和空间金字塔最大池化算法,给出一个全新的深度学习模型。该模型能够提取有辨别力的特征并完成基于RGB-D图像的物体识别工作。在2个标准的RGB-D数据库上的实验结果表明,与基于RGB-D的物体识别算法相比,该算法能够有效融合RGB特征和深度特征,取得更高的识别准确率。 展开更多
关键词 RGB特征与深度特征融合 稀疏自编码 多模态稀疏自编码 空间金字塔最大池化 深度学习 物体识别
在线阅读 下载PDF
基于时空注意力Transformer的自动驾驶运动规划方法
7
作者 袁丁 李源 +2 位作者 孟羽倩 张弘 杨一帆 《电子学报》 2025年第7期2418-2427,共10页
驾驶场景中的静态智能体、动态智能体、道路结构及各元素间的交互通常是复杂且随时空快速变化的.因此,自动驾驶车辆的运动预测是一项十分具有挑战性的任务,其中一个尚未解决的难题就是如何高效表征和融合多模态场景信息,包括路况信息、... 驾驶场景中的静态智能体、动态智能体、道路结构及各元素间的交互通常是复杂且随时空快速变化的.因此,自动驾驶车辆的运动预测是一项十分具有挑战性的任务,其中一个尚未解决的难题就是如何高效表征和融合多模态场景信息,包括路况信息、不同智能体状态及其历史交互信息.现有方法大多依靠独立设计的模块并行处理多个模态的数据,但这种方式会造成系统灵活度较差、调整困难,且独立组件往往会引起较高的计算冗余,系统计算效率较低.此外,由自动驾驶场景的时间信息和空间信息解码获得保障安全驾驶的动作指令本身就是一项十分具有挑战性的任务.本文提出基于时空注意力Transformer的自动驾驶运动规划方法,由分阶段多模态场景编码器和时空融合解码器组成,能够逐过程构建多模态运动场景描述,同时在时空融合下预测自车的未来安全运动.本文在大规模自动驾驶数据集nuScenes上搭建了全新的比较基线,取得了较为领先的结果. 展开更多
关键词 自动驾驶运动预测 分阶段多模态编码 时空融合解码器 Transformer 全新基线
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部