期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于多模态预训练模型的水稻病虫害图像描述生成研究 被引量:3
1
作者 薛悦平 胡彦蓉 +2 位作者 刘洪久 童莉珍 葛万钊 《南京农业大学学报》 CAS CSCD 北大核心 2024年第4期782-791,共10页
[目的]针对水稻病虫害图像分类技术缺少对病症描述的问题,本文提出一种轻量化的水稻病虫害图像描述模型,对水稻病虫害图像进行更为具体的描述。[方法]以白叶枯病、细菌性条斑病、恶苗病、三化螟虫、稻瘟病、稻曲病、纹枯病、飞虱、稻蓟... [目的]针对水稻病虫害图像分类技术缺少对病症描述的问题,本文提出一种轻量化的水稻病虫害图像描述模型,对水稻病虫害图像进行更为具体的描述。[方法]以白叶枯病、细菌性条斑病、恶苗病、三化螟虫、稻瘟病、稻曲病、纹枯病、飞虱、稻蓟马、胡麻斑病这十类常见的水稻病虫害开展研究,构建了水稻病虫害图像中文描述数据集。首先采用多模态预训练模型CLIP生成图像向量,其中包含基本的图像信息以及丰富的语义信息,采用映射网络将图像向量映射到文本空间里生成文本提示向量,语言模型GPT-2根据文本提示向量生成图像描述。[结果]在水稻病虫害图像描述数据集上,本文模型的指标总体明显优于其他模型,本文算法的BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE、METEOR指标较传统的CNN_LSTM模型分别提升0.26、0.27、0.24、0.22、0.22、0.14。生成的图像描述具有准确、详细、语义丰富等优点。另外使用实际稻田图片对模型进行测试,实际田间的场景更为复杂多样,生成的图像描述指标与数据集指标对比总体仅有轻微下降,仍高于其他对比模型。本文模型对水稻病虫害的总体识别准确率达97.28%。[结论]基于多模态预训练模型的水稻病虫害图像描述方法能够准确识别水稻病虫害病症并形成相应的病症描述,为水稻病虫害检测提供一种新思路。 展开更多
关键词 多模态预训练模型 水稻病虫害 图像描述生成 诊断
在线阅读 下载PDF
面向多模态预训练的子图匹配式对比学习方法研究
2
作者 陈公冠 刘慧 +2 位作者 李恒泰 郭强 张彩明 《计算机学报》 北大核心 2025年第4期893-909,共17页
通过图像文本对的联合学习,多模态预训练大模型在各种视觉任务中展现出巨大的潜力,比如在高质量数据集匮乏的医学领域。然而,现有的模态匹配式预训练方法通常使用全局匹配的方式,易受到低质量信息的干扰。尽管少量研究开始关注局部匹配... 通过图像文本对的联合学习,多模态预训练大模型在各种视觉任务中展现出巨大的潜力,比如在高质量数据集匮乏的医学领域。然而,现有的模态匹配式预训练方法通常使用全局匹配的方式,易受到低质量信息的干扰。尽管少量研究开始关注局部匹配,但这些方法仅仅通过简单的池化操作来缩小匹配范围,忽略了跨模态重要对象之间的内在关系以及跨样本对之间同语义表征的获取。鉴于此,本文在多模态大模型的预训练过程中,提出了一种基于图神经网络的消息传递机制,对多模态数据特征进行节点化和子图化,从而将跨模态的匹配方式由全局匹配转变为子图匹配,减少低质量信息的干扰。同时,利用交叉注意力在单一模态内进行子图级别的差异化处理,使其在跨模态学习中建立更细致的关联和语义理解。此外,提出高维空间的样本对聚类方法,以减少多模态大模型对相同语义的无关联错误表达。在涵盖图像分类、病灶区域目标检测和语义分割任务的七个医学图像数据集上进行了大量实验,验证了本文所提出模型的可行性和优越性能。同时在表情识别任务中进行实验,验证了本文模型的泛化性能。 展开更多
关键词 多模态训练模型 局部匹配 子图匹配 无关联错误 聚类
在线阅读 下载PDF
基于细粒度图文对齐的多模态事件抽取方法
3
作者 曹健威 孙英杰 +2 位作者 李凌寒 曾维新 胡艳丽 《火力与指挥控制》 北大核心 2025年第4期135-140,149,共7页
多模态事件抽取旨在从图文数据中抽取结构化的多模态事件信息,其核心在于克服不同模态数据之间的差异,并建立跨模态的关联。提出一种基于细粒度图文对齐的多模态事件抽取方法,由单模态信息抽取和多模态信息融合两个阶段组成。利用文本... 多模态事件抽取旨在从图文数据中抽取结构化的多模态事件信息,其核心在于克服不同模态数据之间的差异,并建立跨模态的关联。提出一种基于细粒度图文对齐的多模态事件抽取方法,由单模态信息抽取和多模态信息融合两个阶段组成。利用文本事件抽取和视觉实体抽取模型获取细粒度的单模态事件信息;基于多模态预训练模型进行细粒度图文对齐,得到多模态事件信息。在多模态事件抽取数据集上进行实验,验证了方法的有效性。 展开更多
关键词 多模态事件抽取 图文对齐 多模态预训练模型 信息抽取 事件抽取
在线阅读 下载PDF
细粒度文本引导的跨模态风格迁移
4
作者 孙世昶 魏爽 +3 位作者 孟佳娜 林鸿飞 肖文浩 刘爽 《中文信息学报》 CSCD 北大核心 2024年第12期170-180,共11页
借助于StyleGANs的解纠缠表示和多模态预训练模型中不同模态之间的语义对应关系,现有方法在跨模态风格迁移领域取得了较好的结果。然而,基于图像尺度分解的StyleGANs的潜在空间不利于局部属性的编辑,这会造成在迁移时对无关部分的干扰... 借助于StyleGANs的解纠缠表示和多模态预训练模型中不同模态之间的语义对应关系,现有方法在跨模态风格迁移领域取得了较好的结果。然而,基于图像尺度分解的StyleGANs的潜在空间不利于局部属性的编辑,这会造成在迁移时对无关部分的干扰。该文提出细粒度文本引导的跨模态风格迁移模型,通过利用文本中包含的区域信息来实现局部可控的风格迁移。首先,通过基于BERT的文本语义分类网络对目标风格文本包含的语义区域进行定位,然后利用特征映射网络将目标文本的CLIP特征嵌入到SemanticStyleGAN的潜在空间。文本语义分类网络和特征映射网络的结合使得目标文本的CLIP特征细粒度地嵌入到可编辑的潜在空间。最后通过对生成的风格化图像进行随机透视增强来解决训练中的对抗生成问题。实验表明,该方法能够生成更贴近文本描述风格的图像,并提高了跨模态编辑的区域准确性。 展开更多
关键词 风格迁移 多模态预训练模型 文本语义分类
在线阅读 下载PDF
基于深度学习的图像-文本匹配研究综述 被引量:13
5
作者 刘萌 齐孟津 +3 位作者 詹圳宇 曲磊钢 聂秀山 聂礼强 《计算机学报》 EI CAS CSCD 北大核心 2023年第11期2370-2399,共30页
图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本... 图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本文将现有方法划分为基于全局特征的图像-文本匹配方法、基于局部特征的图像-文本匹配方法、基于外部知识的图像-文本匹配方法、基于度量学习的图像-文本匹配方法以及多模态预训练模型,对于基于全局特征的图像-文本匹配方法,本文依据流程类型划分为两类:基于嵌入的方法和基于交互的方法;而对于基于局部特征的图像-文本匹配方法,依据其交互模式的不同,则被细分为三类:基于模态内关系建模的方法、基于模态间关系建模的方法以及基于混合交互建模的方法.随后,本文对当前图像-文本匹配任务的相关数据集进行了整理,并对现有方法的实验结果进行分析与总结.最后,对未来研究可能面临的挑战进行了展望. 展开更多
关键词 图像-文本匹配 模态图像检索 多模态预训练模型 综述 深度学习 人工智能
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部