-
题名基于多模态预训练模型的水稻病虫害图像描述生成研究
被引量:3
- 1
-
-
作者
薛悦平
胡彦蓉
刘洪久
童莉珍
葛万钊
-
机构
浙江农林大学数学与计算机科学学院/浙江省林业智能监测与信息技术研究重点实验室/林业感知技术与智能装备国家林业和草原局重点实验室
-
出处
《南京农业大学学报》
CAS
CSCD
北大核心
2024年第4期782-791,共10页
-
基金
教育部人文社会科学研究规划基金项目(18YJA630037,21YJA630054)
浙江省自然科学基金资助项目(LY18G010005)。
-
文摘
[目的]针对水稻病虫害图像分类技术缺少对病症描述的问题,本文提出一种轻量化的水稻病虫害图像描述模型,对水稻病虫害图像进行更为具体的描述。[方法]以白叶枯病、细菌性条斑病、恶苗病、三化螟虫、稻瘟病、稻曲病、纹枯病、飞虱、稻蓟马、胡麻斑病这十类常见的水稻病虫害开展研究,构建了水稻病虫害图像中文描述数据集。首先采用多模态预训练模型CLIP生成图像向量,其中包含基本的图像信息以及丰富的语义信息,采用映射网络将图像向量映射到文本空间里生成文本提示向量,语言模型GPT-2根据文本提示向量生成图像描述。[结果]在水稻病虫害图像描述数据集上,本文模型的指标总体明显优于其他模型,本文算法的BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE、METEOR指标较传统的CNN_LSTM模型分别提升0.26、0.27、0.24、0.22、0.22、0.14。生成的图像描述具有准确、详细、语义丰富等优点。另外使用实际稻田图片对模型进行测试,实际田间的场景更为复杂多样,生成的图像描述指标与数据集指标对比总体仅有轻微下降,仍高于其他对比模型。本文模型对水稻病虫害的总体识别准确率达97.28%。[结论]基于多模态预训练模型的水稻病虫害图像描述方法能够准确识别水稻病虫害病症并形成相应的病症描述,为水稻病虫害检测提供一种新思路。
-
关键词
多模态预训练模型
水稻病虫害
图像描述生成
诊断
-
Keywords
multimodal pre-training model
rice diseases and pests
image description generation
diagnosis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向多模态预训练的子图匹配式对比学习方法研究
- 2
-
-
作者
陈公冠
刘慧
李恒泰
郭强
张彩明
-
机构
山东财经大学计算机与人工智能学院
山东省数字经济轻量智算与可视化重点实验室
山东大学软件学院
-
出处
《计算机学报》
北大核心
2025年第4期893-909,共17页
-
基金
国家自然科学基金(62072274,U22A2033)
中央引导地方科技发展项目(YDZX2022009)
+1 种基金
山东省泰山学者特聘专家计划(tstp20221137)
济南市人才发展专项资金(202333037)资助。
-
文摘
通过图像文本对的联合学习,多模态预训练大模型在各种视觉任务中展现出巨大的潜力,比如在高质量数据集匮乏的医学领域。然而,现有的模态匹配式预训练方法通常使用全局匹配的方式,易受到低质量信息的干扰。尽管少量研究开始关注局部匹配,但这些方法仅仅通过简单的池化操作来缩小匹配范围,忽略了跨模态重要对象之间的内在关系以及跨样本对之间同语义表征的获取。鉴于此,本文在多模态大模型的预训练过程中,提出了一种基于图神经网络的消息传递机制,对多模态数据特征进行节点化和子图化,从而将跨模态的匹配方式由全局匹配转变为子图匹配,减少低质量信息的干扰。同时,利用交叉注意力在单一模态内进行子图级别的差异化处理,使其在跨模态学习中建立更细致的关联和语义理解。此外,提出高维空间的样本对聚类方法,以减少多模态大模型对相同语义的无关联错误表达。在涵盖图像分类、病灶区域目标检测和语义分割任务的七个医学图像数据集上进行了大量实验,验证了本文所提出模型的可行性和优越性能。同时在表情识别任务中进行实验,验证了本文模型的泛化性能。
-
关键词
多模态预训练大模型
局部匹配
子图匹配
无关联错误
聚类
-
Keywords
multi-modal pretrained large-scale models
local matching
subgraph matching
unrelated errors
clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于细粒度图文对齐的多模态事件抽取方法
- 3
-
-
作者
曹健威
孙英杰
李凌寒
曾维新
胡艳丽
-
机构
国防科技大学信息系统工程全国重点实验室
国防科技大学大数据与决策实验室
-
出处
《火力与指挥控制》
北大核心
2025年第4期135-140,149,共7页
-
基金
国家自然科学基金资助项目(72471237),(72371245)。
-
文摘
多模态事件抽取旨在从图文数据中抽取结构化的多模态事件信息,其核心在于克服不同模态数据之间的差异,并建立跨模态的关联。提出一种基于细粒度图文对齐的多模态事件抽取方法,由单模态信息抽取和多模态信息融合两个阶段组成。利用文本事件抽取和视觉实体抽取模型获取细粒度的单模态事件信息;基于多模态预训练模型进行细粒度图文对齐,得到多模态事件信息。在多模态事件抽取数据集上进行实验,验证了方法的有效性。
-
关键词
多模态事件抽取
图文对齐
多模态预训练模型
信息抽取
事件抽取
-
Keywords
multimodal event extraction
image-text alignment
multimodal pre-trained model
information extraction
event extraction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名细粒度文本引导的跨模态风格迁移
- 4
-
-
作者
孙世昶
魏爽
孟佳娜
林鸿飞
肖文浩
刘爽
-
机构
大连民族大学计算机科学与工程学院
大连理工大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2024年第12期170-180,共11页
-
基金
国家自然科学基金(61876031,62076046)。
-
文摘
借助于StyleGANs的解纠缠表示和多模态预训练模型中不同模态之间的语义对应关系,现有方法在跨模态风格迁移领域取得了较好的结果。然而,基于图像尺度分解的StyleGANs的潜在空间不利于局部属性的编辑,这会造成在迁移时对无关部分的干扰。该文提出细粒度文本引导的跨模态风格迁移模型,通过利用文本中包含的区域信息来实现局部可控的风格迁移。首先,通过基于BERT的文本语义分类网络对目标风格文本包含的语义区域进行定位,然后利用特征映射网络将目标文本的CLIP特征嵌入到SemanticStyleGAN的潜在空间。文本语义分类网络和特征映射网络的结合使得目标文本的CLIP特征细粒度地嵌入到可编辑的潜在空间。最后通过对生成的风格化图像进行随机透视增强来解决训练中的对抗生成问题。实验表明,该方法能够生成更贴近文本描述风格的图像,并提高了跨模态编辑的区域准确性。
-
关键词
风格迁移
多模态预训练模型
文本语义分类
-
Keywords
style transfer
multi-modal pre-trained model
text semantic classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度学习的图像-文本匹配研究综述
被引量:13
- 5
-
-
作者
刘萌
齐孟津
詹圳宇
曲磊钢
聂秀山
聂礼强
-
机构
山东建筑大学计算机科学与技术学院
山东大学(青岛)计算机科学与技术学院
哈尔滨工业大学(深圳)计算机科学与技术学院
-
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2023年第11期2370-2399,共30页
-
基金
国家自然科学基金项目(No.62006142、No.U1936203)
山东省杰出青年基金项目(No.ZR2021JQ26)
+2 种基金
山东省基金重大基础研究项目(No.ZR2021ZD15)
山东省高等学校青年创新科技创新计划(No.2021KJ036)
山东建筑大学特聘教授专项基金资助。
-
文摘
图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本文将现有方法划分为基于全局特征的图像-文本匹配方法、基于局部特征的图像-文本匹配方法、基于外部知识的图像-文本匹配方法、基于度量学习的图像-文本匹配方法以及多模态预训练模型,对于基于全局特征的图像-文本匹配方法,本文依据流程类型划分为两类:基于嵌入的方法和基于交互的方法;而对于基于局部特征的图像-文本匹配方法,依据其交互模式的不同,则被细分为三类:基于模态内关系建模的方法、基于模态间关系建模的方法以及基于混合交互建模的方法.随后,本文对当前图像-文本匹配任务的相关数据集进行了整理,并对现有方法的实验结果进行分析与总结.最后,对未来研究可能面临的挑战进行了展望.
-
关键词
图像-文本匹配
跨模态图像检索
多模态预训练模型
综述
深度学习
人工智能
-
Keywords
image-text matching
cross-modal image retrieval
multimodal pre-training model
survey
deep learning
artificial intelligence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-