检索结果-维普期刊中文期刊服务平台

基于多模态预训练模型的水稻病虫害图像描述生成研究被引量：3: 1; 作者薛悦平胡彦蓉 +2 位作者刘洪久童莉珍葛万钊《南京农业大学学报》 CAS CSCD 北大核心 2024年第4期782-791,共10页; [目的]针对水稻病虫害图像分类技术缺少对病症描述的问题,本文提出一种轻量化的水稻病虫害图像描述模型,对水稻病虫害图像进行更为具体的描述。[方法]以白叶枯病、细菌性条斑病、恶苗病、三化螟虫、稻瘟病、稻曲病、纹枯病、飞虱、稻蓟... 展开更多; 关键词多模态预训练模型水稻病虫害图像描述生成诊断; 在线阅读下载PDF 职称材料

面向多模态预训练的子图匹配式对比学习方法研究: 2; 作者陈公冠刘慧 +2 位作者李恒泰郭强张彩明《计算机学报》北大核心 2025年第4期893-909,共17页; 通过图像文本对的联合学习,多模态预训练大模型在各种视觉任务中展现出巨大的潜力,比如在高质量数据集匮乏的医学领域。然而,现有的模态匹配式预训练方法通常使用全局匹配的方式,易受到低质量信息的干扰。尽管少量研究开始关注局部匹配... 展开更多; 关键词多模态预训练大模型局部匹配子图匹配无关联错误聚类; 在线阅读下载PDF 职称材料

基于细粒度图文对齐的多模态事件抽取方法: 3; 作者曹健威孙英杰 +2 位作者李凌寒曾维新胡艳丽《火力与指挥控制》北大核心 2025年第4期135-140,149,共7页; 多模态事件抽取旨在从图文数据中抽取结构化的多模态事件信息,其核心在于克服不同模态数据之间的差异,并建立跨模态的关联。提出一种基于细粒度图文对齐的多模态事件抽取方法,由单模态信息抽取和多模态信息融合两个阶段组成。利用文本... 展开更多; 关键词多模态事件抽取图文对齐多模态预训练模型信息抽取事件抽取; 在线阅读下载PDF 职称材料

细粒度文本引导的跨模态风格迁移: 4; 作者孙世昶魏爽 +3 位作者孟佳娜林鸿飞肖文浩刘爽《中文信息学报》 CSCD 北大核心 2024年第12期170-180,共11页; 借助于StyleGANs的解纠缠表示和多模态预训练模型中不同模态之间的语义对应关系,现有方法在跨模态风格迁移领域取得了较好的结果。然而,基于图像尺度分解的StyleGANs的潜在空间不利于局部属性的编辑,这会造成在迁移时对无关部分的干扰... 展开更多; 关键词风格迁移多模态预训练模型文本语义分类; 在线阅读下载PDF 职称材料

基于深度学习的图像-文本匹配研究综述被引量：13: 5; 作者刘萌齐孟津 +3 位作者詹圳宇曲磊钢聂秀山聂礼强《计算机学报》 EI CAS CSCD 北大核心 2023年第11期2370-2399,共30页; 图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本... 展开更多; 关键词图像-文本匹配跨模态图像检索多模态预训练模型综述深度学习人工智能; 在线阅读下载PDF 职称材料

题名基于多模态预训练模型的水稻病虫害图像描述生成研究被引量：3: 1; 作者薛悦平胡彦蓉刘洪久童莉珍葛万钊; 机构浙江农林大学数学与计算机科学学院/浙江省林业智能监测与信息技术研究重点实验室/林业感知技术与智能装备国家林业和草原局重点实验室; 出处《南京农业大学学报》 CAS CSCD 北大核心 2024年第4期782-791,共10页; 基金教育部人文社会科学研究规划基金项目(18YJA630037,21YJA630054) 浙江省自然科学基金资助项目(LY18G010005)。; 文摘 [目的]针对水稻病虫害图像分类技术缺少对病症描述的问题,本文提出一种轻量化的水稻病虫害图像描述模型,对水稻病虫害图像进行更为具体的描述。[方法]以白叶枯病、细菌性条斑病、恶苗病、三化螟虫、稻瘟病、稻曲病、纹枯病、飞虱、稻蓟马、胡麻斑病这十类常见的水稻病虫害开展研究,构建了水稻病虫害图像中文描述数据集。首先采用多模态预训练模型CLIP生成图像向量,其中包含基本的图像信息以及丰富的语义信息,采用映射网络将图像向量映射到文本空间里生成文本提示向量,语言模型GPT-2根据文本提示向量生成图像描述。[结果]在水稻病虫害图像描述数据集上,本文模型的指标总体明显优于其他模型,本文算法的BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE、METEOR指标较传统的CNN_LSTM模型分别提升0.26、0.27、0.24、0.22、0.22、0.14。生成的图像描述具有准确、详细、语义丰富等优点。另外使用实际稻田图片对模型进行测试,实际田间的场景更为复杂多样,生成的图像描述指标与数据集指标对比总体仅有轻微下降,仍高于其他对比模型。本文模型对水稻病虫害的总体识别准确率达97.28%。[结论]基于多模态预训练模型的水稻病虫害图像描述方法能够准确识别水稻病虫害病症并形成相应的病症描述,为水稻病虫害检测提供一种新思路。; 关键词多模态预训练模型水稻病虫害图像描述生成诊断; Keywords multimodal pre-training model rice diseases and pests image description generation diagnosis; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名面向多模态预训练的子图匹配式对比学习方法研究: 2; 作者陈公冠刘慧李恒泰郭强张彩明; 机构山东财经大学计算机与人工智能学院山东省数字经济轻量智算与可视化重点实验室山东大学软件学院; 出处《计算机学报》北大核心 2025年第4期893-909,共17页; 基金国家自然科学基金(62072274,U22A2033) 中央引导地方科技发展项目(YDZX2022009) +1 种基金济南市人才发展专项资金(202333037)资助。; 文摘通过图像文本对的联合学习,多模态预训练大模型在各种视觉任务中展现出巨大的潜力,比如在高质量数据集匮乏的医学领域。然而,现有的模态匹配式预训练方法通常使用全局匹配的方式,易受到低质量信息的干扰。尽管少量研究开始关注局部匹配,但这些方法仅仅通过简单的池化操作来缩小匹配范围,忽略了跨模态重要对象之间的内在关系以及跨样本对之间同语义表征的获取。鉴于此,本文在多模态大模型的预训练过程中,提出了一种基于图神经网络的消息传递机制,对多模态数据特征进行节点化和子图化,从而将跨模态的匹配方式由全局匹配转变为子图匹配,减少低质量信息的干扰。同时,利用交叉注意力在单一模态内进行子图级别的差异化处理,使其在跨模态学习中建立更细致的关联和语义理解。此外,提出高维空间的样本对聚类方法,以减少多模态大模型对相同语义的无关联错误表达。在涵盖图像分类、病灶区域目标检测和语义分割任务的七个医学图像数据集上进行了大量实验,验证了本文所提出模型的可行性和优越性能。同时在表情识别任务中进行实验,验证了本文模型的泛化性能。; 关键词多模态预训练大模型局部匹配子图匹配无关联错误聚类; Keywords multi-modal pretrained large-scale models local matching subgraph matching unrelated errors clustering; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于细粒度图文对齐的多模态事件抽取方法: 3; 作者曹健威孙英杰李凌寒曾维新胡艳丽; 机构国防科技大学信息系统工程全国重点实验室国防科技大学大数据与决策实验室; 出处《火力与指挥控制》北大核心 2025年第4期135-140,149,共7页; 基金国家自然科学基金资助项目(72471237),(72371245)。; 文摘多模态事件抽取旨在从图文数据中抽取结构化的多模态事件信息,其核心在于克服不同模态数据之间的差异,并建立跨模态的关联。提出一种基于细粒度图文对齐的多模态事件抽取方法,由单模态信息抽取和多模态信息融合两个阶段组成。利用文本事件抽取和视觉实体抽取模型获取细粒度的单模态事件信息;基于多模态预训练模型进行细粒度图文对齐,得到多模态事件信息。在多模态事件抽取数据集上进行实验,验证了方法的有效性。; 关键词多模态事件抽取图文对齐多模态预训练模型信息抽取事件抽取; Keywords multimodal event extraction image-text alignment multimodal pre-trained model information extraction event extraction; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名细粒度文本引导的跨模态风格迁移: 4; 作者孙世昶魏爽孟佳娜林鸿飞肖文浩刘爽; 机构大连民族大学计算机科学与工程学院大连理工大学计算机科学与技术学院; 出处《中文信息学报》 CSCD 北大核心 2024年第12期170-180,共11页; 基金国家自然科学基金(61876031,62076046)。; 文摘借助于StyleGANs的解纠缠表示和多模态预训练模型中不同模态之间的语义对应关系,现有方法在跨模态风格迁移领域取得了较好的结果。然而,基于图像尺度分解的StyleGANs的潜在空间不利于局部属性的编辑,这会造成在迁移时对无关部分的干扰。该文提出细粒度文本引导的跨模态风格迁移模型,通过利用文本中包含的区域信息来实现局部可控的风格迁移。首先,通过基于BERT的文本语义分类网络对目标风格文本包含的语义区域进行定位,然后利用特征映射网络将目标文本的CLIP特征嵌入到SemanticStyleGAN的潜在空间。文本语义分类网络和特征映射网络的结合使得目标文本的CLIP特征细粒度地嵌入到可编辑的潜在空间。最后通过对生成的风格化图像进行随机透视增强来解决训练中的对抗生成问题。实验表明,该方法能够生成更贴近文本描述风格的图像,并提高了跨模态编辑的区域准确性。; 关键词风格迁移多模态预训练模型文本语义分类; Keywords style transfer multi-modal pre-trained model text semantic classification; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于深度学习的图像-文本匹配研究综述被引量：13: 5; 作者刘萌齐孟津詹圳宇曲磊钢聂秀山聂礼强; 机构山东建筑大学计算机科学与技术学院山东大学(青岛)计算机科学与技术学院哈尔滨工业大学(深圳)计算机科学与技术学院; 出处《计算机学报》 EI CAS CSCD 北大核心 2023年第11期2370-2399,共30页; 基金国家自然科学基金项目(No.62006142、No.U1936203) 山东省杰出青年基金项目(No.ZR2021JQ26) +2 种基金山东建筑大学特聘教授专项基金资助。; 文摘图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本文将现有方法划分为基于全局特征的图像-文本匹配方法、基于局部特征的图像-文本匹配方法、基于外部知识的图像-文本匹配方法、基于度量学习的图像-文本匹配方法以及多模态预训练模型,对于基于全局特征的图像-文本匹配方法,本文依据流程类型划分为两类:基于嵌入的方法和基于交互的方法;而对于基于局部特征的图像-文本匹配方法,依据其交互模式的不同,则被细分为三类:基于模态内关系建模的方法、基于模态间关系建模的方法以及基于混合交互建模的方法.随后,本文对当前图像-文本匹配任务的相关数据集进行了整理,并对现有方法的实验结果进行分析与总结.最后,对未来研究可能面临的挑战进行了展望.; 关键词图像-文本匹配跨模态图像检索多模态预训练模型综述深度学习人工智能; Keywords image-text matching cross-modal image retrieval multimodal pre-training model survey deep learning artificial intelligence; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于多模态预训练模型的水稻病虫害图像描述生成研究	薛悦平胡彦蓉刘洪久童莉珍葛万钊	《南京农业大学学报》 CAS CSCD 北大核心	2024	3	在线阅读下载PDF 职称材料
2	面向多模态预训练的子图匹配式对比学习方法研究	陈公冠刘慧李恒泰郭强张彩明	《计算机学报》北大核心	2025	0	在线阅读下载PDF 职称材料
3	基于细粒度图文对齐的多模态事件抽取方法	曹健威孙英杰李凌寒曾维新胡艳丽	《火力与指挥控制》北大核心	2025	0	在线阅读下载PDF 职称材料
4	细粒度文本引导的跨模态风格迁移	孙世昶魏爽孟佳娜林鸿飞肖文浩刘爽	《中文信息学报》 CSCD 北大核心	2024	0	在线阅读下载PDF 职称材料
5	基于深度学习的图像-文本匹配研究综述	刘萌齐孟津詹圳宇曲磊钢聂秀山聂礼强	《计算机学报》 EI CAS CSCD 北大核心	2023	13	在线阅读下载PDF 职称材料