检索结果-维普期刊中文期刊服务平台

基于视觉-语言预训练模型的开集交通目标检测算法: 1; 作者黄琦强安国成熊刚《计算机工程》北大核心 2025年第6期375-384,共10页; 交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其... 展开更多; 关键词视觉-语言预训练模型 Faster R-CNN 开集目标检测交通目标检测; 在线阅读下载PDF 职称材料

基于视觉-语言预训练模型的零样本迁移学习方法综述被引量：2: 2; 作者孙仁科许靖昊 +2 位作者皇甫志宇李仲年许新征《计算机工程》 CAS CSCD 北大核心 2024年第10期1-15,共15页; 近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模... 展开更多; 关键词零样本学习视觉-语言预训练模型零样本迁移多模态计算机视觉; 在线阅读下载PDF 职称材料

融合自监督和多层交叉注意力的多模态情感分析网络被引量：2: 3; 作者薛凯鹏徐涛廖春节《计算机应用》 CSCD 北大核心 2024年第8期2387-2392,共6页; 针对多模态情感分析任务中模态内信息不完整、模态间交互能力差和难以训练的问题,将视觉语言预训练(VLP)模型应用于多模态情感分析领域,提出一种融合自监督和多层交叉注意力的多模态情感分析网络(MSSM)。通过自监督学习强化视觉编码器模... 展开更多; 关键词多模态情感分析自监督注意力机制视觉语言预训练模型; 在线阅读下载PDF 职称材料

结合图像-文本提示与跨模态适配器的零样本多标签图像分类: 4; 作者宋铁成黄宇《重庆理工大学学报(自然科学)》北大核心 2024年第12期182-188,共7页; 最近的零样本多标签图像分类方法主要基于视觉语言预训练模型CLIP(contrastive language-image pre-training)。然而,这些工作仅仅在文本提示上进行改进,忽略了图像和文本2种模态之间的交互。针对以上问题,提出一种结合图像-文本提示和... 展开更多; 关键词视觉语言预训练模型提示学习零样本学习多标签图像分类; 在线阅读下载PDF 职称材料

题名基于视觉-语言预训练模型的开集交通目标检测算法: 1; 作者黄琦强安国成熊刚; 机构上海交通大学电子信息与电气工程学院上海华讯网络系统有限公司行业数智事业部; 出处《计算机工程》北大核心 2025年第6期375-384,共10页; 基金 “十四五”国家重点研发计划(2023YFC3006700) 国家自然科学基金(62071293)。; 文摘交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其能够适应开集目标的定位问题,并将损失函数改进为交并比(IoU)损失,有效提升定位精度;其次,构建一种新的基于VLP的标签匹配网络(VLP-LMN),对预测框进行标签匹配,VLP模型作为一个强大的知识库,可有效匹配区域图像和标签文本,同时,VLP-LMN的提示工程和微调网络模块可以更好地发掘出VLP模型的性能,有效提高VLP模型标签匹配的准确性。实验结果表明,该算法在PASCAL VOC07+12数据集上实现了60.3%的新类目标检测平均准确率,这证明了其具有良好的开集目标检测性能;同时在交通数据集上的新类目标检测平均准确率达到了58.9%,作为零样本检测,仅比基类目标低14.5%,证明了该算法在交通目标检测上具有良好的泛化能力。; 关键词视觉-语言预训练模型 Faster R-CNN 开集目标检测交通目标检测; Keywords Visual-Language Pre-trained(VLP)model Faster R-CNN open-set object detection traffic object detection; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于视觉-语言预训练模型的零样本迁移学习方法综述被引量：2: 2; 作者孙仁科许靖昊皇甫志宇李仲年许新征; 机构中国矿业大学计算机科学与技术学院矿山数字化教育部工程研究中心; 出处《计算机工程》 CAS CSCD 北大核心 2024年第10期1-15,共15页; 基金国家自然科学基金(61976217,62306320) 江苏省自然科学基金(BK20231063)。; 文摘近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。; 关键词零样本学习视觉-语言预训练模型零样本迁移多模态计算机视觉; Keywords Zero-Shot Learning(ZSL) vision-language pre-trained model Zero-Shot Transfer(ZST) multi-modal computer vision; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名融合自监督和多层交叉注意力的多模态情感分析网络被引量：2: 3; 作者薛凯鹏徐涛廖春节; 机构西北民族大学中国民族信息技术研究院语言与文化计算教育部重点实验室(西北民族大学); 出处《计算机应用》 CSCD 北大核心 2024年第8期2387-2392,共6页; 基金甘肃省高等学校青年博士基金资助项目(2022QB-016) 中央高校基本科研业务费专项(31920230069) +1 种基金国家档案局科技项目(2021-X-56)。; 文摘针对多模态情感分析任务中模态内信息不完整、模态间交互能力差和难以训练的问题,将视觉语言预训练(VLP)模型应用于多模态情感分析领域,提出一种融合自监督和多层交叉注意力的多模态情感分析网络(MSSM)。通过自监督学习强化视觉编码器模块,并加入多层交叉注意力以更好地建模文本和视觉特征,使模态内部信息更丰富完整,同时使模态间的信息交互更充分。此外,通过具有感知意识的快速、内存效率高的精确注意力FlashAttention解决Transformer中注意力计算高复杂度的问题。实验结果表明,与目前主流的基于对比文本-图像对的模型(CLIP)相比,MSSM在处理后的MVSA-S数据集上的准确率提高3.6个百分点,在MVSA-M数据集上的准确率提高2.2个百分点,验证所提网络能在降低运算成本的同时有效提高多模态信息融合的完整性。; 关键词多模态情感分析自监督注意力机制视觉语言预训练模型; Keywords multimodal sentiment analysis self-supervision attention mechanism Visual-and-Language Pre-training(VLP)model; 分类号 TP391.41 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名结合图像-文本提示与跨模态适配器的零样本多标签图像分类: 4; 作者宋铁成黄宇; 机构重庆邮电大学通信与信息工程学院; 出处《重庆理工大学学报(自然科学)》北大核心 2024年第12期182-188,共7页; 基金国家自然科学基金面上项目(62371084)。; 文摘最近的零样本多标签图像分类方法主要基于视觉语言预训练模型CLIP(contrastive language-image pre-training)。然而,这些工作仅仅在文本提示上进行改进,忽略了图像和文本2种模态之间的交互。针对以上问题,提出一种结合图像-文本提示和跨模态适配器(image-text prompts and cross-modal adapter,ITPCA)的零样本多标签图像分类方法,充分挖掘视觉语言预训练模型的图文匹配能力。通过结合提示学习为图像和文本分支设计提示,提高了模型对不同标签的泛化能力。此外,设计了一个跨模态适配器建立图像和文本2种模态之间的联系。实验结果表明,在NUS-WIDE、MS-COCO多标签数据集上,所提方法优于其他零样本多标签图像分类方法。; 关键词视觉语言预训练模型提示学习零样本学习多标签图像分类; Keywords vision and language pre-training model prompt learning zero-shot learning multi-label image classification; 分类号 TP391.41 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于视觉-语言预训练模型的开集交通目标检测算法	黄琦强安国成熊刚	《计算机工程》北大核心	2025	0	在线阅读下载PDF 职称材料
2	基于视觉-语言预训练模型的零样本迁移学习方法综述	孙仁科许靖昊皇甫志宇李仲年许新征	《计算机工程》 CAS CSCD 北大核心	2024	2	在线阅读下载PDF 职称材料
3	融合自监督和多层交叉注意力的多模态情感分析网络	薛凯鹏徐涛廖春节	《计算机应用》 CSCD 北大核心	2024	2	在线阅读下载PDF 职称材料
4	结合图像-文本提示与跨模态适配器的零样本多标签图像分类	宋铁成黄宇	《重庆理工大学学报(自然科学)》北大核心	2024	0	在线阅读下载PDF 职称材料