期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于视觉-语言预训练模型的开集交通目标检测算法
1
作者
黄琦强
安国成
熊刚
《计算机工程》
北大核心
2025年第6期375-384,共10页
交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其...
交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其能够适应开集目标的定位问题,并将损失函数改进为交并比(IoU)损失,有效提升定位精度;其次,构建一种新的基于VLP的标签匹配网络(VLP-LMN),对预测框进行标签匹配,VLP模型作为一个强大的知识库,可有效匹配区域图像和标签文本,同时,VLP-LMN的提示工程和微调网络模块可以更好地发掘出VLP模型的性能,有效提高VLP模型标签匹配的准确性。实验结果表明,该算法在PASCAL VOC07+12数据集上实现了60.3%的新类目标检测平均准确率,这证明了其具有良好的开集目标检测性能;同时在交通数据集上的新类目标检测平均准确率达到了58.9%,作为零样本检测,仅比基类目标低14.5%,证明了该算法在交通目标检测上具有良好的泛化能力。
展开更多
关键词
视觉
-
语言
预
训练
模型
Faster
R-CNN
开集目标检测
交通目标检测
在线阅读
下载PDF
职称材料
基于视觉-语言预训练模型的零样本迁移学习方法综述
被引量:
2
2
作者
孙仁科
许靖昊
+2 位作者
皇甫志宇
李仲年
许新征
《计算机工程》
CAS
CSCD
北大核心
2024年第10期1-15,共15页
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模...
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。
展开更多
关键词
零样本学习
视觉
-
语言
预
训练
模型
零样本迁移
多模态
计算机
视觉
在线阅读
下载PDF
职称材料
融合自监督和多层交叉注意力的多模态情感分析网络
被引量:
2
3
作者
薛凯鹏
徐涛
廖春节
《计算机应用》
CSCD
北大核心
2024年第8期2387-2392,共6页
针对多模态情感分析任务中模态内信息不完整、模态间交互能力差和难以训练的问题,将视觉语言预训练(VLP)模型应用于多模态情感分析领域,提出一种融合自监督和多层交叉注意力的多模态情感分析网络(MSSM)。通过自监督学习强化视觉编码器模...
针对多模态情感分析任务中模态内信息不完整、模态间交互能力差和难以训练的问题,将视觉语言预训练(VLP)模型应用于多模态情感分析领域,提出一种融合自监督和多层交叉注意力的多模态情感分析网络(MSSM)。通过自监督学习强化视觉编码器模块,并加入多层交叉注意力以更好地建模文本和视觉特征,使模态内部信息更丰富完整,同时使模态间的信息交互更充分。此外,通过具有感知意识的快速、内存效率高的精确注意力FlashAttention解决Transformer中注意力计算高复杂度的问题。实验结果表明,与目前主流的基于对比文本-图像对的模型(CLIP)相比,MSSM在处理后的MVSA-S数据集上的准确率提高3.6个百分点,在MVSA-M数据集上的准确率提高2.2个百分点,验证所提网络能在降低运算成本的同时有效提高多模态信息融合的完整性。
展开更多
关键词
多模态
情感分析
自监督
注意力机制
视觉语言预训练模型
在线阅读
下载PDF
职称材料
结合图像-文本提示与跨模态适配器的零样本多标签图像分类
4
作者
宋铁成
黄宇
《重庆理工大学学报(自然科学)》
北大核心
2024年第12期182-188,共7页
最近的零样本多标签图像分类方法主要基于视觉语言预训练模型CLIP(contrastive language-image pre-training)。然而,这些工作仅仅在文本提示上进行改进,忽略了图像和文本2种模态之间的交互。针对以上问题,提出一种结合图像-文本提示和...
最近的零样本多标签图像分类方法主要基于视觉语言预训练模型CLIP(contrastive language-image pre-training)。然而,这些工作仅仅在文本提示上进行改进,忽略了图像和文本2种模态之间的交互。针对以上问题,提出一种结合图像-文本提示和跨模态适配器(image-text prompts and cross-modal adapter,ITPCA)的零样本多标签图像分类方法,充分挖掘视觉语言预训练模型的图文匹配能力。通过结合提示学习为图像和文本分支设计提示,提高了模型对不同标签的泛化能力。此外,设计了一个跨模态适配器建立图像和文本2种模态之间的联系。实验结果表明,在NUS-WIDE、MS-COCO多标签数据集上,所提方法优于其他零样本多标签图像分类方法。
展开更多
关键词
视觉语言预训练模型
提示学习
零样本学习
多标签图像分类
在线阅读
下载PDF
职称材料
题名
基于视觉-语言预训练模型的开集交通目标检测算法
1
作者
黄琦强
安国成
熊刚
机构
上海交通大学电子信息与电气工程学院
上海华讯网络系统有限公司行业数智事业部
出处
《计算机工程》
北大核心
2025年第6期375-384,共10页
基金
“十四五”国家重点研发计划(2023YFC3006700)
国家自然科学基金(62071293)。
文摘
交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其能够适应开集目标的定位问题,并将损失函数改进为交并比(IoU)损失,有效提升定位精度;其次,构建一种新的基于VLP的标签匹配网络(VLP-LMN),对预测框进行标签匹配,VLP模型作为一个强大的知识库,可有效匹配区域图像和标签文本,同时,VLP-LMN的提示工程和微调网络模块可以更好地发掘出VLP模型的性能,有效提高VLP模型标签匹配的准确性。实验结果表明,该算法在PASCAL VOC07+12数据集上实现了60.3%的新类目标检测平均准确率,这证明了其具有良好的开集目标检测性能;同时在交通数据集上的新类目标检测平均准确率达到了58.9%,作为零样本检测,仅比基类目标低14.5%,证明了该算法在交通目标检测上具有良好的泛化能力。
关键词
视觉
-
语言
预
训练
模型
Faster
R-CNN
开集目标检测
交通目标检测
Keywords
Visual-Language Pre-trained(VLP)model
Faster R-CNN
open-set object detection
traffic object detection
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于视觉-语言预训练模型的零样本迁移学习方法综述
被引量:
2
2
作者
孙仁科
许靖昊
皇甫志宇
李仲年
许新征
机构
中国矿业大学计算机科学与技术学院
矿山数字化教育部工程研究中心
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第10期1-15,共15页
基金
国家自然科学基金(61976217,62306320)
江苏省自然科学基金(BK20231063)。
文摘
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。
关键词
零样本学习
视觉
-
语言
预
训练
模型
零样本迁移
多模态
计算机
视觉
Keywords
Zero-Shot Learning(ZSL)
vision-language pre-trained model
Zero-Shot Transfer(ZST)
multi-modal
computer vision
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
融合自监督和多层交叉注意力的多模态情感分析网络
被引量:
2
3
作者
薛凯鹏
徐涛
廖春节
机构
西北民族大学中国民族信息技术研究院
语言与文化计算教育部重点实验室(西北民族大学)
出处
《计算机应用》
CSCD
北大核心
2024年第8期2387-2392,共6页
基金
甘肃省高等学校青年博士基金资助项目(2022QB-016)
中央高校基本科研业务费专项(31920230069)
+1 种基金
甘肃省青年科技计划项目(21JR1RA21)
国家档案局科技项目(2021-X-56)。
文摘
针对多模态情感分析任务中模态内信息不完整、模态间交互能力差和难以训练的问题,将视觉语言预训练(VLP)模型应用于多模态情感分析领域,提出一种融合自监督和多层交叉注意力的多模态情感分析网络(MSSM)。通过自监督学习强化视觉编码器模块,并加入多层交叉注意力以更好地建模文本和视觉特征,使模态内部信息更丰富完整,同时使模态间的信息交互更充分。此外,通过具有感知意识的快速、内存效率高的精确注意力FlashAttention解决Transformer中注意力计算高复杂度的问题。实验结果表明,与目前主流的基于对比文本-图像对的模型(CLIP)相比,MSSM在处理后的MVSA-S数据集上的准确率提高3.6个百分点,在MVSA-M数据集上的准确率提高2.2个百分点,验证所提网络能在降低运算成本的同时有效提高多模态信息融合的完整性。
关键词
多模态
情感分析
自监督
注意力机制
视觉语言预训练模型
Keywords
multimodal
sentiment analysis
self-supervision
attention mechanism
Visual-and-Language Pre-training(VLP)model
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
结合图像-文本提示与跨模态适配器的零样本多标签图像分类
4
作者
宋铁成
黄宇
机构
重庆邮电大学通信与信息工程学院
出处
《重庆理工大学学报(自然科学)》
北大核心
2024年第12期182-188,共7页
基金
国家自然科学基金面上项目(62371084)。
文摘
最近的零样本多标签图像分类方法主要基于视觉语言预训练模型CLIP(contrastive language-image pre-training)。然而,这些工作仅仅在文本提示上进行改进,忽略了图像和文本2种模态之间的交互。针对以上问题,提出一种结合图像-文本提示和跨模态适配器(image-text prompts and cross-modal adapter,ITPCA)的零样本多标签图像分类方法,充分挖掘视觉语言预训练模型的图文匹配能力。通过结合提示学习为图像和文本分支设计提示,提高了模型对不同标签的泛化能力。此外,设计了一个跨模态适配器建立图像和文本2种模态之间的联系。实验结果表明,在NUS-WIDE、MS-COCO多标签数据集上,所提方法优于其他零样本多标签图像分类方法。
关键词
视觉语言预训练模型
提示学习
零样本学习
多标签图像分类
Keywords
vision and language pre-training model
prompt learning
zero-shot learning
multi-label image classification
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于视觉-语言预训练模型的开集交通目标检测算法
黄琦强
安国成
熊刚
《计算机工程》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
基于视觉-语言预训练模型的零样本迁移学习方法综述
孙仁科
许靖昊
皇甫志宇
李仲年
许新征
《计算机工程》
CAS
CSCD
北大核心
2024
2
在线阅读
下载PDF
职称材料
3
融合自监督和多层交叉注意力的多模态情感分析网络
薛凯鹏
徐涛
廖春节
《计算机应用》
CSCD
北大核心
2024
2
在线阅读
下载PDF
职称材料
4
结合图像-文本提示与跨模态适配器的零样本多标签图像分类
宋铁成
黄宇
《重庆理工大学学报(自然科学)》
北大核心
2024
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部