期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
基于改进的Vision Transformer深度哈希图像检索
1
作者 杨梦雅 赵琰 薛亮 《陕西科技大学学报》 北大核心 2025年第4期183-191,共9页
针对基于卷积神经网络的深度哈希方法不能很好捕捉全局图像信息和数据集中难易样本、正负样本对不平衡的问题,提出一种基于改进的Vision Transformer深度哈希算法(CMTH).首先,在Transformer编码网络前利用卷积神经网络提取深度局部特征... 针对基于卷积神经网络的深度哈希方法不能很好捕捉全局图像信息和数据集中难易样本、正负样本对不平衡的问题,提出一种基于改进的Vision Transformer深度哈希算法(CMTH).首先,在Transformer编码网络前利用卷积神经网络提取深度局部特征,降低维度并保持较高的图像分辨率.其次,改进的Vision Transformer网络使用轻量级多头互注意模块,提取高维深度全局特征的同时降低计算复杂度.最后,提出新的损失框架,设计标准焦点损失调整难样本在数据集中的权重,并构建一种新的哈希损失,以减少难易样本不平衡和正负样本对不平衡的影响.在CIFAR-10和NUS-WIDE上与基于Vision Transformer的深度哈希次优算法相比,在四种不同比特下均值平均精度分别平均提高了2.35%和3.75%. 展开更多
关键词 深度哈希 卷积神经网络 视觉注意力 图像检索
在线阅读 下载PDF
基于改进Vision Transformer网络的农作物病害识别方法 被引量:7
2
作者 王杨 李迎春 +6 位作者 许佳炜 王傲 马唱 宋世佳 谢帆 赵传信 胡明 《小型微型计算机系统》 CSCD 北大核心 2024年第4期887-893,共7页
基于DCNN模型的农作物病害识别方法在实验室环境下识别准确率高,但面对噪声时缺少鲁棒性.为了兼顾农作物病害识别的精度和鲁棒性,本文在标准ViT模型基础上加入增强分块序列化和掩码多头注意力,解决标准ViT模型缺乏局部归纳偏置和视觉特... 基于DCNN模型的农作物病害识别方法在实验室环境下识别准确率高,但面对噪声时缺少鲁棒性.为了兼顾农作物病害识别的精度和鲁棒性,本文在标准ViT模型基础上加入增强分块序列化和掩码多头注意力,解决标准ViT模型缺乏局部归纳偏置和视觉特征序列的自注意力过于关注自身的问题.实验结果表明,本文的EPEMMSA-ViT模型对比标准ViT模型可以更高效的从零学习;当添加预训练权重训练网络时,EPEMMSA-ViT模型在数据增强的PlantVillage番茄子集上能够得到99.63%的分类准确率;在添加椒盐噪声的测试数据集上,对比ResNet50、DenseNet121、MobileNet和ConvNeXt的分类准确率分别提升了6.08%、9.78%、29.78%和12.41%;在添加均值模糊的测试数据集上,对比ResNet50、DenseNet121、MobileNet和ConvNeXt的分类准确率分别提升了18.92%、31.11%、20.37%和19.58%. 展开更多
关键词 农作物病害识别 深度卷积神经网络 视觉transformer 自注意力 局部归纳偏置
在线阅读 下载PDF
一种交互连接CNN和Transformer的肠道息肉图像分类网络
3
作者 曹博 叶淑芳 +3 位作者 饶钰君 汤晓恒 何熊熊 李胜 《小型微型计算机系统》 北大核心 2025年第4期932-939,共8页
利用内镜图像对结直肠息肉进行风险分类至关重要,能够提高临床诊断准确性并降低结直肠癌死亡率.然而,目前基于卷积神经网络(CNN)或视觉Transformer(ViT)的分类方法不能很好地区分类内尺度大和类间相似性高的息肉图像,针对息肉风险的分... 利用内镜图像对结直肠息肉进行风险分类至关重要,能够提高临床诊断准确性并降低结直肠癌死亡率.然而,目前基于卷积神经网络(CNN)或视觉Transformer(ViT)的分类方法不能很好地区分类内尺度大和类间相似性高的息肉图像,针对息肉风险的分类任务亟需改善.CNN中的卷积算子擅长提取局部特征.ViT通过级联自注意力模块可以捕获长距离依赖关系和全局特征.本文提出一个交互连接模块,以交互式的方式将CNN和ViT相连接,以整合多尺度特征;所设计的交互混合模型,能最大限度地保留局部特征和全局表示,显著缓解息肉多分类的类内差异性大、类间相似性高的问题;在大规模自然图像数据集中进行预训练;通过微调模型结构,使用预训练的交互混合模型参数初始化主干网络,并迁移至结直肠息肉数据集中再次训练,实现息肉多分类.在结直肠息肉私有数据集和Kvasir公共数据集上评估所提出模型,实验结果显示总体分类准确率分别达到了85.83%和96.84%,优于本文比较的其他算法;且引入迁移学习可以在降低训练成本的同时提升交互混合模型的分类性能和泛化性,在有限的训练数据集下有助于提高临床诊断效率. 展开更多
关键词 卷积神经网络(CNN) 视觉transformer(ViT) 结直肠息肉分类 多尺度特征 迁移学习
在线阅读 下载PDF
卷积神经网络与视觉Transformer联合驱动的跨层多尺度融合网络高光谱图像分类方法 被引量:8
4
作者 赵凤 耿苗苗 +2 位作者 刘汉强 张俊杰 於俊 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第5期2237-2248,共12页
高光谱图像(HSI)分类是地球科学和遥感影像处理任务中最受关注的研究热点之一。近年来,卷积神经网络(CNN)和视觉Transformer相结合的方法,通过综合考虑局部-全局信息,在HSI分类任务中取得了成功。然而,HSI中地物具有丰富的纹理信息和复... 高光谱图像(HSI)分类是地球科学和遥感影像处理任务中最受关注的研究热点之一。近年来,卷积神经网络(CNN)和视觉Transformer相结合的方法,通过综合考虑局部-全局信息,在HSI分类任务中取得了成功。然而,HSI中地物具有丰富的纹理信息和复杂多样的结构,且不同地物之间存在尺度差异。现有的二者结合的方法通常对多尺度地物目标的纹理和结构信息的提取能力有限。为了克服上述局限性,该文提出CNN与视觉Transformer联合驱动的跨层多尺度融合网络HSI分类方法。首先,从结合CNN与视觉Transformer的角度出发,设计了跨层多尺度局部-全局特征提取模块分支,其主要由卷积嵌入的视觉Transformer和跨层特征融合模块构成。具体来说,卷积嵌入的视觉Transformer通过深度融合多尺度CNN与视觉Transformer实现了多尺度局部-全局特征信息的有效提取,从而增强网络对不同尺度地物的关注。进一步地,跨层特征融合模块深度聚合了不同层次的多尺度局部-全局特征信息,以综合考虑地物的浅层纹理信息和深层结构信息。其次,构建了分组多尺度卷积模块分支来挖掘HSI中密集光谱波段潜在的多尺度特征。最后,为了增强网络对HSI中局部波段细节和整体光谱信息的挖掘,设计了残差分组卷积模块对局部-全局光谱特征进行提取。Indian Pines, Houston 2013和Salinas Valley 3个HSI数据集上的实验结果证实了所提方法的有效性。 展开更多
关键词 高光谱图像分类 卷积神经网络 视觉transformer 多尺度特征 融合网络
在线阅读 下载PDF
基于FPGA的卷积神经网络和视觉Transformer通用加速器 被引量:1
5
作者 李天阳 张帆 +2 位作者 王松 曹伟 陈立 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2663-2672,共10页
针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面... 针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面向FPGA的通用计算映射方法;其次,提出一种非线性与归一化加速单元,为计算机视觉神经网络模型中的多种非线性和归一化操作提供加速支持;然后,在Xilinx XCVU37P FPGA上实现了加速器设计。实验结果表明,所提出的非线性与归一化加速单元在提高吞吐量的同时仅造成很小的精度损失,ResNet-50和ViT-B/16在所提FPGA加速器上的性能分别达到了589.94 GOPS和564.76 GOPS。与GPU实现相比,能效比分别提高了5.19倍和7.17倍;与其他基于FPGA的大规模加速器设计相比,能效比有明显提高,同时计算效率较对比FPGA加速器提高了8.02%~177.53%。 展开更多
关键词 计算机视觉 卷积神经网络 transformer FPGA 硬件加速器
在线阅读 下载PDF
基于混合差分卷积和高效视觉Transformer网络的三重多模态图像融合算法 被引量:1
6
作者 司坤宇 牛春晖 《红外与激光工程》 EI CSCD 北大核心 2024年第11期322-336,共15页
提出了一种创新的三重多模态红外和可见图像融合算法,以解决传统卷积运算在全局特征捕捉和长程相关性分析方面的不足。该算法的核心创新包括:首先,在输入端引入差分图像,通过像素值相减突出图像间差异,构建三重输入网络架构,增强图像特... 提出了一种创新的三重多模态红外和可见图像融合算法,以解决传统卷积运算在全局特征捕捉和长程相关性分析方面的不足。该算法的核心创新包括:首先,在输入端引入差分图像,通过像素值相减突出图像间差异,构建三重输入网络架构,增强图像特征的区分度。其次,设计了混合差分卷积(Mixed difference convolution,MDconv),一种传统卷积的变体,结合边缘检测算子,利用像素差分原理,提升卷积运算的特征学习能力;进一步地,采用双分支编码器结构,结合密集混合差分卷积的卷积神经网络分支和高效视觉Transformer(Efficient Vision Trasnsformer,EfficientViT)分支,分别提取图像的局部细节和全局背景,实现对局部与全局特征的全面捕捉;最后,采用多维坐标协同注意力融合策略,在融合层有效整合编码器输出的多模态图像特征。在公开数据集上的定性和定量实验表明,采用文中算法进行红外和可见融合后图像具有背景纹理细节清晰、热辐射目标更显著等明显优势,并在四项客观评价指标MI、VIF、SD、QAB/F分别达到最优值,在SF指标上取得次优值。消融实验也证明了文中所提各个模块的有效性。 展开更多
关键词 差分卷积 高效视觉transformer 注意力机制 图像融合 红外与可见光图像
在线阅读 下载PDF
3D-CNN与Transformer混合结构的高光谱图像空谱联合分类
7
作者 景海钊 陶丽杰 张号逵 《光学精密工程》 CSCD 北大核心 2024年第23期3504-3512,共9页
针对高光谱图像(Hyperspectral Images,HSI)地面覆盖类的像素级分类问题,提出一种3D-ConvFormer的混合结构模型,该模型通过在浅层使用三维卷积(3D-CNN)操作提取高光谱图像的局部空间光谱特征,在深层利用自注意力(Slef-attention)机制在... 针对高光谱图像(Hyperspectral Images,HSI)地面覆盖类的像素级分类问题,提出一种3D-ConvFormer的混合结构模型,该模型通过在浅层使用三维卷积(3D-CNN)操作提取高光谱图像的局部空间光谱特征,在深层利用自注意力(Slef-attention)机制在卷积窗口内提取空间光谱特征,实现了卷积网络的平移不变性与self-attention对特征的灵活提取能力的有效融合。在Indian Pines,PaviaU和WHU Hi Longkou 3组公开的高光谱图像数据集上进行实验,采用总体分类精度(OA)、平均分类精度(AA)和Kappa系数3个指标,对地物类别的像素级分类结果进行量化评估。实验结果表明,模型在Indian Pines数据集上OA为98.41%,AA为97.56%,Kappa为98.16%;在PaviaU数据集上OA为99.39%,AA为99.30%,Kappa为99.18%;在WHU-Hi-Longkou数据集上OA为98.53%,AA为98.97%,Kappa为98.06%。模型在3组高光谱图像分类任务中展示出的性能均优于对比的模型方法,取得了良好的分类性能,有效提升高光谱图像的分类精度。 展开更多
关键词 计算机视觉 高光谱图像 卷积神经网络 视频转换 自注意力机制
在线阅读 下载PDF
基于IFS-LCT-ViT的时间序列分类方法 被引量:1
8
作者 杨思栋 王珂 +1 位作者 刘兵 苏冰 《南京师大学报(自然科学版)》 北大核心 2025年第2期91-101,共11页
目前针对时间序列分类问题,大多采用一维视角进行分析.二维视角下的时间序列具有更高量级的数据,但相关的研究较少且基本为格拉姆角场法(Gramian Angular Field,GAF)和卷积神经网络模型的组合.文中将对图像视角下的时间序列分类进行深... 目前针对时间序列分类问题,大多采用一维视角进行分析.二维视角下的时间序列具有更高量级的数据,但相关的研究较少且基本为格拉姆角场法(Gramian Angular Field,GAF)和卷积神经网络模型的组合.文中将对图像视角下的时间序列分类进行深入研究,对目前方法存在的相关问题进行优化.首先解决GAF算法的计算冗余问题,提出不平衡因子法(imbalance factor subtraction,IFS),以基础运算替换GAF的三角运算,在不损失分类精度的情况下,减少了图像生成过程的运算.其次针对卷积类模型存在局部偏好的问题,文中将图像识别的任务交给视觉全自注意力网络(Vision Transformer,ViT),通过对时序转换图分割,再对分割后的子块以全局并行计算的方式分配注意力权重,得到图像的整体特征.最后,提出适配ViT模型的轻量卷积令牌(lightweight convolutional token,LCT),通过一维卷积提取原始序列的局部特征,来弥补ViT模型对图像简单硬分割所带来的信息损失.结合以上所有提出了IFS-LCT-ViT模型,为了验证模型的有效性,在UCR官网中的11个数据集上进行了实验.结果表明,该模型与GRU-FCN、TST、GAF-CNN、XCM、OSCNN、MultiRocket相比,在6个数据集上获得了85.9%、80.2%、68.2%、63.0、85.3%和84.0%的最高准确率,证明了该模型在时间序列分类任务上的有效性. 展开更多
关键词 时间序列分类 图像视角 不平衡因子 视觉自注意力网络 轻量卷积令牌
在线阅读 下载PDF
MHVTs:多尺度混合视觉自注意力模型
9
作者 高丽丽 应文豪 +2 位作者 钟珊 胡文军 吴晓宇 《计算机工程与设计》 北大核心 2025年第5期1395-1402,共8页
为提高ViT模型在小型数据集上从零开始训练的性能,提出一种多尺度混合ViT模型(MHVT),由多尺度扩张局部聚集模块(MDLA)和多尺度先下采样再上采样模块(MPUA)组成。MDLA利用不同膨胀率的深度可分卷积在不同通道上提取不同尺度的局部特征。M... 为提高ViT模型在小型数据集上从零开始训练的性能,提出一种多尺度混合ViT模型(MHVT),由多尺度扩张局部聚集模块(MDLA)和多尺度先下采样再上采样模块(MPUA)组成。MDLA利用不同膨胀率的深度可分卷积在不同通道上提取不同尺度的局部特征。MPUA在自注意力计算前,在不同的通道上对查询、键和值进行不同粒度的池化处理,保持计算效率的同时捕获多尺度的全局特征。在各种小尺寸数据集上的大量实验验证了MHVT在精度和速度方面均获得了更好的权衡。 展开更多
关键词 视觉自注意力模型 局部相关性 多尺度特征交互 卷积神经网络 小型数据集 自注意力模型 卷积神经网络
在线阅读 下载PDF
基于弱监督的改进Transformer在人群定位中的应用 被引量:3
10
作者 高辉 邓淼磊 +2 位作者 赵文君 陈法权 张德贤 《计算机工程与应用》 CSCD 北大核心 2023年第19期92-98,共7页
针对现有人群定位方法采用伪边界框或预先设计的定位图,需要复杂的预处理和后处理来获得头部位置的问题,提出一种基于弱监督的端到端人群定位网络LocalFormer。在特征提取阶段,将纯Transformer作为骨干网络,并对每个阶段的特征执行全局... 针对现有人群定位方法采用伪边界框或预先设计的定位图,需要复杂的预处理和后处理来获得头部位置的问题,提出一种基于弱监督的端到端人群定位网络LocalFormer。在特征提取阶段,将纯Transformer作为骨干网络,并对每个阶段的特征执行全局最大池化操作,提取更加丰富的人头细节信息。在编码器-解码器阶段,将聚合特征嵌入位置信息作为编码器的输入,且每个解码器层采用一组可训练嵌入作为查询,并将编码器最后一层的视觉特征作为键和值,解码后的特征用于预测置信度得分。通过二值化模块自适应优化阈值学习器,从而精确地二值化置信度图。在不同数据环境下对三个数据集进行实验,结果表明该方法实现了最佳定位性能。 展开更多
关键词 人群定位 弱监督 卷积神经网络 全局最大池化 视觉transformer
在线阅读 下载PDF
Transformer在计算机视觉领域的研究综述 被引量:25
11
作者 李翔 张涛 +2 位作者 张哲 魏宏杨 钱育蓉 《计算机工程与应用》 CSCD 北大核心 2023年第1期1-14,共14页
Transformer是一种基于自注意力机制的深度神经网络。近几年,基于Transformer的模型已成为计算机视觉领域的热门研究方向,其结构也在不断改进和扩展,比如局部注意力机制、金字塔结构等。通过对基于Transformer结构改进的视觉模型,分别... Transformer是一种基于自注意力机制的深度神经网络。近几年,基于Transformer的模型已成为计算机视觉领域的热门研究方向,其结构也在不断改进和扩展,比如局部注意力机制、金字塔结构等。通过对基于Transformer结构改进的视觉模型,分别从性能优化和结构改进两个方面进行综述和总结;也对比分析了Transformer和CNN各自结构的优缺点,并介绍了一种新型的CNN+Transformer的混合结构;最后,对Transformer在计算机视觉上的发展进行总结和展望。 展开更多
关键词 transformer 卷积神经网络(CNN) 混合结构 计算机视觉 深度学习
在线阅读 下载PDF
基于深度卷积-Tokens降维优化视觉Transformer的分心驾驶行为实时检测 被引量:6
12
作者 赵霞 李朝 +2 位作者 付锐 葛振振 王畅 《汽车工程》 EI CSCD 北大核心 2023年第6期974-988,1009,共16页
针对基于端到端深度卷积神经网络的驾驶行为检测模型缺乏全局特征提取能力以及视觉Transformer(vision transformer,ViT)模型不擅长捕捉底层特征和模型参数量较大的问题,本文提出一种基于深度卷积和Tokens降维的ViT模型用于驾驶人分心... 针对基于端到端深度卷积神经网络的驾驶行为检测模型缺乏全局特征提取能力以及视觉Transformer(vision transformer,ViT)模型不擅长捕捉底层特征和模型参数量较大的问题,本文提出一种基于深度卷积和Tokens降维的ViT模型用于驾驶人分心驾驶行为实时检测,并通过开展与其他模型的对比试验、所提模型的消融试验和模型注意力区域的可视化试验充分验证了所提模型的优越性。本文所提模型的平均分类准确率和精确率分别为96.93%和96.95%,模型参数量为21.22 M,基于真实车辆平台在线推理速度为23.32 fps,表明所提模型能够实现实时分心驾驶行为检测。研究结果有利于人机共驾系统的控制策略制定和分心预警。 展开更多
关键词 汽车工程 分心驾驶行为检测模型 视觉transformer 多头注意力机制 卷积神经网络 Tokens降维
在线阅读 下载PDF
基于CNN-Transformer的视觉缺陷柑橘分选方法 被引量:15
13
作者 安小松 宋竹平 +2 位作者 梁千月 杜璇 李善军 《华中农业大学学报》 CAS CSCD 北大核心 2022年第4期158-169,共12页
针对产线分拣缺陷柑橘费时费力等问题,以柑橘加工生产线输送机上随机旋转的柑橘果实为研究对象,开发了一种基于卷积神经网络(CNN)的检测算法Mobile-citrus,用于检测和暂时分类缺陷果实,并采用Tracker-citrus跟踪算法来记录其路径上的分... 针对产线分拣缺陷柑橘费时费力等问题,以柑橘加工生产线输送机上随机旋转的柑橘果实为研究对象,开发了一种基于卷积神经网络(CNN)的检测算法Mobile-citrus,用于检测和暂时分类缺陷果实,并采用Tracker-citrus跟踪算法来记录其路径上的分类信息,通过跟踪的历史信息识别柑橘的真实类别。结果显示,跟踪精度达到98.4%,分类精度达到92.8%。同时还应用基于Transformer的轨迹预测算法对果实的未来路径进行了预测,平均轨迹预测误差达到最低2.98个像素,可用于指导机器人手臂分选缺陷柑橘。试验结果表明,所提出的基于CNN-Transformer的缺陷柑橘视觉分选系统,可直接应用在柑橘加工生产线上实现快速在线分选。 展开更多
关键词 柑橘 缺陷检测 机器视觉 深度学习 卷积神经网络 在线柑橘分选 轨迹预测 transformer
在线阅读 下载PDF
SwinBN:一种基于Swin Transformer的针织物疵点检测模型 被引量:6
14
作者 胡越杰 蒋高明 《丝绸》 CAS CSCD 北大核心 2023年第1期59-69,共11页
随着针织工业的发展,针织产品疵点的检测与分类成为一个具有广泛应用价值的研究领域。卷积神经网络受限于卷积运算的局部性,无法高效地关注全局特征。基于Transformer模型的研究越来越多,取得了良好的效果,但是仍然存在小目标识别能力... 随着针织工业的发展,针织产品疵点的检测与分类成为一个具有广泛应用价值的研究领域。卷积神经网络受限于卷积运算的局部性,无法高效地关注全局特征。基于Transformer模型的研究越来越多,取得了良好的效果,但是仍然存在小目标识别能力差和局部特征提取能力不足等缺陷。为了解决这些问题,文章整合Transformer和CNN的优势对Swin Transformer进行优化,设计了DCSW(Deformable convolution and swin transformer)骨干网络以加强模型的局部感知能力,提高小目标疵点检测的准确率。除此之外,还构造了改进的BiFPN多尺度特征融合网络,有助于增强模型的定位精度。最终结合骨干网络和特征融合框架的多尺度自适应模型SwinBN,在自制的针织物疵点图像数据集上评估,其精确率、召回率和mAP值分别达到72.32%、78.87%和71.07%。实验结果表明,该模型优于现有最佳的目标检测方法,为针织物产品质量控制提供了一种新的解决方案。 展开更多
关键词 针织物 疵点检测 可变形卷积 图像处理 自注意力 Swin transformer 计算机视觉
在线阅读 下载PDF
融合CNN和ViT的声信号轴承故障诊断方法 被引量:10
15
作者 宁方立 王珂 郝明阳 《振动与冲击》 EI CSCD 北大核心 2024年第3期158-163,170,共7页
针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像... 针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像作为卷积神经网络的输入,用于隐式提取图像的深层特征,其输出作为视觉转换器的输入。视觉转换器用于提取信号的时间序列信息。并在输出层利用Softmax函数实现故障模式的识别。试验结果表明,该方法对于轴承故障诊断准确率较高。为了更好解释和优化提出的轴承故障诊断方法,利用t-分布领域嵌入算法对分类特征进行了可视化展示。 展开更多
关键词 短时傅里叶变换 卷积神经网络 视觉转换器 t-分布领域嵌入算法
在线阅读 下载PDF
基于残差卷积与多头自注意力的CXR图像分类 被引量:1
16
作者 陈辉 张甜 陈润斌 《工程科学与技术》 EI CAS CSCD 北大核心 2024年第3期219-227,共9页
为了提高新型冠状病毒肺炎(COVID-19)检测的效率和准确性,本文提出一种自动识别COVID-19胸部X射线(CXR)图像的网络模型(MHRA-RCNet)。在ResNet50模型的基础上,首先,采用残差卷积对CXR图像中形状复杂的感染区域进行局部特征提取。其次,... 为了提高新型冠状病毒肺炎(COVID-19)检测的效率和准确性,本文提出一种自动识别COVID-19胸部X射线(CXR)图像的网络模型(MHRA-RCNet)。在ResNet50模型的基础上,首先,采用残差卷积对CXR图像中形状复杂的感染区域进行局部特征提取。其次,选择在ResNet50的第2、3阶段引入多头关系聚合模块,以增强对全局信息的建模能力;为了进一步将局部信息和全局信息进行融合,以提高特征的表达能力和特征之间位置的相关性,在ResNet50的最后阶段引入了空洞视觉Transforme模块,有助于识别CXR图像中复杂的病变区域。最后,将融合后的特征以串联方式输入全局平均池化层进行全局空间信息整合,通过多层感知机进行图像分类并进行可视化分析。在公开访问的COVID-19 Radiography Database数据集与其他深度学习模型进行实验对比。实验结果表明:本文模型在多项分类指标上具有较好的分类精度;另外,从精确度、灵敏度和特异性上也可以直观地看出本文模型能够较好地识别新冠肺炎,进一步证明了本文模型在图像分类任务中的优越性和有效性。 展开更多
关键词 新型冠状病毒肺炎 图像分类 残差卷积 多头关系聚合 空洞视觉transformer
在线阅读 下载PDF
基于双通道特征融合网络的语音情感识别
17
作者 周晓彦 王丽丽 +1 位作者 邵勇斌 鞠醒 《声学技术》 CSCD 北大核心 2024年第6期854-861,共8页
针对语音情感识别中判别性的情感特征提取难题,结合卷积神经网络和视觉transformer网络结构,提出一种双通道特征融合的语音表征方法。使用基于倒瓶颈结构的卷积模块通道,并引入类transformer训练策略提取局部频谱特征,通过改进视觉trans... 针对语音情感识别中判别性的情感特征提取难题,结合卷积神经网络和视觉transformer网络结构,提出一种双通道特征融合的语音表征方法。使用基于倒瓶颈结构的卷积模块通道,并引入类transformer训练策略提取局部频谱特征,通过改进视觉transformer提取全局序列特征,利用卷积神经网络直接提取整个语谱图代替分块部分,更好地提取时序信息,将提取到的特征信息进行融合,能够获取判别性强的情感特征,最后输入到Softmax分类器得到识别结果。在EMO-DB和CASIA数据库上进行实验,文中所提模型的平均准确率分别达到了94.24%和93.05%,与其他模型进行对比试验,结果优于其他模型,表明了该方法的有效性。 展开更多
关键词 语音情感识别 卷积神经网络 视觉transformer 特征融合
在线阅读 下载PDF
CT-CloudDetect:用于遥感卫星云检测的混合模型
18
作者 方巍 陶恩屹 《遥感信息》 CSCD 北大核心 2024年第5期1-11,共11页
云检测是在遥感卫星云图中检测云的任务。近年来,人们提出了基于深度学习的云检测方法,并取得了良好的性能。然而,现有的基于深度学习的云检测模型大多还是基于卷积神经网络(convolutional neural network,CNN),由于卷积运算的固有局部... 云检测是在遥感卫星云图中检测云的任务。近年来,人们提出了基于深度学习的云检测方法,并取得了良好的性能。然而,现有的基于深度学习的云检测模型大多还是基于卷积神经网络(convolutional neural network,CNN),由于卷积运算的固有局部性,难以捕获长距离依赖关系。针对上述问题,文章提出一个基于CNN和ViT(Vision Transformer)的混合型云检测模型,并提出一种基于CNN和ViT的编码器,使网络具备捕捉局部和全局信息的能力。为了更好地融合语义和尺度不一致的特征,提出了一个双尺度注意力融合模块,通过注意力机制有选择地融合特征。此外,提出了轻量级路由解码器,该解码器通过路由结构降低模型复杂度。在3个公开云检测数据集上对模型进行了评估。大量实验表明,所提出的模型具有比现有模型更好的性能。 展开更多
关键词 深度学习 卷积神经网络 空间vision transformer 混合模型 云检测
在线阅读 下载PDF
局部加全局视角遮挡人脸表情识别方法 被引量:3
19
作者 南亚会 华庆一 《计算机工程与应用》 CSCD 北大核心 2024年第13期180-189,共10页
实际场景中各种遮挡增加了表情识别难度。为此,提出一种滑块局部加权卷积注意力和全局注意力池化的视觉Transformer结合的方法来解决遮挡问题。利用主干网络提取表情特征图,将表情特征图裁剪成多个区域块,利用局部Patch注意力单元通过... 实际场景中各种遮挡增加了表情识别难度。为此,提出一种滑块局部加权卷积注意力和全局注意力池化的视觉Transformer结合的方法来解决遮挡问题。利用主干网络提取表情特征图,将表情特征图裁剪成多个区域块,利用局部Patch注意力单元通过自适应计算局部特征的注意力权重来感知被遮挡的区域,提取表情局部特征。同时,表情特征图转换成Patch块,通过Patch级和Token级注意力池化的视觉Transformer,从全局角度捕获Patch块之间的相互作用和相关性。引导模型强调最具区别性的特征,而忽略遮挡减少不相关特征的影响。在三个表情数据集及其遮挡子集和一个遮挡数据集上进行实验,结果表明所提模型在遮挡表情识别上优于现有方法。 展开更多
关键词 遮挡人脸表情识别 滑块局部卷积注意力 Patch注意力池化 Token注意力池化 vision transformer
在线阅读 下载PDF
基于ViT-CNN混合网络的合成孔径雷达图像船舶分类 被引量:1
20
作者 邵然 毕晓君 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2024年第8期1616-1623,共8页
为了解决视觉转换器模型缺乏多尺度与局部特征捕获能力,难以适应合成孔径雷达图像船舶分类任务的问题,本文提出一种混合网络模型用于合成孔径雷达图像船舶分类。利用分阶段下采样网络结构,解决了ViT无法捕获多尺度特征的问题。通过在Vi... 为了解决视觉转换器模型缺乏多尺度与局部特征捕获能力,难以适应合成孔径雷达图像船舶分类任务的问题,本文提出一种混合网络模型用于合成孔径雷达图像船舶分类。利用分阶段下采样网络结构,解决了ViT无法捕获多尺度特征的问题。通过在ViT模型的3个核心模块中融入卷积结构,设计了卷积标记嵌入、卷积参数共享注意力和局部前馈网络3个模块,使得网络能够同时捕获船舶图像的全局和局部特征,进一步增强了网络归纳偏置和特征提取能力。研究表明:本文所提模型在OpenSARShip和FUSAR-Ship2个通用合成孔径雷达船舶图像数据集上,分类准确率较最优方法分别提高了2.96%和4.18%,有效地提升了合成孔径雷达图像船舶分类性能。 展开更多
关键词 视觉转换器 卷积神经网络 SAR图像 深度学习 参数共享 局部特征 全局特征 船舶图像
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部