期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
基于改进Vision Transformer的水稻叶片病害图像识别
1
作者 朱周华 周怡纳 +1 位作者 侯智杰 田成源 《电子测量技术》 北大核心 2025年第10期153-160,共8页
水稻叶片病害智能识别在现代农业生产中具有重要意义。针对传统Vision Transformer网络缺乏归纳偏置,难以有效捕捉图像局部细节特征的问题,提出了一种改进的Vision Transformer模型。该模型通过引入内在归纳偏置,增强了对多尺度上下文... 水稻叶片病害智能识别在现代农业生产中具有重要意义。针对传统Vision Transformer网络缺乏归纳偏置,难以有效捕捉图像局部细节特征的问题,提出了一种改进的Vision Transformer模型。该模型通过引入内在归纳偏置,增强了对多尺度上下文以及局部与全局依赖关系的建模能力,同时降低了对大规模数据集的需求。此外,Vision Transformer中的多层感知器模块被Kolmogorov-Arnold网络结构取代,从而提升了模型对复杂特征的提取能力和可解释性。实验结果表明,所提模型在水稻叶片病害识别任务中取得了优异的性能,识别准确率达到了98.62%,较原始ViT模型提升了6.2%,显著提高了对水稻叶片病害的识别性能。 展开更多
关键词 水稻叶片病害 图像识别 vision transformer网络 归纳偏置 局部特征
在线阅读 下载PDF
Vision Transformer深度学习模型在前列腺癌识别中的价值
2
作者 李梦娟 金龙 +2 位作者 尹胜男 计一丁 丁宁 《中国医学计算机成像杂志》 北大核心 2025年第3期396-401,共6页
目的:旨在探讨Vision Transformer(ViT)深度学习模型在前列腺癌(PCa)识别中的应用价值.方法:回顾性分析了480例接受磁共振成像(MRI)检查的患者影像资料.采用TotalSegmentator模型自动分割前列腺区域,通过ViT深度学习方法分别构建基于T2... 目的:旨在探讨Vision Transformer(ViT)深度学习模型在前列腺癌(PCa)识别中的应用价值.方法:回顾性分析了480例接受磁共振成像(MRI)检查的患者影像资料.采用TotalSegmentator模型自动分割前列腺区域,通过ViT深度学习方法分别构建基于T2加权像(T2WI)、基于表观弥散系数(ADC)图和基于两者结合的三个ViT模型.结果:在PCa的识别能力上,结合模型在训练组和测试组上的受试者工作特征(ROC)曲线下面积(AUC)分别为0.961和0.980,优于仅基于单一成像序列构建的ViT模型.在基于单一序列构建的ViT模型中,基于ADC图的模型相较于基于T2WI的模型表现更佳.此外,决策曲线分析显示结合模型提供了更大的临床效益.结论:ViT深度学习模型在前列腺癌识别中具有较高的诊断准确性和潜在价值. 展开更多
关键词 vision transformer 深度学习 前列腺癌 自动分割 磁共振成像
在线阅读 下载PDF
基于改进Vision Transformer的遥感图像分类研究
3
作者 李宗轩 冷欣 +1 位作者 章磊 陈佳凯 《林业机械与木工设备》 2025年第6期31-35,共5页
通过遥感图像分类能够快速有效获取森林区域分布,为林业资源管理监测提供支持。Vision Transformer(ViT)凭借优秀的全局信息捕捉能力在遥感图像分类任务中广泛应用。但Vision Transformer在浅层特征提取时会冗余捕捉其他局部特征而无法... 通过遥感图像分类能够快速有效获取森林区域分布,为林业资源管理监测提供支持。Vision Transformer(ViT)凭借优秀的全局信息捕捉能力在遥感图像分类任务中广泛应用。但Vision Transformer在浅层特征提取时会冗余捕捉其他局部特征而无法有效捕获关键特征,并且Vision Transformer在将图像分割为patch过程中可能会导致边缘等细节信息的丢失,从而影响分类准确性。针对上述问题提出一种改进Vision Transformer,引入了STA(Super Token Attention)注意力机制来增强Vision Transformer对关键特征信息的提取并减少计算冗余度,还通过加入哈尔小波下采样(Haar Wavelet Downsampling)在减少细节信息丢失的同时增强对图像不同尺度局部和全局信息的捕获能力。通过实验在AID数据集上达到了92.98%的总体准确率,证明了提出方法的有效性。 展开更多
关键词 遥感图像分类 vision transformer 哈尔小波下采样 STA注意力机制
在线阅读 下载PDF
ViT-Count:面向冠层遮挡的Vision Transformer树木计数定位方法
4
作者 张乔一 张瑞 霍光煜 《北京林业大学学报》 北大核心 2025年第10期128-138,共11页
【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图... 【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图像中全局上下文信息方面具有天然优势,尤其适用于形态多变的复杂环境。设计针对树木的视觉提示调优VPT机制,其通过在特征中注入可学习提示(prompts),优化模型在林地高密度树冠、光照变化及不同树种结构下的特征提取能力,提高对不同林分类型的适应性。设计卷积模块的注意力机制模块,利用其在局部感知基础上的长距离依赖建模能力,有效强化模型对树木遮挡、重叠及形态相似目标的辨别能力,提高整体检测的鲁棒性与准确性。设计一个树木检测解码器,通过多层卷积、归一化、GELU激活与上采样操作逐步还原空间分辨率,以生成的目标密度图实现树木计数与定位。【结果】该方法在提升森林、城市场景下的树木检测鲁棒性的同时,增强了模型在多尺度树木目标上的泛化能力。在Larch Casebearer数据集和Urban Tree数据集上进行的实验显示,与其他主流模型相比,该方法的MAE和RMSE最多分别降低了2.53、3.99,表明其泛化能力更强,具有最优的树木检测性能。可视化实验结果表明,在密集森林场景和复杂城市场景中,所提模型均具有较高的树木检测准确率。消融实验的结果证明了模型主要模块的有效性。【结论】基于Vision Transformer的面向复杂场景的树木计数与定位方法能够充分发挥ViT的全局建模能力及视觉提示调优机制任务适应性,结合卷积模块的注意力机制,有效提升复杂场景树木计数与定位的精度与鲁棒性。 展开更多
关键词 目标识别 树木计数 树木定位 复杂场景 vision transformer(ViT) 视觉提示调优(VPT) 注意力机制
在线阅读 下载PDF
基于Vision Transformer的小麦病害图像识别算法 被引量:2
5
作者 白玉鹏 冯毅琨 +3 位作者 李国厚 赵明富 周浩宇 侯志松 《中国农机化学报》 北大核心 2024年第2期267-274,共8页
小麦白粉病、赤霉病和锈病是危害小麦产量的三大病害。为提高小麦病害图像的识别准确率,构建一种基于Vision Transformer的小麦病害图像识别算法。首先,通过田间拍摄的方式收集包含小麦白粉病、赤霉病和锈病3种病害在内的小麦病害图像,... 小麦白粉病、赤霉病和锈病是危害小麦产量的三大病害。为提高小麦病害图像的识别准确率,构建一种基于Vision Transformer的小麦病害图像识别算法。首先,通过田间拍摄的方式收集包含小麦白粉病、赤霉病和锈病3种病害在内的小麦病害图像,并对原始图像进行预处理,建立小麦病害图像识别数据集;然后,基于改进的Vision Transformer构建小麦病害图像识别算法,分析不同迁移学习方式和数据增强对模型识别效果的影响。试验可知,全参数迁移学习和数据增强能明显提高Vision Transformer模型的收敛速度和识别精度。最后,在相同时间条件下,对比Vision Transformer、AlexNet和VGG16算法在相同数据集上的表现。试验结果表明,Vision Transformer模型对3种小麦病害图像的平均识别准确率为96.81%,相较于AlexNet和VGG16模型识别准确率分别提高6.68%和4.94%。 展开更多
关键词 小麦病害 vision transformer 迁移学习 图像识别 数据增强
在线阅读 下载PDF
细粒度图像分类上Vision Transformer的发展综述 被引量:7
6
作者 孙露露 刘建平 +3 位作者 王健 邢嘉璐 张越 王晨阳 《计算机工程与应用》 CSCD 北大核心 2024年第10期30-46,共17页
细粒度图像分类(fine-grained image classification,FGIC)一直是计算机视觉领域中的重要问题。与传统图像分类任务相比,FGIC的挑战在于类间对象极其相似,使任务难度进一步增加。随着深度学习的发展,Vision Transformer(ViT)模型在视觉... 细粒度图像分类(fine-grained image classification,FGIC)一直是计算机视觉领域中的重要问题。与传统图像分类任务相比,FGIC的挑战在于类间对象极其相似,使任务难度进一步增加。随着深度学习的发展,Vision Transformer(ViT)模型在视觉领域掀起热潮,并被引入到FGIC任务中。介绍了FGIC任务所面临的挑战,分析了ViT模型及其特性。主要根据模型结构全面综述了基于ViT的FGIC算法,包括特征提取、特征关系构建、特征注意和特征增强四方面内容,对每种算法进行了总结,并分析了它们的优缺点。通过对不同ViT模型在相同公用数据集上进行模型性能比较,以验证它们在FGIC任务上的有效性。最后指出了目前研究的不足,并提出未来研究方向,以进一步探索ViT在FGIC中的潜力。 展开更多
关键词 细粒度图像分类 vision transformer 特征提取 特征关系构建 特征注意 特征增强
在线阅读 下载PDF
基于改进Vision Transformer的道岔故障智能诊断 被引量:3
7
作者 王英琪 李刚 +1 位作者 胡启正 杨勇 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2024年第10期4321-4333,共13页
道岔故障种类繁多,特征复杂,存在检测难、分类难等问题,导致故障排查效率低下,对铁路运输安全构成威胁。Vision Transformer模型在图像分类方面具有较高准确度,但是其处理的是图像块,而不是传统的像素级特征,在某些情况下可能会影响曲... 道岔故障种类繁多,特征复杂,存在检测难、分类难等问题,导致故障排查效率低下,对铁路运输安全构成威胁。Vision Transformer模型在图像分类方面具有较高准确度,但是其处理的是图像块,而不是传统的像素级特征,在某些情况下可能会影响曲线局部信息的获取。针对上述情况,提出一种基于改进Vision Transformer模型的故障曲线分类算法。首先,对典型道岔故障及原因进行梳理分类,指出几种典型的道岔故障;其次,对使用道岔动作电流数据生成的图像尺寸进行调整并根据故障图像特点进行数据增强,使用ResNet网络取代原Vision Transformer模型中的故障图像分块机制进行特征提取,同时采用相对位置编码增强模型的适应性和泛化能力;最后,利用模型的多头自注意力机制,综合全局与局部信息进行分类,并得到分类权重。经过实验验证,本文道岔故障分类识别总体准确率达99.77%,各分类识别的平均精确率达99.78%,与原模型相比,在训练集和验证集上的识别精度分别提升了5.4%和2.4%。为了更好地理解模型的性能,采用Grad-CAM方法将迭代过程可视化,剖析了模型关注区域的变化过程,并在测试集上与VGG-16、DenseNet121等经典分类模型进行性能对比;通过ROC曲线评估分类效果,显示改进的模型取得更优结果。研究结果为道岔故障识别分类提供了新的理论支持,并为未来的研究提供了新的思路和方法。 展开更多
关键词 深度学习 图像分类 道岔故障识别 vision transformer
在线阅读 下载PDF
基于Vision Transformer与迁移学习的裤装廓形识别与分类
8
作者 应欣 张宁 申思 《丝绸》 CAS CSCD 北大核心 2024年第11期77-83,共7页
针对裤装廓形识别与分类模型的分类不准确问题,文章采用带有自注意力机制的Vision Transformer模型实现裤装廓形图像的分类,对于图片背景等无关信息对廓形识别的干扰,添加自注意力机制,增强有用特征通道。为防止因裤型样本数据集较少产... 针对裤装廓形识别与分类模型的分类不准确问题,文章采用带有自注意力机制的Vision Transformer模型实现裤装廓形图像的分类,对于图片背景等无关信息对廓形识别的干扰,添加自注意力机制,增强有用特征通道。为防止因裤型样本数据集较少产生过拟合问题,可通过迁移学习方法对阔腿裤、喇叭裤、紧身裤、哈伦裤4种裤装廓形进行训练和验证,将改进的Vision Transformer模型与传统CNN模型进行对比实验,验证模型效果。实验结果表明:使用Vision Transformer模型在4种裤装廓形分类上的分类准确率达到97.72%,与ResNet-50和MobileNetV2模型相比均有提升,可为服装廓形的图像分类识别提供有力支撑,在实际服装领域中有较高的使用价值。 展开更多
关键词 裤装廓形 自注意力机制 vision transformer 迁移学习 图像分类 廓形识别
在线阅读 下载PDF
基于Vision Transformer的电缆终端局部放电模式识别 被引量:3
9
作者 唐庆华 方静 +3 位作者 李旭 宋鹏先 孟庆霖 魏占朋 《广东电力》 2023年第11期138-145,共8页
电缆终端缺陷类型一般与局部放电信号特征密切相关,因此可以通过对局部放电信号进行模式识别来实现缺陷分类。对15 kV XLPE电缆终端4种典型缺陷的放电脉冲波形和时频谱图特征进行分析处理,得到可用于识别的数据样本,然后分别采用Vision ... 电缆终端缺陷类型一般与局部放电信号特征密切相关,因此可以通过对局部放电信号进行模式识别来实现缺陷分类。对15 kV XLPE电缆终端4种典型缺陷的放电脉冲波形和时频谱图特征进行分析处理,得到可用于识别的数据样本,然后分别采用Vision Transformer模型、LeNet5、AlexNet和支持向量机对数据进行训练,对比不同算法的识别准确率。结果显示在数据充足的情况下,Vision Transformer模型的识别精度高于其他识别算法。所提方法及结论可为电缆附件的绝缘评估提供可靠依据,具有一定的指导意义。 展开更多
关键词 电缆终端 局部放电 模式识别 vision transformer 数据训练
在线阅读 下载PDF
基于S-YOLO V5和Vision Transformer的视频内容描述算法 被引量:1
10
作者 徐鹏 李铁柱 职保平 《印刷与数字媒体技术研究》 CAS 北大核心 2023年第4期212-222,共11页
视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于... 视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于神经网络模型KATNA提取关键帧,以最少帧数进行模型训练;其次,利用S-YOLO V5模型提取视频帧中的语义信息,并结合预训练ResNet101模型和预训练C3D模型提取视频静态视觉特征和动态视觉特征,并对两种模态特征进行融合;然后,基于ViT结构的强大长距离编码能力,构建模型编码器对融合特征进行长距离依赖编码;最后,将编码器的输出作为LSTM解码器的输入,依次输出预测词,生成最终的自然语言描述。通过在MSR-VTT数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为42.9、28.8、62.4和51.4;在MSVD数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为56.8、37.6、74.5以及98.5。与当前主流模型相比,本研究模型在多项评价指标上表现优异。 展开更多
关键词 视频内容描述 S-YOLO V5 vision transformer 多头注意力
在线阅读 下载PDF
基于EfficientDet与Vision Transformer的接触网吊弦故障检测 被引量:7
11
作者 卞建鹏 薛秀茹 +2 位作者 崔跃华 徐皓 鲁一铭 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第6期2340-2349,共10页
针对传统检测方法在铁路接触网吊弦故障状态检测中存在识别率低,识别速度慢的问题,提出一种基于轻量型网络EfficientDet与Vision Transformer网络相结合的接触网吊弦状态检测算法。该算法包括目标定位和分类检测2个部分,利用改进Efficie... 针对传统检测方法在铁路接触网吊弦故障状态检测中存在识别率低,识别速度慢的问题,提出一种基于轻量型网络EfficientDet与Vision Transformer网络相结合的接触网吊弦状态检测算法。该算法包括目标定位和分类检测2个部分,利用改进EfficientDet进行吊弦定位,将定位出的吊弦送入改进Vision Transformer网络进行故障类别检测。首先,使用空洞卷积替代EfficientDet网络中第2层和第3层的普通卷积,以扩大感受野,并用CBAM代替原网络中的SE注意力机制,汇聚吊弦的高层语义信息,使得改进后的EfficientDet能有效定位出接触网中尺寸占比较小的吊弦;其次,为减少参数量并保留较大范围的特征相关性,应用4个3×3的小卷积替代Vision Transformer中Embedding的16×16的卷积层,以深度提取浅层与深层特征之间的联系,同时对比当Num-head取值不同时,分析注意力机制对空间信息的影响,以确定吊弦故障分类检测的最优模型;最后分别与定位网络YOLOv3,Faster R-CNN和分类网络AlexNet,VGG16进行对比分析,吊弦定位模型的准确率为95.2%,实时速率为31帧/s,故障检测模型的准确率达到98.6%,实时速率为28帧/s。实验表明所提出的算法能够快速准确地检测出小目标吊弦的故障状态,有效地提高了铁路接触网智能巡检的效率。 展开更多
关键词 接触网吊弦故障检测 EfficientDet vision transformer 智能巡检
在线阅读 下载PDF
基于Vision Transformer和语义学习的视频描述模型 被引量:1
12
作者 王翀 查易艺 +3 位作者 顾颖程 宋玉 程环宇 林杉 《印刷与数字媒体技术研究》 CAS 北大核心 2023年第5期49-59,68,共12页
针对当前视频内容描述任务中所生成的描述语句晦涩难懂问题,本研究提出一种基于ViT(Vision Transformer)和语义学习的视频描述模型。首先,采用深度可分离卷积优化ResNet152、C3D等特征提取网络,通过减少网络参数,降低模型时间开销;其次... 针对当前视频内容描述任务中所生成的描述语句晦涩难懂问题,本研究提出一种基于ViT(Vision Transformer)和语义学习的视频描述模型。首先,采用深度可分离卷积优化ResNet152、C3D等特征提取网络,通过减少网络参数,降低模型时间开销;其次,利用多模态融合网络融合多种模态特征,使不同模态进行语义对齐;然后,基于Vision Transformer网络建立一种长距离依赖性编码器,并结合时间注意力机制,在生成每个单词时有选择性地聚焦视频中的特定帧;最后,在解码阶段,利用LSTM循环网络并引入语义信息,使模型生成的描述更具可读性。通过在MSR-VTT数据集上进行测试,本研究模型可以实现0.425、0.288、0.624和0.538分的BLEU4、METEOR、ROUGE-L和CIDEr得分;在MSVD数据集上的BLEU4、METEOR、ROUGE-L和CIDEr得分分别达到了0.564、0.369、0.741和0.964分。相比当前主流视频内容描述模型,所提模型具有更好的描述生成效果。 展开更多
关键词 视频内容描述 语义学习 vision transformer 多模态 SCN解码器
在线阅读 下载PDF
基于Vision Transformer的光伏组件红外图像故障检测 被引量:2
13
作者 张晓艳 向勉 +3 位作者 朱黎 周丙涛 刘洪笑 段亚穷 《农村电气化》 2022年第12期13-16,共4页
太阳能光伏板受制造、运输、安装以及环境因素的影响,易发生故障和损坏,造成能量损失。通过对电池板进行红外图像检测,可以估计电力生产的损失,降低运行和维护的成本。基于此,设计了一种基于Vision Transformer的光伏异常红外图像检测... 太阳能光伏板受制造、运输、安装以及环境因素的影响,易发生故障和损坏,造成能量损失。通过对电池板进行红外图像检测,可以估计电力生产的损失,降低运行和维护的成本。基于此,设计了一种基于Vision Transformer的光伏异常红外图像检测的方法,通过对异常红外图像的检测,达到对不同的故障类型进行分类的目的。Vision Transformer首先将输入进来的图片,每隔一定的区域大小划分图片块,然后将划分后的图片块组合成序列,并将组合后的结果传入Transformer特有的Multi-head Self-attention进行特征提取,最后利用Cls Token进行分类。实验结果表明基于本文方法的红外图像检测准确率可达到95.787%,高于Xception模型11.9%、高于VGG16模型17.74%。 展开更多
关键词 光伏板 红外图像检测 vision transformer 特征提取 Cls Token
在线阅读 下载PDF
融合Vision Transformer与3D CNN的深度伪造视频篡改检测
14
作者 孙立信 吴永飞 +2 位作者 李心宇 任杰煌 刘西林 《计算机应用与软件》 2025年第11期121-127,共7页
Deepfake技术的出现,使人们可以轻松地对人脸视频进行篡改,对社会造成巨大的危害。现有的篡改检测方法主要侧重于视频帧间的局部人脸区域空间特征变化检测,并没有考虑连续全局区域的时域特征,且不能检测视频帧中的细微空域特征变化。针... Deepfake技术的出现,使人们可以轻松地对人脸视频进行篡改,对社会造成巨大的危害。现有的篡改检测方法主要侧重于视频帧间的局部人脸区域空间特征变化检测,并没有考虑连续全局区域的时域特征,且不能检测视频帧中的细微空域特征变化。针对此问题,提出融合Vision Transformer和3D CNN的视频篡改检测方法ViT-3DCNN。该方法无需对人脸进行裁剪,直接学习视频帧间的连续时域特征以及每一帧的空间特征。实验结果表明,不依赖于人脸剪裁的情况下,ViT-3DCNN模型分别在DFDC数据集及Celeb-DF数据集上取得了93.3%与90.65%的分类准确性,充分验证了该模型在检测精度和泛化性等方面相较于现有检测方法具有明显的优势。 展开更多
关键词 伪造视频篡改检测 时空特征 vision transformer 3D卷积
在线阅读 下载PDF
视觉Transformer(ViT)发展综述 被引量:8
15
作者 李玉洁 马子航 +2 位作者 王艺甫 王星河 谭本英 《计算机科学》 北大核心 2025年第1期194-209,共16页
视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对... 视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。 展开更多
关键词 计算机视觉 模式识别 vision transformer(ViT) 深度学习 自注意力
在线阅读 下载PDF
M^(3)Res-Transformer:新冠肺炎胸部X-ray图像识别模型 被引量:6
16
作者 周涛 刘赟璨 +3 位作者 侯森宝 常晓玉 叶鑫宇 陆惠玲 《电子学报》 EI CAS CSCD 北大核心 2024年第2期589-601,共13页
新冠肺炎(COVID-19)自爆发以来严重影响人类生命健康,近年来残差神经网络广泛应用于COVID-19识别任务中,辅助医生快速地诊断COVID-19患者,但是COVID-19图像病变区域形状复杂、大小不一,与周围组织的边界模糊,导致网络难以提取有效特征.... 新冠肺炎(COVID-19)自爆发以来严重影响人类生命健康,近年来残差神经网络广泛应用于COVID-19识别任务中,辅助医生快速地诊断COVID-19患者,但是COVID-19图像病变区域形状复杂、大小不一,与周围组织的边界模糊,导致网络难以提取有效特征.本文针对上述问题,提出一种M^(3)Res-Transformer的新冠肺炎胸部X-ray图像识别模型,采用Res-Transformer作为模型的主干网络,结合ResNet和ViT,有效地整合局部病变特征和全局特征;设计混合残差注意力模块(mixed residual attention Module,mraM),同时考虑通道和空间位置的相互依赖性,增强网络的特征表达能力;为了增大感受野,提取多尺度特征,通过叠加具有不同扩张率的扩张卷积构造多尺度扩张残差模块(multiscale dilated residual Module,mdrM),根据不同层次特征尺度的差异,使用3个逐渐收缩尺度的mdrM进行多尺度特征提取;提出上下文交叉感知模块(contextual cross-awareness Module,ccaM),使用深层特征中的语义信息来引导浅层特征,然后将浅层特征中的空间信息嵌入深层特征中,采用交叉加权注意力机制高效聚合深层和浅层特征,获得更丰富的上下文信息.为了验证本文所提模型的有效性,在新冠肺炎胸部X-ray图像数据集上进行实验,与先进的CNN分类模型、融合不同注意力机制的ResNet50模型、基于Transformer的分类模型对比以及消融实验.结果表明,本文所提模型的Acc、Pre、Rec、F1-Score与Spe指标分别为96.33%、96.36%、96.33%、96.35%与96.26%,在COVID-19胸部X-ray图像识别任务中有效提升了识别精度,并通过可视化方法对其进行进一步验证,为COVID-19的辅助诊断提供重要的参考价值. 展开更多
关键词 COVID-19 胸部X-ray图像 残差神经网络 vision transformer 注意力机制
在线阅读 下载PDF
改进知识蒸馏Transformer的新冠肺炎医学影像分类
17
作者 白浩田 谷宇 +7 位作者 杨立东 张宝华 李建军 吕晓琪 唐思源 张祥松 贾成一 贺群 《激光杂志》 CAS 北大核心 2024年第2期152-160,共9页
针对在筛查新型冠状病毒感染肺炎患者时核酸检测假阴性率较高的问题,提出了一种DRPL-ViT计算机辅助诊断网络。在Vision Transformer的基础上首先引入知识蒸馏机制,使Transformer结构在小数据集上训练取得更好的拟合效果;然后,在patches... 针对在筛查新型冠状病毒感染肺炎患者时核酸检测假阴性率较高的问题,提出了一种DRPL-ViT计算机辅助诊断网络。在Vision Transformer的基础上首先引入知识蒸馏机制,使Transformer结构在小数据集上训练取得更好的拟合效果;然后,在patches的位置信息编码上,通过更适合视觉任务的相对位置编码方式,使tokens之间的依赖关系能够被更好地捕捉;为了关注到更多的局部特征,在Transformer Encoder模块中引入了传统的卷积模块提取局部特征。实验在四分类测试集上平均分类准确率达到92.11%,对新冠肺炎分类准确率达到97.85%。实验结果表明,所提出的网络对新冠肺炎及其他肺部病变分类准确率较高,有一定的临床应用价值。 展开更多
关键词 医学图像分类 vision transformer架构 深度学习 计算机X线摄影 新冠肺炎
在线阅读 下载PDF
一种探地雷达与深度学习的隧道衬砌健康评价方法 被引量:1
18
作者 张广伟 《测绘通报》 北大核心 2025年第3期122-126,149,共6页
隧道在其服役期内,受多种因素影响,隧道壁后会产生空洞、不密实等多种结构病害,影响服役性能,探地雷达(GPR)无损检测技术广泛应用于隧道质量检测领域,但由于雷达数据的解译工作较为复杂,数据量大,检测效率有待提高。近年来,深度学习因... 隧道在其服役期内,受多种因素影响,隧道壁后会产生空洞、不密实等多种结构病害,影响服役性能,探地雷达(GPR)无损检测技术广泛应用于隧道质量检测领域,但由于雷达数据的解译工作较为复杂,数据量大,检测效率有待提高。近年来,深度学习因其出色的数据处理能力和信息提取能力而备受瞩目,提供了多种高效、可靠的病害分类模型。本文基于GPR图像,提出了一种多级病害分类方法用于评估隧道衬砌健康状况。首先,获取雷达图像数据,并进行人工解译,创建样本数据库,用于模型的输入和输出,以训练和测试深度学习模型;然后,针对数据库的小样本特点,利用Vision Transformer网络和改进后的Compact Convolutional Transformer对数据进行分类。结果显示,Vision Transformer算法可以实现基于雷达影像的隧道衬砌健康评价,相较于其他版本,具有更好的结果及较高的准确率。 展开更多
关键词 探地雷达 神经网络 vision transformer 隧道衬砌健康评价
在线阅读 下载PDF
基于多尺度空间-光谱特征提取的颜料高光谱图像分类方法
19
作者 汤斌 罗希玲 +6 位作者 王建旭 范文奇 孙玉宇 刘家路 唐欢 赵雅 钟年丙 《光谱学与光谱分析》 北大核心 2025年第8期2364-2372,共9页
颜料不仅赋予文物色彩和美感,更承载着丰富的历史、文化与技术信息,因此对颜料的准确分类与识别是古代彩绘作品修复、保护及学术研究的重要基础。通过检测颜料的种类与化学成分,不仅能帮助确定作品的创作年代、地域特征及工艺风格,还能... 颜料不仅赋予文物色彩和美感,更承载着丰富的历史、文化与技术信息,因此对颜料的准确分类与识别是古代彩绘作品修复、保护及学术研究的重要基础。通过检测颜料的种类与化学成分,不仅能帮助确定作品的创作年代、地域特征及工艺风格,还能为科学修复提供指导依据。然而,传统颜料分析受限于样品尺寸、表面平整度,且部分分析方法需要取样,对文物造成不可逆损伤,这使得古书画颜料的检测面临诸多挑战。高光谱成像技术(HSI)凭借其无损检测、广域扫描及获取完整光谱信息的优势,成为文物颜料分析的重要工具。HSI克服了样品表面不平整、尺寸受限等问题,能够从不同波段获取细致的光谱和空间信息,帮助提取颜料的微观特征。旨在利用HSI技术实现古书画颜料的精准分类与深度特征提取,以应对复杂场景下的颜料检测挑战。为此,我们提出了一种多尺度空间-光谱特征融合的方法,在分析过程中结合不同层次的信息:利用光谱-空间注意力机制捕捉细节特征,并通过视觉转换器(ViT)模型获取图像整体的高层语义信息,从而增强对复杂颜料特征的表示能力和分类性能。实验结果表明,该方法在模拟画作样品上的分类性能显著优于传统和其他深度学习模型:与支持向量机(SVM)相比,分类精度提升了34.35%;相较于HyBridSN与SSRN模型,精度分别提高了8.93%和5.6%。本方法不仅提升了颜料检测的准确性,还为古书画的科学修复和价值保护提供了无损、可靠的技术支持,并为文物保护的智能化发展奠定了技术基础。 展开更多
关键词 高光谱成像 多尺度特征融合 vision transformer 光谱-空间注意力 颜料分类
在线阅读 下载PDF
基于ViT网络模型自注意力机制的干扰类型分布式识别方法
20
作者 王珣 吴志强 刘明骞 《兵工学报》 北大核心 2025年第S1期356-368,共13页
针对传统集中式大功率干扰在现代通信对抗中存在覆盖有限、易被定位等问题,提出一种基于空海一体化架构的分布式通信干扰信号识别方法。该方法通过构建空海协同电子对抗体系,由空中无人机采集干扰信号,海上信息处理中心进行多源信号融... 针对传统集中式大功率干扰在现代通信对抗中存在覆盖有限、易被定位等问题,提出一种基于空海一体化架构的分布式通信干扰信号识别方法。该方法通过构建空海协同电子对抗体系,由空中无人机采集干扰信号,海上信息处理中心进行多源信号融合与特征提取,并设计融合多微信号表征的多阶段Vision Transformer识别模型,实现干扰信号的自动识别与分类。实验结果表明:该方法能够有效提升干扰信号的识别精度与效率,为通信系统的抗干扰决策提供支持。研究结论显示,该方法能够有效提升分布式通信干扰信号的识别精度与效率,具备较强的鲁棒性和适应性,能够满足现代战场对快速识别干扰信号的需求,并为分布式通信干扰技术的工程化应用提供新的可行路径,为空海一体化电子对抗体系的构建奠定技术基础。 展开更多
关键词 分布式通信干扰 空海一体化 信号识别 vision transformer
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部