期刊文献+
共找到738篇文章
< 1 2 37 >
每页显示 20 50 100
ViT-Count:面向冠层遮挡的Vision Transformer树木计数定位方法
1
作者 张乔一 张瑞 霍光煜 《北京林业大学学报》 北大核心 2025年第10期128-138,共11页
【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图... 【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图像中全局上下文信息方面具有天然优势,尤其适用于形态多变的复杂环境。设计针对树木的视觉提示调优VPT机制,其通过在特征中注入可学习提示(prompts),优化模型在林地高密度树冠、光照变化及不同树种结构下的特征提取能力,提高对不同林分类型的适应性。设计卷积模块的注意力机制模块,利用其在局部感知基础上的长距离依赖建模能力,有效强化模型对树木遮挡、重叠及形态相似目标的辨别能力,提高整体检测的鲁棒性与准确性。设计一个树木检测解码器,通过多层卷积、归一化、GELU激活与上采样操作逐步还原空间分辨率,以生成的目标密度图实现树木计数与定位。【结果】该方法在提升森林、城市场景下的树木检测鲁棒性的同时,增强了模型在多尺度树木目标上的泛化能力。在Larch Casebearer数据集和Urban Tree数据集上进行的实验显示,与其他主流模型相比,该方法的MAE和RMSE最多分别降低了2.53、3.99,表明其泛化能力更强,具有最优的树木检测性能。可视化实验结果表明,在密集森林场景和复杂城市场景中,所提模型均具有较高的树木检测准确率。消融实验的结果证明了模型主要模块的有效性。【结论】基于Vision Transformer的面向复杂场景的树木计数与定位方法能够充分发挥ViT的全局建模能力及视觉提示调优机制任务适应性,结合卷积模块的注意力机制,有效提升复杂场景树木计数与定位的精度与鲁棒性。 展开更多
关键词 目标识别 树木计数 树木定位 复杂场景 vision transformer(vit) 视觉提示调优(VPT) 注意力机制
在线阅读 下载PDF
基于改进Vision Transformer的水稻叶片病害图像识别
2
作者 朱周华 周怡纳 +1 位作者 侯智杰 田成源 《电子测量技术》 北大核心 2025年第10期153-160,共8页
水稻叶片病害智能识别在现代农业生产中具有重要意义。针对传统Vision Transformer网络缺乏归纳偏置,难以有效捕捉图像局部细节特征的问题,提出了一种改进的Vision Transformer模型。该模型通过引入内在归纳偏置,增强了对多尺度上下文... 水稻叶片病害智能识别在现代农业生产中具有重要意义。针对传统Vision Transformer网络缺乏归纳偏置,难以有效捕捉图像局部细节特征的问题,提出了一种改进的Vision Transformer模型。该模型通过引入内在归纳偏置,增强了对多尺度上下文以及局部与全局依赖关系的建模能力,同时降低了对大规模数据集的需求。此外,Vision Transformer中的多层感知器模块被Kolmogorov-Arnold网络结构取代,从而提升了模型对复杂特征的提取能力和可解释性。实验结果表明,所提模型在水稻叶片病害识别任务中取得了优异的性能,识别准确率达到了98.62%,较原始ViT模型提升了6.2%,显著提高了对水稻叶片病害的识别性能。 展开更多
关键词 水稻叶片病害 图像识别 vision transformer网络 归纳偏置 局部特征
在线阅读 下载PDF
DAQ:基于分治策略的自适应VisionTransformer低位宽量化方法 被引量:1
3
作者 吕倩茹 许金伟 +1 位作者 姜晶菲 李东升 《计算机研究与发展》 北大核心 2025年第6期1530-1546,共17页
视觉Transformer(Vision Transformer,ViT)模型在计算机视觉领域的多项任务中取得显著效果.但ViT的复杂结构和计算开销限制了其在边缘计算设备中的部署.训练后量化(post-training quantization,PTQ)技术被广泛应用于ViT模型轻量化中以... 视觉Transformer(Vision Transformer,ViT)模型在计算机视觉领域的多项任务中取得显著效果.但ViT的复杂结构和计算开销限制了其在边缘计算设备中的部署.训练后量化(post-training quantization,PTQ)技术被广泛应用于ViT模型轻量化中以解决实际部署难题,但现有PTQ方法在低位宽量化中的性能损失较大.针对低比特量化场景,ViT的量化敏感层(如Softmax)与计算密集层(如线性变换)存在显著空间错位,且非高斯分布的激活值中隐含97%的类高斯聚集特性.由此,基于标准分数z-score方法提出分治自适应量化(divide-and-conquer and adaptive quantization,DAQ)方法,通过量化敏感度-计算-存储开销联合分析与硬件协同设计,实现精度与效率的联合优化.DAQ构建动态分治量化机制,通过动态感知的z-score方法实现正常值/离群值双域分割,均匀关联量化2个值域.在4-bit量化下,DAQ方法在分类任务上的Top-1精度最大提升4.37个百分点,目标检测任务最大精度提升达8.2个百分点,与基线模型相比误差平均低于0.4个百分点,超过最佳全精度模型0.1个百分点,接近实现无损的低位宽量化.另一方面,DAQ在硬件兼容设上适配TensorCore的INT4/INT8内核,以量化定点计算来减轻线性计算压力.实验表明,DAQ硬件适配后对线性计算部分有43%~86%的加速效果,为资源受限场景提供了算法-硬件协同优化的量化部署范式. 展开更多
关键词 视觉transformer(vit) 训练后量化(PTQ) 离群值 低比特量化 Z-SCORE 均匀关联量化
在线阅读 下载PDF
视觉Transformer(ViT)发展综述 被引量:8
4
作者 李玉洁 马子航 +2 位作者 王艺甫 王星河 谭本英 《计算机科学》 北大核心 2025年第1期194-209,共16页
视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对... 视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。 展开更多
关键词 计算机视觉 模式识别 vision transformer(vit) 深度学习 自注意力
在线阅读 下载PDF
Vision Transformer深度学习模型在前列腺癌识别中的价值
5
作者 李梦娟 金龙 +2 位作者 尹胜男 计一丁 丁宁 《中国医学计算机成像杂志》 北大核心 2025年第3期396-401,共6页
目的:旨在探讨Vision Transformer(ViT)深度学习模型在前列腺癌(PCa)识别中的应用价值.方法:回顾性分析了480例接受磁共振成像(MRI)检查的患者影像资料.采用TotalSegmentator模型自动分割前列腺区域,通过ViT深度学习方法分别构建基于T2... 目的:旨在探讨Vision Transformer(ViT)深度学习模型在前列腺癌(PCa)识别中的应用价值.方法:回顾性分析了480例接受磁共振成像(MRI)检查的患者影像资料.采用TotalSegmentator模型自动分割前列腺区域,通过ViT深度学习方法分别构建基于T2加权像(T2WI)、基于表观弥散系数(ADC)图和基于两者结合的三个ViT模型.结果:在PCa的识别能力上,结合模型在训练组和测试组上的受试者工作特征(ROC)曲线下面积(AUC)分别为0.961和0.980,优于仅基于单一成像序列构建的ViT模型.在基于单一序列构建的ViT模型中,基于ADC图的模型相较于基于T2WI的模型表现更佳.此外,决策曲线分析显示结合模型提供了更大的临床效益.结论:ViT深度学习模型在前列腺癌识别中具有较高的诊断准确性和潜在价值. 展开更多
关键词 vision transformer 深度学习 前列腺癌 自动分割 磁共振成像
在线阅读 下载PDF
基于改进Vision Transformer的局部光照一致性估计 被引量:1
6
作者 王杨 宋世佳 +3 位作者 王鹤琴 袁振羽 赵立军 吴其林 《计算机工程》 北大核心 2025年第2期312-321,共10页
光照一致性是增强现实(AR)系统中实现虚实有机融合的关键因素之一。由于拍摄视角的局限性和场景光照的复杂性,开发者在估计全景照明信息时通常忽略局部光照一致性,从而影响最终的渲染效果。为解决这一问题,提出一种基于改进视觉Transfor... 光照一致性是增强现实(AR)系统中实现虚实有机融合的关键因素之一。由于拍摄视角的局限性和场景光照的复杂性,开发者在估计全景照明信息时通常忽略局部光照一致性,从而影响最终的渲染效果。为解决这一问题,提出一种基于改进视觉Transformer(ViT)结构的局部光照一致性估计框架(ViTLight)。首先利用ViT编码器提取特征向量并计算回归球面谐波(SH)系数,进而恢复光照信息;其次改进ViT编码器结构,引入多头自注意力交互机制,采用卷积运算引导注意力头之间相互联系,在此基础上增加局部感知模块,扫描每个图像分块并对局部像素进行加权求和,捕捉区域内的特定特征,有助于平衡全局上下文特征和局部光照信息,提高光照估计的精度。在公开数据集上对比主流特征提取网络和4种经典光照估计框架,实验和分析结果表明,ViTLight在图像渲染准确率方面高于现有框架,其均方根误差(RMSE)和结构相异性(DSSIM)指标分别为0.1296和0.0426,验证了该框架的有效性与正确性。 展开更多
关键词 增强现实 光照估计 球面谐波系数 视觉transformer 多头自注意力
在线阅读 下载PDF
融合SOLOv2-Vision Transformer的面瘫识别方法研究
7
作者 庄哲笼 丁有伟 +2 位作者 胡孔法 陈科宏 陈功 《南京中医药大学学报》 北大核心 2025年第10期1399-1406,共8页
目的为了使患者和医生更快诊断病情,达到早发现、早诊断、早治疗的目的,建立准确及时的面瘫智能化辅助诊断方法。方法提出融合SOLOv2-Vision Transformer的方法,将收集的面瘫数据经过替换主干网络的SOLOv2模型分割,去除图像中干扰部分,... 目的为了使患者和医生更快诊断病情,达到早发现、早诊断、早治疗的目的,建立准确及时的面瘫智能化辅助诊断方法。方法提出融合SOLOv2-Vision Transformer的方法,将收集的面瘫数据经过替换主干网络的SOLOv2模型分割,去除图像中干扰部分,再输入到Vision Transformer模型中进行分类训练。通过先分割再分类的原则,提高面瘫图像的分类效果。结果该实验方法在MEEI面瘫数据集上的准确率为0.982、召回率为0.982、F1-score为0.981,相比于基础模型分别提高了2%、4%、4%。结论融合SOLOv2-Vision Transformer的面瘫分类模型,相比较于未经分割的方法可实现更高的识别精度,为面瘫诊断提供了新方法。 展开更多
关键词 图像分割 图像分类 注意力机制 面瘫 诊断 SOLOv2-vision transformer
在线阅读 下载PDF
基于改进Vision Transformer的遥感图像分类研究
8
作者 李宗轩 冷欣 +1 位作者 章磊 陈佳凯 《林业机械与木工设备》 2025年第6期31-35,共5页
通过遥感图像分类能够快速有效获取森林区域分布,为林业资源管理监测提供支持。Vision Transformer(ViT)凭借优秀的全局信息捕捉能力在遥感图像分类任务中广泛应用。但Vision Transformer在浅层特征提取时会冗余捕捉其他局部特征而无法... 通过遥感图像分类能够快速有效获取森林区域分布,为林业资源管理监测提供支持。Vision Transformer(ViT)凭借优秀的全局信息捕捉能力在遥感图像分类任务中广泛应用。但Vision Transformer在浅层特征提取时会冗余捕捉其他局部特征而无法有效捕获关键特征,并且Vision Transformer在将图像分割为patch过程中可能会导致边缘等细节信息的丢失,从而影响分类准确性。针对上述问题提出一种改进Vision Transformer,引入了STA(Super Token Attention)注意力机制来增强Vision Transformer对关键特征信息的提取并减少计算冗余度,还通过加入哈尔小波下采样(Haar Wavelet Downsampling)在减少细节信息丢失的同时增强对图像不同尺度局部和全局信息的捕获能力。通过实验在AID数据集上达到了92.98%的总体准确率,证明了提出方法的有效性。 展开更多
关键词 遥感图像分类 vision transformer 哈尔小波下采样 STA注意力机制
在线阅读 下载PDF
基于改进的Vision Transformer深度哈希图像检索 被引量:1
9
作者 杨梦雅 赵琰 薛亮 《陕西科技大学学报》 北大核心 2025年第4期183-191,共9页
针对基于卷积神经网络的深度哈希方法不能很好捕捉全局图像信息和数据集中难易样本、正负样本对不平衡的问题,提出一种基于改进的Vision Transformer深度哈希算法(CMTH).首先,在Transformer编码网络前利用卷积神经网络提取深度局部特征... 针对基于卷积神经网络的深度哈希方法不能很好捕捉全局图像信息和数据集中难易样本、正负样本对不平衡的问题,提出一种基于改进的Vision Transformer深度哈希算法(CMTH).首先,在Transformer编码网络前利用卷积神经网络提取深度局部特征,降低维度并保持较高的图像分辨率.其次,改进的Vision Transformer网络使用轻量级多头互注意模块,提取高维深度全局特征的同时降低计算复杂度.最后,提出新的损失框架,设计标准焦点损失调整难样本在数据集中的权重,并构建一种新的哈希损失,以减少难易样本不平衡和正负样本对不平衡的影响.在CIFAR-10和NUS-WIDE上与基于Vision Transformer的深度哈希次优算法相比,在四种不同比特下均值平均精度分别平均提高了2.35%和3.75%. 展开更多
关键词 深度哈希 卷积神经网络 视觉注意力 图像检索
在线阅读 下载PDF
融合Vision Transformer与3D CNN的深度伪造视频篡改检测
10
作者 孙立信 吴永飞 +2 位作者 李心宇 任杰煌 刘西林 《计算机应用与软件》 北大核心 2025年第11期121-127,共7页
Deepfake技术的出现,使人们可以轻松地对人脸视频进行篡改,对社会造成巨大的危害。现有的篡改检测方法主要侧重于视频帧间的局部人脸区域空间特征变化检测,并没有考虑连续全局区域的时域特征,且不能检测视频帧中的细微空域特征变化。针... Deepfake技术的出现,使人们可以轻松地对人脸视频进行篡改,对社会造成巨大的危害。现有的篡改检测方法主要侧重于视频帧间的局部人脸区域空间特征变化检测,并没有考虑连续全局区域的时域特征,且不能检测视频帧中的细微空域特征变化。针对此问题,提出融合Vision Transformer和3D CNN的视频篡改检测方法ViT-3DCNN。该方法无需对人脸进行裁剪,直接学习视频帧间的连续时域特征以及每一帧的空间特征。实验结果表明,不依赖于人脸剪裁的情况下,ViT-3DCNN模型分别在DFDC数据集及Celeb-DF数据集上取得了93.3%与90.65%的分类准确性,充分验证了该模型在检测精度和泛化性等方面相较于现有检测方法具有明显的优势。 展开更多
关键词 伪造视频篡改检测 时空特征 vision transformer 3D卷积
在线阅读 下载PDF
基于Vision Transformer的电缆终端局部放电模式识别 被引量:3
11
作者 唐庆华 方静 +3 位作者 李旭 宋鹏先 孟庆霖 魏占朋 《广东电力》 2023年第11期138-145,共8页
电缆终端缺陷类型一般与局部放电信号特征密切相关,因此可以通过对局部放电信号进行模式识别来实现缺陷分类。对15 kV XLPE电缆终端4种典型缺陷的放电脉冲波形和时频谱图特征进行分析处理,得到可用于识别的数据样本,然后分别采用Vision ... 电缆终端缺陷类型一般与局部放电信号特征密切相关,因此可以通过对局部放电信号进行模式识别来实现缺陷分类。对15 kV XLPE电缆终端4种典型缺陷的放电脉冲波形和时频谱图特征进行分析处理,得到可用于识别的数据样本,然后分别采用Vision Transformer模型、LeNet5、AlexNet和支持向量机对数据进行训练,对比不同算法的识别准确率。结果显示在数据充足的情况下,Vision Transformer模型的识别精度高于其他识别算法。所提方法及结论可为电缆附件的绝缘评估提供可靠依据,具有一定的指导意义。 展开更多
关键词 电缆终端 局部放电 模式识别 vision transformer 数据训练
在线阅读 下载PDF
基于S-YOLO V5和Vision Transformer的视频内容描述算法 被引量:1
12
作者 徐鹏 李铁柱 职保平 《印刷与数字媒体技术研究》 CAS 北大核心 2023年第4期212-222,共11页
视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于... 视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于神经网络模型KATNA提取关键帧,以最少帧数进行模型训练;其次,利用S-YOLO V5模型提取视频帧中的语义信息,并结合预训练ResNet101模型和预训练C3D模型提取视频静态视觉特征和动态视觉特征,并对两种模态特征进行融合;然后,基于ViT结构的强大长距离编码能力,构建模型编码器对融合特征进行长距离依赖编码;最后,将编码器的输出作为LSTM解码器的输入,依次输出预测词,生成最终的自然语言描述。通过在MSR-VTT数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为42.9、28.8、62.4和51.4;在MSVD数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为56.8、37.6、74.5以及98.5。与当前主流模型相比,本研究模型在多项评价指标上表现优异。 展开更多
关键词 视频内容描述 S-YOLO V5 vision transformer 多头注意力
在线阅读 下载PDF
Dual-Path Vision Transformer用于急性缺血性脑卒中辅助诊断 被引量:3
13
作者 张桃红 郭学强 +4 位作者 郑瀚 罗继昌 王韬 焦力群 唐安莹 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期307-314,共8页
急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分... 急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分类智能模型DPVF。为了提高辅助诊断速度,基于EdgeViT的轻量化设计思想进行了模型的构建;为了使模型保持轻量化的同时具有较高的精度,提出空间-通道自注意力模块,促进Transformer模型捕获更全面的特征信息,提高模型的表达能力;此外,对于DPVF的两分支的特征融合,构建交叉注意力模块对两分支输出进行交叉融合,促使模型提取更丰富的特征,从而提高模型表现。实验结果显示DPVF在测试集上的准确率达98.5%,满足实际需求。 展开更多
关键词 急性缺血性脑卒中 视觉transformer 双分支网络 特征融合
在线阅读 下载PDF
基于MobileViT的智能变电站继电保护二次回路故障诊断技术 被引量:3
14
作者 郑茂然 余江 +3 位作者 史泽兵 高宏慧 姜健琳 沈亚东 《电网与清洁能源》 北大核心 2025年第6期31-38,共8页
随着变电站智能化技术的飞速发展,二次设备数量急剧增长,通信网络配置日趋复杂,高效准确地实现继电保护二次回路故障诊断关系着智能变电站的安全稳定。为了降低智能变电站自动化运维成本,研究了基于MobileViT的继电保护二次回路故障诊... 随着变电站智能化技术的飞速发展,二次设备数量急剧增长,通信网络配置日趋复杂,高效准确地实现继电保护二次回路故障诊断关系着智能变电站的安全稳定。为了降低智能变电站自动化运维成本,研究了基于MobileViT的继电保护二次回路故障诊断技术。将二次设备报文接收状态以及交换机端口流量信息作为保护回路的故障特征,结合矩阵式编码技术获取保护回路故障特征的二维图像形式;利用先进的MobileViT算法构建继电保护二次回路故障诊断模型,并提出在线操作方法。以典型110 kV智能变电站二次系统为例,验证所提方法的可行性和有效性。算例结果表明,基于MobileViT的故障诊断模型能够准确识别保护回路中的二次设备及通信链路故障。与其他方法的对比研究证明了所提方法在特征构造、辨识误差、诊断精度等方面存在优势。 展开更多
关键词 智能变电站 继电保护 二次回路 故障诊断 transformer
在线阅读 下载PDF
基于Vision Transformer的小麦病害图像识别算法 被引量:3
15
作者 白玉鹏 冯毅琨 +3 位作者 李国厚 赵明富 周浩宇 侯志松 《中国农机化学报》 北大核心 2024年第2期267-274,共8页
小麦白粉病、赤霉病和锈病是危害小麦产量的三大病害。为提高小麦病害图像的识别准确率,构建一种基于Vision Transformer的小麦病害图像识别算法。首先,通过田间拍摄的方式收集包含小麦白粉病、赤霉病和锈病3种病害在内的小麦病害图像,... 小麦白粉病、赤霉病和锈病是危害小麦产量的三大病害。为提高小麦病害图像的识别准确率,构建一种基于Vision Transformer的小麦病害图像识别算法。首先,通过田间拍摄的方式收集包含小麦白粉病、赤霉病和锈病3种病害在内的小麦病害图像,并对原始图像进行预处理,建立小麦病害图像识别数据集;然后,基于改进的Vision Transformer构建小麦病害图像识别算法,分析不同迁移学习方式和数据增强对模型识别效果的影响。试验可知,全参数迁移学习和数据增强能明显提高Vision Transformer模型的收敛速度和识别精度。最后,在相同时间条件下,对比Vision Transformer、AlexNet和VGG16算法在相同数据集上的表现。试验结果表明,Vision Transformer模型对3种小麦病害图像的平均识别准确率为96.81%,相较于AlexNet和VGG16模型识别准确率分别提高6.68%和4.94%。 展开更多
关键词 小麦病害 vision transformer 迁移学习 图像识别 数据增强
在线阅读 下载PDF
基于ViT网络模型自注意力机制的干扰类型分布式识别方法
16
作者 王珣 吴志强 刘明骞 《兵工学报》 北大核心 2025年第S1期356-368,共13页
针对传统集中式大功率干扰在现代通信对抗中存在覆盖有限、易被定位等问题,提出一种基于空海一体化架构的分布式通信干扰信号识别方法。该方法通过构建空海协同电子对抗体系,由空中无人机采集干扰信号,海上信息处理中心进行多源信号融... 针对传统集中式大功率干扰在现代通信对抗中存在覆盖有限、易被定位等问题,提出一种基于空海一体化架构的分布式通信干扰信号识别方法。该方法通过构建空海协同电子对抗体系,由空中无人机采集干扰信号,海上信息处理中心进行多源信号融合与特征提取,并设计融合多微信号表征的多阶段Vision Transformer识别模型,实现干扰信号的自动识别与分类。实验结果表明:该方法能够有效提升干扰信号的识别精度与效率,为通信系统的抗干扰决策提供支持。研究结论显示,该方法能够有效提升分布式通信干扰信号的识别精度与效率,具备较强的鲁棒性和适应性,能够满足现代战场对快速识别干扰信号的需求,并为分布式通信干扰技术的工程化应用提供新的可行路径,为空海一体化电子对抗体系的构建奠定技术基础。 展开更多
关键词 分布式通信干扰 空海一体化 信号识别 vision transformer
在线阅读 下载PDF
细粒度图像分类上Vision Transformer的发展综述 被引量:7
17
作者 孙露露 刘建平 +3 位作者 王健 邢嘉璐 张越 王晨阳 《计算机工程与应用》 CSCD 北大核心 2024年第10期30-46,共17页
细粒度图像分类(fine-grained image classification,FGIC)一直是计算机视觉领域中的重要问题。与传统图像分类任务相比,FGIC的挑战在于类间对象极其相似,使任务难度进一步增加。随着深度学习的发展,Vision Transformer(ViT)模型在视觉... 细粒度图像分类(fine-grained image classification,FGIC)一直是计算机视觉领域中的重要问题。与传统图像分类任务相比,FGIC的挑战在于类间对象极其相似,使任务难度进一步增加。随着深度学习的发展,Vision Transformer(ViT)模型在视觉领域掀起热潮,并被引入到FGIC任务中。介绍了FGIC任务所面临的挑战,分析了ViT模型及其特性。主要根据模型结构全面综述了基于ViT的FGIC算法,包括特征提取、特征关系构建、特征注意和特征增强四方面内容,对每种算法进行了总结,并分析了它们的优缺点。通过对不同ViT模型在相同公用数据集上进行模型性能比较,以验证它们在FGIC任务上的有效性。最后指出了目前研究的不足,并提出未来研究方向,以进一步探索ViT在FGIC中的潜力。 展开更多
关键词 细粒度图像分类 vision transformer 特征提取 特征关系构建 特征注意 特征增强
在线阅读 下载PDF
基于EfficientDet与Vision Transformer的接触网吊弦故障检测 被引量:7
18
作者 卞建鹏 薛秀茹 +2 位作者 崔跃华 徐皓 鲁一铭 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第6期2340-2349,共10页
针对传统检测方法在铁路接触网吊弦故障状态检测中存在识别率低,识别速度慢的问题,提出一种基于轻量型网络EfficientDet与Vision Transformer网络相结合的接触网吊弦状态检测算法。该算法包括目标定位和分类检测2个部分,利用改进Efficie... 针对传统检测方法在铁路接触网吊弦故障状态检测中存在识别率低,识别速度慢的问题,提出一种基于轻量型网络EfficientDet与Vision Transformer网络相结合的接触网吊弦状态检测算法。该算法包括目标定位和分类检测2个部分,利用改进EfficientDet进行吊弦定位,将定位出的吊弦送入改进Vision Transformer网络进行故障类别检测。首先,使用空洞卷积替代EfficientDet网络中第2层和第3层的普通卷积,以扩大感受野,并用CBAM代替原网络中的SE注意力机制,汇聚吊弦的高层语义信息,使得改进后的EfficientDet能有效定位出接触网中尺寸占比较小的吊弦;其次,为减少参数量并保留较大范围的特征相关性,应用4个3×3的小卷积替代Vision Transformer中Embedding的16×16的卷积层,以深度提取浅层与深层特征之间的联系,同时对比当Num-head取值不同时,分析注意力机制对空间信息的影响,以确定吊弦故障分类检测的最优模型;最后分别与定位网络YOLOv3,Faster R-CNN和分类网络AlexNet,VGG16进行对比分析,吊弦定位模型的准确率为95.2%,实时速率为31帧/s,故障检测模型的准确率达到98.6%,实时速率为28帧/s。实验表明所提出的算法能够快速准确地检测出小目标吊弦的故障状态,有效地提高了铁路接触网智能巡检的效率。 展开更多
关键词 接触网吊弦故障检测 EfficientDet vision transformer 智能巡检
在线阅读 下载PDF
优化ViT用于黑色素瘤分类:特征筛选与InfoNCE损失的结合
19
作者 黄金杰 马媛雪 《光学精密工程》 北大核心 2025年第16期2649-2660,共12页
针对Vision Transformer(ViT)在黑色素瘤图像分类中存在的特征冗余和泛化能力不足问题,提出一种融合动态特征筛选与对比学习的改进模型,以提升分类精度与临床诊断效率。首先,设计动态特征筛选模块,通过可学习的权重矩阵自适应强化关键... 针对Vision Transformer(ViT)在黑色素瘤图像分类中存在的特征冗余和泛化能力不足问题,提出一种融合动态特征筛选与对比学习的改进模型,以提升分类精度与临床诊断效率。首先,设计动态特征筛选模块,通过可学习的权重矩阵自适应强化关键特征并抑制冗余信息;其次,引入InfoNCE对比损失函数,联合交叉熵损失构建多目标优化框架,增强类间特征区分度;最后,在多头自注意力机制中嵌入关键特征引导机制,实现局部细节与全局语义的协同建模。在ISIC2018和ISIC2019数据集上的实验结果表明:改进模型分类准确率分别达到83.27%和80.17%,较基线ViT模型提升1.83%和0.49%;消融实验验证动态筛选模块减少18.7%冗余计算量,对比学习使类内特征相似度提升23.6%。所提方法显著提高了ViT模型对黑色素瘤的识别能力,分类精度与鲁棒性优于主流模型,为皮肤癌早期诊断提供了高精度、低冗余的自动化解决方案,具有一定的临床实用价值。 展开更多
关键词 图像分类 特征筛选 InfoNCE损失函数 vit模型
在线阅读 下载PDF
基于改进Vision Transformer网络的农作物病害识别方法 被引量:10
20
作者 王杨 李迎春 +6 位作者 许佳炜 王傲 马唱 宋世佳 谢帆 赵传信 胡明 《小型微型计算机系统》 CSCD 北大核心 2024年第4期887-893,共7页
基于DCNN模型的农作物病害识别方法在实验室环境下识别准确率高,但面对噪声时缺少鲁棒性.为了兼顾农作物病害识别的精度和鲁棒性,本文在标准ViT模型基础上加入增强分块序列化和掩码多头注意力,解决标准ViT模型缺乏局部归纳偏置和视觉特... 基于DCNN模型的农作物病害识别方法在实验室环境下识别准确率高,但面对噪声时缺少鲁棒性.为了兼顾农作物病害识别的精度和鲁棒性,本文在标准ViT模型基础上加入增强分块序列化和掩码多头注意力,解决标准ViT模型缺乏局部归纳偏置和视觉特征序列的自注意力过于关注自身的问题.实验结果表明,本文的EPEMMSA-ViT模型对比标准ViT模型可以更高效的从零学习;当添加预训练权重训练网络时,EPEMMSA-ViT模型在数据增强的PlantVillage番茄子集上能够得到99.63%的分类准确率;在添加椒盐噪声的测试数据集上,对比ResNet50、DenseNet121、MobileNet和ConvNeXt的分类准确率分别提升了6.08%、9.78%、29.78%和12.41%;在添加均值模糊的测试数据集上,对比ResNet50、DenseNet121、MobileNet和ConvNeXt的分类准确率分别提升了18.92%、31.11%、20.37%和19.58%. 展开更多
关键词 农作物病害识别 深度卷积神经网络 视觉transformer 自注意力 局部归纳偏置
在线阅读 下载PDF
上一页 1 2 37 下一页 到第
使用帮助 返回顶部