期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
基于改进Vision Transformer的水稻叶片病害图像识别
1
作者 朱周华 周怡纳 +1 位作者 侯智杰 田成源 《电子测量技术》 北大核心 2025年第10期153-160,共8页
水稻叶片病害智能识别在现代农业生产中具有重要意义。针对传统Vision Transformer网络缺乏归纳偏置,难以有效捕捉图像局部细节特征的问题,提出了一种改进的Vision Transformer模型。该模型通过引入内在归纳偏置,增强了对多尺度上下文... 水稻叶片病害智能识别在现代农业生产中具有重要意义。针对传统Vision Transformer网络缺乏归纳偏置,难以有效捕捉图像局部细节特征的问题,提出了一种改进的Vision Transformer模型。该模型通过引入内在归纳偏置,增强了对多尺度上下文以及局部与全局依赖关系的建模能力,同时降低了对大规模数据集的需求。此外,Vision Transformer中的多层感知器模块被Kolmogorov-Arnold网络结构取代,从而提升了模型对复杂特征的提取能力和可解释性。实验结果表明,所提模型在水稻叶片病害识别任务中取得了优异的性能,识别准确率达到了98.62%,较原始ViT模型提升了6.2%,显著提高了对水稻叶片病害的识别性能。 展开更多
关键词 水稻叶片病害 图像识别 vision Transformer网络 归纳偏置 局部特征
在线阅读 下载PDF
Vision Transformer深度学习模型在前列腺癌识别中的价值
2
作者 李梦娟 金龙 +2 位作者 尹胜男 计一丁 丁宁 《中国医学计算机成像杂志》 北大核心 2025年第3期396-401,共6页
目的:旨在探讨Vision Transformer(ViT)深度学习模型在前列腺癌(PCa)识别中的应用价值.方法:回顾性分析了480例接受磁共振成像(MRI)检查的患者影像资料.采用TotalSegmentator模型自动分割前列腺区域,通过ViT深度学习方法分别构建基于T2... 目的:旨在探讨Vision Transformer(ViT)深度学习模型在前列腺癌(PCa)识别中的应用价值.方法:回顾性分析了480例接受磁共振成像(MRI)检查的患者影像资料.采用TotalSegmentator模型自动分割前列腺区域,通过ViT深度学习方法分别构建基于T2加权像(T2WI)、基于表观弥散系数(ADC)图和基于两者结合的三个ViT模型.结果:在PCa的识别能力上,结合模型在训练组和测试组上的受试者工作特征(ROC)曲线下面积(AUC)分别为0.961和0.980,优于仅基于单一成像序列构建的ViT模型.在基于单一序列构建的ViT模型中,基于ADC图的模型相较于基于T2WI的模型表现更佳.此外,决策曲线分析显示结合模型提供了更大的临床效益.结论:ViT深度学习模型在前列腺癌识别中具有较高的诊断准确性和潜在价值. 展开更多
关键词 vision Transformer 深度学习 前列腺癌 自动分割 磁共振成像
在线阅读 下载PDF
基于改进Vision Transformer的遥感图像分类研究
3
作者 李宗轩 冷欣 +1 位作者 章磊 陈佳凯 《林业机械与木工设备》 2025年第6期31-35,共5页
通过遥感图像分类能够快速有效获取森林区域分布,为林业资源管理监测提供支持。Vision Transformer(ViT)凭借优秀的全局信息捕捉能力在遥感图像分类任务中广泛应用。但Vision Transformer在浅层特征提取时会冗余捕捉其他局部特征而无法... 通过遥感图像分类能够快速有效获取森林区域分布,为林业资源管理监测提供支持。Vision Transformer(ViT)凭借优秀的全局信息捕捉能力在遥感图像分类任务中广泛应用。但Vision Transformer在浅层特征提取时会冗余捕捉其他局部特征而无法有效捕获关键特征,并且Vision Transformer在将图像分割为patch过程中可能会导致边缘等细节信息的丢失,从而影响分类准确性。针对上述问题提出一种改进Vision Transformer,引入了STA(Super Token Attention)注意力机制来增强Vision Transformer对关键特征信息的提取并减少计算冗余度,还通过加入哈尔小波下采样(Haar Wavelet Downsampling)在减少细节信息丢失的同时增强对图像不同尺度局部和全局信息的捕获能力。通过实验在AID数据集上达到了92.98%的总体准确率,证明了提出方法的有效性。 展开更多
关键词 遥感图像分类 vision Transformer 哈尔小波下采样 STA注意力机制
在线阅读 下载PDF
ViT-Count:面向冠层遮挡的Vision Transformer树木计数定位方法
4
作者 张乔一 张瑞 霍光煜 《北京林业大学学报》 北大核心 2025年第10期128-138,共11页
【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图... 【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图像中全局上下文信息方面具有天然优势,尤其适用于形态多变的复杂环境。设计针对树木的视觉提示调优VPT机制,其通过在特征中注入可学习提示(prompts),优化模型在林地高密度树冠、光照变化及不同树种结构下的特征提取能力,提高对不同林分类型的适应性。设计卷积模块的注意力机制模块,利用其在局部感知基础上的长距离依赖建模能力,有效强化模型对树木遮挡、重叠及形态相似目标的辨别能力,提高整体检测的鲁棒性与准确性。设计一个树木检测解码器,通过多层卷积、归一化、GELU激活与上采样操作逐步还原空间分辨率,以生成的目标密度图实现树木计数与定位。【结果】该方法在提升森林、城市场景下的树木检测鲁棒性的同时,增强了模型在多尺度树木目标上的泛化能力。在Larch Casebearer数据集和Urban Tree数据集上进行的实验显示,与其他主流模型相比,该方法的MAE和RMSE最多分别降低了2.53、3.99,表明其泛化能力更强,具有最优的树木检测性能。可视化实验结果表明,在密集森林场景和复杂城市场景中,所提模型均具有较高的树木检测准确率。消融实验的结果证明了模型主要模块的有效性。【结论】基于Vision Transformer的面向复杂场景的树木计数与定位方法能够充分发挥ViT的全局建模能力及视觉提示调优机制任务适应性,结合卷积模块的注意力机制,有效提升复杂场景树木计数与定位的精度与鲁棒性。 展开更多
关键词 目标识别 树木计数 树木定位 复杂场景 vision Transformer(ViT) 视觉提示调优(VPT) 注意力机制
在线阅读 下载PDF
融合Vision Transformer与3D CNN的深度伪造视频篡改检测
5
作者 孙立信 吴永飞 +2 位作者 李心宇 任杰煌 刘西林 《计算机应用与软件》 北大核心 2025年第11期121-127,共7页
Deepfake技术的出现,使人们可以轻松地对人脸视频进行篡改,对社会造成巨大的危害。现有的篡改检测方法主要侧重于视频帧间的局部人脸区域空间特征变化检测,并没有考虑连续全局区域的时域特征,且不能检测视频帧中的细微空域特征变化。针... Deepfake技术的出现,使人们可以轻松地对人脸视频进行篡改,对社会造成巨大的危害。现有的篡改检测方法主要侧重于视频帧间的局部人脸区域空间特征变化检测,并没有考虑连续全局区域的时域特征,且不能检测视频帧中的细微空域特征变化。针对此问题,提出融合Vision Transformer和3D CNN的视频篡改检测方法ViT-3DCNN。该方法无需对人脸进行裁剪,直接学习视频帧间的连续时域特征以及每一帧的空间特征。实验结果表明,不依赖于人脸剪裁的情况下,ViT-3DCNN模型分别在DFDC数据集及Celeb-DF数据集上取得了93.3%与90.65%的分类准确性,充分验证了该模型在检测精度和泛化性等方面相较于现有检测方法具有明显的优势。 展开更多
关键词 伪造视频篡改检测 时空特征 vision Transformer 3D卷积
在线阅读 下载PDF
基于Vision Transformer的小麦病害图像识别算法 被引量:3
6
作者 白玉鹏 冯毅琨 +3 位作者 李国厚 赵明富 周浩宇 侯志松 《中国农机化学报》 北大核心 2024年第2期267-274,共8页
小麦白粉病、赤霉病和锈病是危害小麦产量的三大病害。为提高小麦病害图像的识别准确率,构建一种基于Vision Transformer的小麦病害图像识别算法。首先,通过田间拍摄的方式收集包含小麦白粉病、赤霉病和锈病3种病害在内的小麦病害图像,... 小麦白粉病、赤霉病和锈病是危害小麦产量的三大病害。为提高小麦病害图像的识别准确率,构建一种基于Vision Transformer的小麦病害图像识别算法。首先,通过田间拍摄的方式收集包含小麦白粉病、赤霉病和锈病3种病害在内的小麦病害图像,并对原始图像进行预处理,建立小麦病害图像识别数据集;然后,基于改进的Vision Transformer构建小麦病害图像识别算法,分析不同迁移学习方式和数据增强对模型识别效果的影响。试验可知,全参数迁移学习和数据增强能明显提高Vision Transformer模型的收敛速度和识别精度。最后,在相同时间条件下,对比Vision Transformer、AlexNet和VGG16算法在相同数据集上的表现。试验结果表明,Vision Transformer模型对3种小麦病害图像的平均识别准确率为96.81%,相较于AlexNet和VGG16模型识别准确率分别提高6.68%和4.94%。 展开更多
关键词 小麦病害 vision Transformer 迁移学习 图像识别 数据增强
在线阅读 下载PDF
细粒度图像分类上Vision Transformer的发展综述 被引量:7
7
作者 孙露露 刘建平 +3 位作者 王健 邢嘉璐 张越 王晨阳 《计算机工程与应用》 CSCD 北大核心 2024年第10期30-46,共17页
细粒度图像分类(fine-grained image classification,FGIC)一直是计算机视觉领域中的重要问题。与传统图像分类任务相比,FGIC的挑战在于类间对象极其相似,使任务难度进一步增加。随着深度学习的发展,Vision Transformer(ViT)模型在视觉... 细粒度图像分类(fine-grained image classification,FGIC)一直是计算机视觉领域中的重要问题。与传统图像分类任务相比,FGIC的挑战在于类间对象极其相似,使任务难度进一步增加。随着深度学习的发展,Vision Transformer(ViT)模型在视觉领域掀起热潮,并被引入到FGIC任务中。介绍了FGIC任务所面临的挑战,分析了ViT模型及其特性。主要根据模型结构全面综述了基于ViT的FGIC算法,包括特征提取、特征关系构建、特征注意和特征增强四方面内容,对每种算法进行了总结,并分析了它们的优缺点。通过对不同ViT模型在相同公用数据集上进行模型性能比较,以验证它们在FGIC任务上的有效性。最后指出了目前研究的不足,并提出未来研究方向,以进一步探索ViT在FGIC中的潜力。 展开更多
关键词 细粒度图像分类 vision Transformer 特征提取 特征关系构建 特征注意 特征增强
在线阅读 下载PDF
基于改进Vision Transformer的道岔故障智能诊断 被引量:3
8
作者 王英琪 李刚 +1 位作者 胡启正 杨勇 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2024年第10期4321-4333,共13页
道岔故障种类繁多,特征复杂,存在检测难、分类难等问题,导致故障排查效率低下,对铁路运输安全构成威胁。Vision Transformer模型在图像分类方面具有较高准确度,但是其处理的是图像块,而不是传统的像素级特征,在某些情况下可能会影响曲... 道岔故障种类繁多,特征复杂,存在检测难、分类难等问题,导致故障排查效率低下,对铁路运输安全构成威胁。Vision Transformer模型在图像分类方面具有较高准确度,但是其处理的是图像块,而不是传统的像素级特征,在某些情况下可能会影响曲线局部信息的获取。针对上述情况,提出一种基于改进Vision Transformer模型的故障曲线分类算法。首先,对典型道岔故障及原因进行梳理分类,指出几种典型的道岔故障;其次,对使用道岔动作电流数据生成的图像尺寸进行调整并根据故障图像特点进行数据增强,使用ResNet网络取代原Vision Transformer模型中的故障图像分块机制进行特征提取,同时采用相对位置编码增强模型的适应性和泛化能力;最后,利用模型的多头自注意力机制,综合全局与局部信息进行分类,并得到分类权重。经过实验验证,本文道岔故障分类识别总体准确率达99.77%,各分类识别的平均精确率达99.78%,与原模型相比,在训练集和验证集上的识别精度分别提升了5.4%和2.4%。为了更好地理解模型的性能,采用Grad-CAM方法将迭代过程可视化,剖析了模型关注区域的变化过程,并在测试集上与VGG-16、DenseNet121等经典分类模型进行性能对比;通过ROC曲线评估分类效果,显示改进的模型取得更优结果。研究结果为道岔故障识别分类提供了新的理论支持,并为未来的研究提供了新的思路和方法。 展开更多
关键词 深度学习 图像分类 道岔故障识别 vision Transformer
在线阅读 下载PDF
基于Vision Transformer与迁移学习的裤装廓形识别与分类
9
作者 应欣 张宁 申思 《丝绸》 CAS CSCD 北大核心 2024年第11期77-83,共7页
针对裤装廓形识别与分类模型的分类不准确问题,文章采用带有自注意力机制的Vision Transformer模型实现裤装廓形图像的分类,对于图片背景等无关信息对廓形识别的干扰,添加自注意力机制,增强有用特征通道。为防止因裤型样本数据集较少产... 针对裤装廓形识别与分类模型的分类不准确问题,文章采用带有自注意力机制的Vision Transformer模型实现裤装廓形图像的分类,对于图片背景等无关信息对廓形识别的干扰,添加自注意力机制,增强有用特征通道。为防止因裤型样本数据集较少产生过拟合问题,可通过迁移学习方法对阔腿裤、喇叭裤、紧身裤、哈伦裤4种裤装廓形进行训练和验证,将改进的Vision Transformer模型与传统CNN模型进行对比实验,验证模型效果。实验结果表明:使用Vision Transformer模型在4种裤装廓形分类上的分类准确率达到97.72%,与ResNet-50和MobileNetV2模型相比均有提升,可为服装廓形的图像分类识别提供有力支撑,在实际服装领域中有较高的使用价值。 展开更多
关键词 裤装廓形 自注意力机制 vision transformer 迁移学习 图像分类 廓形识别
在线阅读 下载PDF
一种探地雷达与深度学习的隧道衬砌健康评价方法 被引量:1
10
作者 张广伟 《测绘通报》 北大核心 2025年第3期122-126,149,共6页
隧道在其服役期内,受多种因素影响,隧道壁后会产生空洞、不密实等多种结构病害,影响服役性能,探地雷达(GPR)无损检测技术广泛应用于隧道质量检测领域,但由于雷达数据的解译工作较为复杂,数据量大,检测效率有待提高。近年来,深度学习因... 隧道在其服役期内,受多种因素影响,隧道壁后会产生空洞、不密实等多种结构病害,影响服役性能,探地雷达(GPR)无损检测技术广泛应用于隧道质量检测领域,但由于雷达数据的解译工作较为复杂,数据量大,检测效率有待提高。近年来,深度学习因其出色的数据处理能力和信息提取能力而备受瞩目,提供了多种高效、可靠的病害分类模型。本文基于GPR图像,提出了一种多级病害分类方法用于评估隧道衬砌健康状况。首先,获取雷达图像数据,并进行人工解译,创建样本数据库,用于模型的输入和输出,以训练和测试深度学习模型;然后,针对数据库的小样本特点,利用Vision Transformer网络和改进后的Compact Convolutional Transformer对数据进行分类。结果显示,Vision Transformer算法可以实现基于雷达影像的隧道衬砌健康评价,相较于其他版本,具有更好的结果及较高的准确率。 展开更多
关键词 探地雷达 神经网络 vision Transformer 隧道衬砌健康评价
在线阅读 下载PDF
基于多尺度空间-光谱特征提取的颜料高光谱图像分类方法
11
作者 汤斌 罗希玲 +6 位作者 王建旭 范文奇 孙玉宇 刘家路 唐欢 赵雅 钟年丙 《光谱学与光谱分析》 北大核心 2025年第8期2364-2372,共9页
颜料不仅赋予文物色彩和美感,更承载着丰富的历史、文化与技术信息,因此对颜料的准确分类与识别是古代彩绘作品修复、保护及学术研究的重要基础。通过检测颜料的种类与化学成分,不仅能帮助确定作品的创作年代、地域特征及工艺风格,还能... 颜料不仅赋予文物色彩和美感,更承载着丰富的历史、文化与技术信息,因此对颜料的准确分类与识别是古代彩绘作品修复、保护及学术研究的重要基础。通过检测颜料的种类与化学成分,不仅能帮助确定作品的创作年代、地域特征及工艺风格,还能为科学修复提供指导依据。然而,传统颜料分析受限于样品尺寸、表面平整度,且部分分析方法需要取样,对文物造成不可逆损伤,这使得古书画颜料的检测面临诸多挑战。高光谱成像技术(HSI)凭借其无损检测、广域扫描及获取完整光谱信息的优势,成为文物颜料分析的重要工具。HSI克服了样品表面不平整、尺寸受限等问题,能够从不同波段获取细致的光谱和空间信息,帮助提取颜料的微观特征。旨在利用HSI技术实现古书画颜料的精准分类与深度特征提取,以应对复杂场景下的颜料检测挑战。为此,我们提出了一种多尺度空间-光谱特征融合的方法,在分析过程中结合不同层次的信息:利用光谱-空间注意力机制捕捉细节特征,并通过视觉转换器(ViT)模型获取图像整体的高层语义信息,从而增强对复杂颜料特征的表示能力和分类性能。实验结果表明,该方法在模拟画作样品上的分类性能显著优于传统和其他深度学习模型:与支持向量机(SVM)相比,分类精度提升了34.35%;相较于HyBridSN与SSRN模型,精度分别提高了8.93%和5.6%。本方法不仅提升了颜料检测的准确性,还为古书画的科学修复和价值保护提供了无损、可靠的技术支持,并为文物保护的智能化发展奠定了技术基础。 展开更多
关键词 高光谱成像 多尺度特征融合 vision Transformer 光谱-空间注意力 颜料分类
在线阅读 下载PDF
基于ViT网络模型自注意力机制的干扰类型分布式识别方法
12
作者 王珣 吴志强 刘明骞 《兵工学报》 北大核心 2025年第S1期356-368,共13页
针对传统集中式大功率干扰在现代通信对抗中存在覆盖有限、易被定位等问题,提出一种基于空海一体化架构的分布式通信干扰信号识别方法。该方法通过构建空海协同电子对抗体系,由空中无人机采集干扰信号,海上信息处理中心进行多源信号融... 针对传统集中式大功率干扰在现代通信对抗中存在覆盖有限、易被定位等问题,提出一种基于空海一体化架构的分布式通信干扰信号识别方法。该方法通过构建空海协同电子对抗体系,由空中无人机采集干扰信号,海上信息处理中心进行多源信号融合与特征提取,并设计融合多微信号表征的多阶段Vision Transformer识别模型,实现干扰信号的自动识别与分类。实验结果表明:该方法能够有效提升干扰信号的识别精度与效率,为通信系统的抗干扰决策提供支持。研究结论显示,该方法能够有效提升分布式通信干扰信号的识别精度与效率,具备较强的鲁棒性和适应性,能够满足现代战场对快速识别干扰信号的需求,并为分布式通信干扰技术的工程化应用提供新的可行路径,为空海一体化电子对抗体系的构建奠定技术基础。 展开更多
关键词 分布式通信干扰 空海一体化 信号识别 vision Transformer
在线阅读 下载PDF
关键区域鉴别联合多粒度知识蒸馏的细粒度图像分类
13
作者 余鹰 王景辉 +1 位作者 危伟 钱进 《小型微型计算机系统》 北大核心 2025年第8期1960-1967,共8页
近年来,随着深度学习技术的飞速发展,研究人员开始尝试将Vision Transformer(ViT)应用于细粒度图像分类.然而,尽管ViT的多头自注意力机制赋予了模型强大的全局信息捕捉能力,但在关注局部微小且判别力强的区域上仍显不足,这在一定程度上... 近年来,随着深度学习技术的飞速发展,研究人员开始尝试将Vision Transformer(ViT)应用于细粒度图像分类.然而,尽管ViT的多头自注意力机制赋予了模型强大的全局信息捕捉能力,但在关注局部微小且判别力强的区域上仍显不足,这在一定程度上限制了其在细粒度图像分类任务中的表现.为了解决这一问题,本文提出了一种高效且平滑地融合多层自注意力权重的方法,以深入挖掘图像的局部判别特征,从而弥补传统ViT模型在细节信息捕捉上的不足,增强模型对图像细微特征的敏感性.此外,本文构建了助理教师网络来指导学生网络学习多种粒度的特征信息,进一步提升其捕捉细微特征的能力.为了验证所提出模型的有效性,本文在多个基准数据集上进行了实验.结果表明,该模型显著优于传统ViT模型,展现了强大的局部特征捕捉能力和优异的分类性能. 展开更多
关键词 细粒度图像分类 自注意力机制 知识蒸馏 vision transformer 关键区域鉴别
在线阅读 下载PDF
基于ViT语义指导与结构感知增强的艺术风格迁移 被引量:1
14
作者 潘书煜 赵征鹏 +3 位作者 阳秋霞 普园媛 谷金晶 徐丹 《计算机学报》 北大核心 2025年第9期2131-2158,共28页
艺术风格迁移是计算机视觉领域一个长期的研究热点,该任务旨在将参考风格图像的艺术风格迁移到内容图像中,同时保持内容图像的语义结构不变。目前基于深度学习的艺术风格迁移方法依然面临一项主要挑战:现有方法在迁移过程中无法很好地... 艺术风格迁移是计算机视觉领域一个长期的研究热点,该任务旨在将参考风格图像的艺术风格迁移到内容图像中,同时保持内容图像的语义结构不变。目前基于深度学习的艺术风格迁移方法依然面临一项主要挑战:现有方法在迁移过程中无法很好地保持内容域到风格域的语义结构跨域一致性,从而导致风格化结果的内容保真度低、风格化不一致。针对以上问题,本文提出了一种基于ViT(Vision Transformer)语义指导与结构感知增强的艺术风格迁移方法。首先,利用预训练的DINO-ViT模型在内容域和风格域建立强大且一致的内容结构表示,并设计了两种损失函数:(1)DINO keys自相似性的语义结构损失,以保持内容源的跨域一致性;(2)DINO特征空间的知识蒸馏损失,以提升编码器的特征提取能力。其次,为进一步增强模型的结构感知能力,提出了基于拉普拉斯算子的空间结构损失和基于小波变换的频域纹理损失,从空间域和频率域两方面增强了对边缘轮廓与细致纹理的约束。在通用数据集MS COCO和WikiArt上的定性与定量结果表明,本文方法不仅可以产生内容保真度高、风格化一致的结果,还能推广应用于现有方法以进一步改善生成结果的视觉质量。其中,与基线方法CAP-VST相比,本文方法的SSIM值提升0.079,CLIP-IQA值提升0.024,LPIPS值小0.096,Content Loss值小1.035;将本文方法应用于其他现有方法后,SSIM值最优提升0.135,CLIP-IQA值最优提升0.011,LPIPS值最优小0.108,Content Loss值最优小1.244,证明了本文方法在艺术风格迁移任务中的有效性与灵活性。 展开更多
关键词 艺术风格迁移 vision Transformer 知识蒸馏 结构感知 拉普拉斯算子 小波变换
在线阅读 下载PDF
视觉Transformer(ViT)发展综述 被引量:8
15
作者 李玉洁 马子航 +2 位作者 王艺甫 王星河 谭本英 《计算机科学》 北大核心 2025年第1期194-209,共16页
视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对... 视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。 展开更多
关键词 计算机视觉 模式识别 vision Transformer(ViT) 深度学习 自注意力
在线阅读 下载PDF
基于图-文自适应加权融合的多模态胎儿辅助诊断系统
16
作者 张玲 赵治栋 +3 位作者 张烨菲 焦鹏飞 邓艳军 张显飞 《中国生物医学工程学报》 北大核心 2025年第5期560-569,共10页
由于缺氧导致的窘迫或酸中毒会导致胎儿器官受损甚至死亡等不可挽回的后果。智能胎心宫缩监护(ICTG)可连续、同步记录胎心率(FHR)信号,评估胎儿状况并识别早期风险,是孕晚期监测胎儿健康的重要工具。传统的ICTG算法或聚焦于原始的FHR信... 由于缺氧导致的窘迫或酸中毒会导致胎儿器官受损甚至死亡等不可挽回的后果。智能胎心宫缩监护(ICTG)可连续、同步记录胎心率(FHR)信号,评估胎儿状况并识别早期风险,是孕晚期监测胎儿健康的重要工具。传统的ICTG算法或聚焦于原始的FHR信号特征提取,或只依据FHR的形态学参数,忽视了临床因素的影响以及不同模态数据间的互补性。本研究提出了图-文融合的胎儿辅助诊断模型(Multi-FHRNet)。根据临床生理信息结合FHR信号形态学特征构建文本模态数据,并通过马尔可夫转移场实现一维信号到二维图片的转换,构建出更为丰富的图-文双模态数据;设计两个不同的编码器:基于Vision Transformer的图片编码器与基于卷积神经网络的文本编码器,分别提取图片特征与文本特征;提出特征向量随机赋权重代替直接拼接的方法,获得多模态信息特征。经200组网络公开临床实测FHR数据,从参数优化、模型选择多角度进行了多项性能对比实验,Multi-FHRNet实现了最高达96.02%的异常识别准确率,且查准率、查全率、F1分数、曲线下面积分别为93.10%、99.29%、95.45%、93.48%,优于传统单模态算法。所提出算法可为智能化的胎儿监护实现提供理论基础和技术支撑。 展开更多
关键词 智能胎儿辅助诊断 胎心率信号 多模态学习 自适应权重 vision Transformer(ViT)
在线阅读 下载PDF
融合ViT和通道注意力的水稻病害识别技术研究 被引量:2
17
作者 涂雪滢 张佳鹏 +1 位作者 钱程 刘世晶 《农业与技术》 2025年第7期69-74,共6页
水稻产量和质量对农业经济、粮食安全、农民收入及生态环境至关重要,而水稻病害是影响其产量和质量的关键因素之一。为提升实际种植场景下的病害识别准确率,本文提出了一种融合Vision Transformer和通道注意力机制的水稻病害识别方法。... 水稻产量和质量对农业经济、粮食安全、农民收入及生态环境至关重要,而水稻病害是影响其产量和质量的关键因素之一。为提升实际种植场景下的病害识别准确率,本文提出了一种融合Vision Transformer和通道注意力机制的水稻病害识别方法。收集田间拍摄的水稻病害图像,并通过翻转、旋转、缩放等数据增强手段丰富样本多样性。针对病斑特征在图像中尺度变化大、形态复杂、局部与全局关联困难的问题,采用Vision Transformer作为基础框架,捕捉局部特征与全局信息,并融入通道注意力机制,提升模型对重要特征的关注度。引入迁移学习策略及学习率调度器,提升在样本不足情况下的识别精度并优化模型收敛速度。实验结果表明,本文方法识别精度达96.93%,相比AlexNet、VGG16、ResNet50及原始Vision Transformer,准确率分别提高4.95%、4.62%、1.91%和1.16%,且收敛速度更快,能够满足水稻病害识别需求,为其提供有效的技术支持。 展开更多
关键词 水稻病害 图像识别 vision Transformer 通道注意力机制
在线阅读 下载PDF
用于医学图像分割的半监督对抗自集成网络
18
作者 黄子臻 王雷 +1 位作者 张玉坤 李彬 《计算机辅助设计与图形学学报》 北大核心 2025年第8期1405-1414,共10页
为了克服传统的U-Net网络在医学图像分割中存在的无法有效地提取上下文信息、固定的感受野受限制等问题,提出一种半监督对抗自集成网络,其由分割网络和判别网络2部分组成.前者采用卷积神经网络和Vision Transformer相结合的半监督学习策... 为了克服传统的U-Net网络在医学图像分割中存在的无法有效地提取上下文信息、固定的感受野受限制等问题,提出一种半监督对抗自集成网络,其由分割网络和判别网络2部分组成.前者采用卷积神经网络和Vision Transformer相结合的半监督学习策略;后者采用对抗一致性训练策略,利用2个基于一致性学习的判别器获取标记和未标记数据之间的先验关系;引入基于注意力的动态卷积,能够根据输入样本的结构信息自适应地调整网络的权重,增强特征表示能力并降低过拟合风险.在ACDC,LA和Pancreas这3个经典数据集上比较5种网络的实验结果表明,所提网络在Dice系数、Jaccard系数、Hausdorff距离和平均表面距离分别提高了3.4%~3.9%,2.9%~4.0%,43.5%~53.4%,65.1%~68.7%,尤其是在使用较少标记数据的情况下,实现了更好的分割结果. 展开更多
关键词 医学图像分割 vision Transformer 半监督学习 对抗一致性训练 动态卷积
在线阅读 下载PDF
ViTFFN模型在航空发动机剩余使用寿命预测中的应用
19
作者 张诺飞 王秀青 +2 位作者 王铮 叶晓雅 杜文霞 《重庆理工大学学报(自然科学)》 北大核心 2025年第9期108-116,共9页
提出一种结合Vision Transformer(ViT)和特征融合层次网络的RUL概率预测模型(vision transformer and feature fusion hierarchical network,ViTFFN)。ViT准确捕捉输入数据序列中的长期依赖关系和关键特征,特征融合层次网络(feature fus... 提出一种结合Vision Transformer(ViT)和特征融合层次网络的RUL概率预测模型(vision transformer and feature fusion hierarchical network,ViTFFN)。ViT准确捕捉输入数据序列中的长期依赖关系和关键特征,特征融合层次网络(feature fusion hierarchical network,FFHN)充分挖掘多尺度信息和上下文互补信息,并利用概率方法预测航空发动机RUL的置信区间,充分预测可能出现的结果。实验结果表明,所提ViTFFN模型在C-MAPSS数据集的FD002数据子集上的RMSE值和Score值为16.89和1489.36,均低于LSTM、DCNN等方法;对于FD004数据集,RMSE值为20.10。在FD001和FD003数据集上,ViTFFN模型与MSDCNN-LSTM、CACNN-Transformer等方法具备同等RUL预测结果,RMSE值分别为12.16和12.08。相比IDMFFN、MCLSTM等方法,ViTFFN模型具有更高的预测准确性,为航空发动机RUL预测提供了有效方法。 展开更多
关键词 剩余使用寿命预测 vision Transformer 多尺度特征融合 航空发动机 深度学习
在线阅读 下载PDF
基于多任务注意力机制的无参考屏幕内容图像质量评价算法
20
作者 周子镱 董武 +3 位作者 陆利坤 马倩 侯国鹏 张二青 《光电工程》 北大核心 2025年第4期106-119,共14页
提出一种基于多任务注意力机制的无参考屏幕内容图像质量评价算法(multi-task attention mechanism based no reference quality assessment algorithm for screen content images,MTA-SCI)。MTA-SCI首先使用自注意力机制提取屏幕内容... 提出一种基于多任务注意力机制的无参考屏幕内容图像质量评价算法(multi-task attention mechanism based no reference quality assessment algorithm for screen content images,MTA-SCI)。MTA-SCI首先使用自注意力机制提取屏幕内容图像的全局特征,增强对屏幕内容图像整体信息的表征能力;然后使用综合局部注意力机制提取屏幕内容图像的局部特征,使局部特征能够聚焦于屏幕内容图像中更吸引人注意的细节部分;最后使用双通道特征映射模块预测屏幕内容图像的质量分数。在SCID和SIQAD数据集上,MTA-SCI的斯皮尔曼秩序相关系数(Spearman's rank order correlation coefficient,SRCC)分别达到0.9602和0.9233,皮尔森线性相关系数(Pearson linear correlation coefficient,PLCC)分别达到0.9609和0.9294。实验结果表明,MTA-SCI在预测屏幕内容图像质量任务中具有较高的准确性。 展开更多
关键词 屏幕内容图像 无参考图像质量评价 vision transformer 多级视觉感知特性 注意力机制
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部