期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
使用多尺度递归图和视觉转换器的心律失常分类 被引量:8
1
作者 韩亮 罗统军 +1 位作者 蒲秀娟 刘浩伟 《仪器仪表学报》 EI CAS CSCD 北大核心 2022年第12期149-157,共9页
心电(ECG)信号反映心脏电生理活动状态,其准确分类对于心脏疾病的自动诊断非常重要,为此,提出一种使用多尺度递归图和视觉转换器的心律失常自动分类方法。首先使用小波变换将心电信号分解为低频分量和若干个高频分量,并采用递归图方法... 心电(ECG)信号反映心脏电生理活动状态,其准确分类对于心脏疾病的自动诊断非常重要,为此,提出一种使用多尺度递归图和视觉转换器的心律失常自动分类方法。首先使用小波变换将心电信号分解为低频分量和若干个高频分量,并采用递归图方法将其分别变换为二维纹理图像;然后针对样本不平衡问题,采用多分类Focal loss替代交叉熵损失函数,对视觉转换器模型进行改进;最后基于心电信号的多尺度递归图表示,使用改进的视觉转换器进行心律失常分类。采用MIT-BIH心律失常数据库中的数据进行实验,所提出的心律失常分类方法的平均准确率为97.38%。实验结果表明,提出的方法能有效识别心律失常类型,且其性能明显优于传统的心律失常自动分类方法。 展开更多
关键词 心律失常 多尺度 递归图 视觉转换器 多分类Focal loss
在线阅读 下载PDF
基于视觉转换器和图卷积网络的光学遥感场景分类 被引量:10
2
作者 王嘉楠 高越 +1 位作者 史骏 刘子琦 《光子学报》 EI CAS CSCD 北大核心 2021年第11期306-313,共8页
当前基于卷积神经网络的光学遥感图像场景分类方法大多是全局特征学习,忽略了场景局部特征,从而难以较好地解决类内差异大和类间相似性高的问题,因此,提出一种基于视觉转换器和图卷积网络双分支结构的光学遥感图像场景分类方法。该方法... 当前基于卷积神经网络的光学遥感图像场景分类方法大多是全局特征学习,忽略了场景局部特征,从而难以较好地解决类内差异大和类间相似性高的问题,因此,提出一种基于视觉转换器和图卷积网络双分支结构的光学遥感图像场景分类方法。该方法首先对场景图像进行分块,再利用位置编码和视觉转换器进行特征编码,从而挖掘图像内部的长距离依赖关系。另一方面,对遥感图像进行超像素分割,将每个超像素对应的卷积神经网络特征进行池化处理并作为图结构中的结点,利用图卷积网络对场景内部图结构进行建模,感知场景内部的空间拓扑关系。最终融合两个分支产生的特征形成场景内容的最终特征表示并用于分类。在光学遥感图像数据集上的实验验证了所提方法在遥感场景分类中的有效性。 展开更多
关键词 遥感 场景分类 卷积神经网络 视觉转换器 图卷积网络
在线阅读 下载PDF
基于注意力机制和视觉转换器的三维虚拟试衣网络 被引量:2
3
作者 袁甜甜 王鑫 +3 位作者 罗炜豪 梅琛楠 韦京艳 钟跃崎 《纺织学报》 EI CAS CSCD 北大核心 2023年第7期192-198,共7页
针对三维虚拟试衣网络中易出现的三维人体模型边缘模糊,服装变形严重且存在伪影等问题,设计了三阶段深度神经网络,在第1阶段引入卷积注意力机制,第2阶段采用Resnet和视觉转换器结构结合的编码器-解码器结构,第3阶段通过融合服装变形信... 针对三维虚拟试衣网络中易出现的三维人体模型边缘模糊,服装变形严重且存在伪影等问题,设计了三阶段深度神经网络,在第1阶段引入卷积注意力机制,第2阶段采用Resnet和视觉转换器结构结合的编码器-解码器结构,第3阶段通过融合服装变形信息和深度估计信息实现三维虚拟试衣。定量实验结果表明:图像质量评价指标结构相似度提升了0.0157,峰值信噪比提升了0.1132;人体模型的深度估计值的绝对相对误差降低了0.037,平方相对误差降低了0.014。定性实验结果表明:卷积注意力机制能够引导网络关注图像细节,保留复杂纹理,约束服装的过度形变,并且有效处理三维人体模型黏连问题。定量和定性分析结果均可表明,该方法能够更加精准地实现预测三维虚拟试衣结果。 展开更多
关键词 虚拟试衣 视觉转换器 注意力机制 深度估计 三维重建
在线阅读 下载PDF
特征增强的多尺度视觉转换器在遥感图像场景分类中的应用 被引量:2
4
作者 齐晶 胡敏 张京波 《航天返回与遥感》 CSCD 北大核心 2023年第4期79-87,共9页
传统的基于卷积神经网络的卫星遥感图像场景分类方法忽略了场景图像的全局语义特征以及遥感图像在多个尺度上的鉴别特征。针对此问题,文章在视觉转换器和多尺度特征的基础上,提出了一种基于特征增强型多尺度视觉转换器的遥感图像场景分... 传统的基于卷积神经网络的卫星遥感图像场景分类方法忽略了场景图像的全局语义特征以及遥感图像在多个尺度上的鉴别特征。针对此问题,文章在视觉转换器和多尺度特征的基础上,提出了一种基于特征增强型多尺度视觉转换器的遥感图像场景分类方法。该方法采用双分支结构在2个尺度上对遥感图像进行分块,获取到不同大小的图像块,首先利用位置编码和转换器分别对2个尺度下的图像块进行特征学习,再利用通道注意力机制对转换器输出的图像块进行特征增强,最后将2个尺度上学习出的分类标记和增强后的特征进行融合决策,从而实现遥感图像场景分类。采用国际公开的光学遥感图像数据集AID和NWPU-RESISC45进行实验验证,结果表明该方法在AID数据集的场景分类准确率达到(95.27±0.39)%,在NWPU-RESISC45数据集的场景分类准确率达到(92.50±0.14)%,其分类性能优于CaffeNet、VGG、GoogLeNet和ViT等基准方法。该研究成果提升了模型对全局语义和多尺度特征的感知能力,对于提升卫星遥感图像场景分类技术在土地监测、城市规划等方面的应用具有重要意义。 展开更多
关键词 遥感图像 场景分类 深度学习 视觉转换器 多尺度特征 通道注意力
在线阅读 下载PDF
基于迁移学习和卷积视觉转换器的农作物病害识别研究 被引量:5
5
作者 余胜 谢莉 《中国农机化学报》 北大核心 2023年第8期191-197,共7页
农作物病虫害对粮食生产和质量都有很大影响。针对当前传统的农作物病害识别过程中主要依赖人工特征提取,且真实环境下采集的病害图像样本数目较少,识别方法鲁棒性差、分类准确率偏低等问题,基于迁移学习提出了以卷积操作预处理图像子... 农作物病虫害对粮食生产和质量都有很大影响。针对当前传统的农作物病害识别过程中主要依赖人工特征提取,且真实环境下采集的病害图像样本数目较少,识别方法鲁棒性差、分类准确率偏低等问题,基于迁移学习提出了以卷积操作预处理图像子块的视觉转换器(Vision Transformer,ViT)模型用于农作物病害识别。在ViT模型结构的基础上引入卷积操作对输入图像进行预处理,卷积操作能提高获取底层特征的丰富度,进而在ViT学习过程中通过多头注意力机制,加大有用特征的权重,削弱噪声等无用信息的影响,达到模型提高特征学习能力并增强鲁棒性的目的。试验结果表明,利用迁移学习方法在ibean数据集上能够提升模型的识别准确率10%以上;模型最终在ibean数据集上识别准确率为98.12%,约有2%的提高,在PlantVillage数据集识别准确率为99.91%,都达到了当前最佳识别水平。提出的识别方法在复杂背景干扰下具有较高的识别准确率和鲁棒性,可以满足自然条件下的农作物病害识别的要求。 展开更多
关键词 迁移学习 卷积视觉转换器 病害识别 注意力机制
在线阅读 下载PDF
融合空间相关性和局部特征转换器的遮挡行人重识别 被引量:4
6
作者 朱松豪 赵云斌 焦淼 《南京邮电大学学报(自然科学版)》 北大核心 2022年第5期62-73,共12页
遮挡的行人重识别是计算机视觉中的一个挑战性领域,它面临着特征表示效率低下和识别准确率低等问题。卷积神经网络方法更注重局部特征的提取,因此难以提取被遮挡行人的特征,效果也不尽如人意。最近,视觉转换器被引入到重识别领域,并通... 遮挡的行人重识别是计算机视觉中的一个挑战性领域,它面临着特征表示效率低下和识别准确率低等问题。卷积神经网络方法更注重局部特征的提取,因此难以提取被遮挡行人的特征,效果也不尽如人意。最近,视觉转换器被引入到重识别领域,并通过构建图像块序列之间的全局特征联系取得了最先进的结果。然而,视觉转换器在提取局部特征方面的性能不如卷积神经网络。因此,设计了一个基于空间相关性和局部特征序列的行人重识别网络。所提出的网络利用3个模块来提高视觉转换器的效率:(1)图像块全维度增强模块。设计了一个与图像块序列大小相同的可学习张量,该张量是全维的,并可完全嵌入到图像块序列中,用以丰富训练样本的多样性;(2)图像块序列融合重构模块。提取已经获得的图像块序列中不太重要的部分,并将它们与原始的图像块序列融合以重构原始图像块序列;(3)空间切割模块。从空间方向上对图像块序列进行切片和分组,并引入身份损失,可以有效提高图像块序列的短程相关性。对遮挡和整体重识别数据集的实验结果表明,所提网络的性能优于其他先进方法。 展开更多
关键词 遮挡行人重识别 局部特征 图像块序列 视觉转换器
在线阅读 下载PDF
基于深度学习的导管架海洋平台结构损伤识别
7
作者 严谨 陆建成 +1 位作者 龙洋辉 赵云开 《广东海洋大学学报》 北大核心 2025年第3期136-145,共10页
【目的】实现海洋导管架平台结构损伤智能识别。【方法】基于海洋工程分析软件SACS建立南海涠洲海域11-2 WHPC导管架平台数值模型,通过整合平台结构参数与目标海域环境数据,开展静力学分析以识别结构薄弱构件。基于分析结果,构建了包含... 【目的】实现海洋导管架平台结构损伤智能识别。【方法】基于海洋工程分析软件SACS建立南海涠洲海域11-2 WHPC导管架平台数值模型,通过整合平台结构参数与目标海域环境数据,开展静力学分析以识别结构薄弱构件。基于分析结果,构建了包含384组完好工况和1920组损伤工况的加速度响应数据库。针对结构损伤识别问题,提出一种结合变分模态分解-希尔伯特(VMD-Hilbert)变换和双向长短时记忆(BiLSTM)神经网络的损伤诊断方法。该方法首先通过VMD-Hilbert变换实现信号时频特征提取,随后利用BiLSTM网络挖掘响应信号的深层时序特征。针对传统结构损伤诊断人工特征提取困难和步骤繁琐的问题,提出了一种基于小波散射变换时频图像和视觉转换器(Vision Transformer)的损伤诊断方法,实现结构损伤状态的智能诊断。【结果与结论】通过提取的损伤敏感特征,使用BiLSTM处理时变序列数据,实现了超过92%的分类准确率。基于小波散射变换时频图像和Vision Transformer的方法能够突出损伤前后的特征变化,分类准确率超过96%。通过缩尺模型实验模拟平台损伤状态,收集不同结构状态下的振动信号,经过VMD降噪处理后验证上述两种诊断方法,均能实现良好的损伤分类效果。 展开更多
关键词 导管架海洋平台 结构健康监测 损伤诊断 双向长短时记忆神经网络 视觉转换器
在线阅读 下载PDF
SAM-Retina:基于SAM的双模态视网膜图像动静脉分割
8
作者 许恒宇 陈坤 +2 位作者 徐琳 孙明斋 陆洲 《计算机科学》 北大核心 2025年第10期123-133,共11页
动脉与静脉在RGB视网膜成像中形态高度相似,且其本身结构兼具细微性和复杂性,导致现阶段多数视网膜图像处理所使用的动静脉分割模型难以取得理想效果。为提高动静脉分割的准确性,同时降低训练成本,提出了一种基于SAM(Segment Anything M... 动脉与静脉在RGB视网膜成像中形态高度相似,且其本身结构兼具细微性和复杂性,导致现阶段多数视网膜图像处理所使用的动静脉分割模型难以取得理想效果。为提高动静脉分割的准确性,同时降低训练成本,提出了一种基于SAM(Segment Anything Model)的视网膜分割模型——SAM-Retina。SAM-Retina采用特征融合器-适配型图像编码器-掩码解码器架构,使用同时包含RGB图像以及570 nm和610 nm单波长图像的结构-功能双模态视网膜图像代替原有的单模态(RGB)图像作为输入,利用特征融合器融合这3种图像的特征;通过在视觉转换器中插入Adapter模块并对其加以更新,保留图像编码器在大规模自然图像数据集上的预训练参数;使用静态提示嵌入代替提示编码器,去除原有SAM分割流程中的提示输入过程和提示编码过程。实验阶段将模型在DualModal2019和HRF数据集上进行训练和评估,并与U-Net,CRU-Net和TW-GAN进行对比。结果表明,相较于对比模型,SAM-Retina在各项评估指标上效果更好,尤其是双模态图像的引入,使得在无需扩大模型规模的前提下,有效提升了分割性能。 展开更多
关键词 双模态视网膜图像 动静脉分割 图像编码器 视觉转换器 静态提示嵌入
在线阅读 下载PDF
融合CNN和ViT的声信号轴承故障诊断方法 被引量:11
9
作者 宁方立 王珂 郝明阳 《振动与冲击》 EI CSCD 北大核心 2024年第3期158-163,170,共7页
针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像... 针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像作为卷积神经网络的输入,用于隐式提取图像的深层特征,其输出作为视觉转换器的输入。视觉转换器用于提取信号的时间序列信息。并在输出层利用Softmax函数实现故障模式的识别。试验结果表明,该方法对于轴承故障诊断准确率较高。为了更好解释和优化提出的轴承故障诊断方法,利用t-分布领域嵌入算法对分类特征进行了可视化展示。 展开更多
关键词 短时傅里叶变换 卷积神经网络 视觉转换器 t-分布领域嵌入算法
在线阅读 下载PDF
面向强后处理场景的图像篡改定位模型
10
作者 谭舜泉 廖桂樱 +1 位作者 彭荣煊 黄继武 《通信学报》 EI CSCD 北大核心 2024年第4期146-159,共14页
针对微信、微博等社交平台对图像进行的压缩、尺度拉伸等有损操作带来的篡改痕迹模糊或被破坏的挑战,提出了一种对抗强后处理的图像篡改定位模型。该模型选用了基于Transformer的金字塔视觉转换器作为编码器,用于提取图像的篡改特征。同... 针对微信、微博等社交平台对图像进行的压缩、尺度拉伸等有损操作带来的篡改痕迹模糊或被破坏的挑战,提出了一种对抗强后处理的图像篡改定位模型。该模型选用了基于Transformer的金字塔视觉转换器作为编码器,用于提取图像的篡改特征。同时,设计了一个类UNet结构的端到端编码器-解码器架构。金字塔视觉转换器的金字塔结构和注意力机制可以灵活关注图像的各个区块,结合类UNet结构能够多尺度地提取图像上下文间的关联信息,对强后处理的图像有着较好的鲁棒性。实验结果表明,所提模型在对抗JPEG压缩、高斯模糊等常见的后处理操作以及在不同社交媒体传播场景的数据集上的定位性能上明显优于目前主流的篡改定位模型,展现出了优异的鲁棒性。 展开更多
关键词 强后处理场景 图像篡改定位 鲁棒性 金字塔视觉转换器
在线阅读 下载PDF
基于改进 YOLOv5 的枸杞虫害检测 被引量:4
11
作者 杜丁健 高遵海 陈倬 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第10期1992-2000,共9页
为了检测复杂环境下枸杞的虫害情况,提出基于改进YOLOv5m的模型.以下一代视觉转换器(Next-ViT)作为骨干网络,提高模型的特征提取能力,使模型更加关注关键目标特征.在模型颈部增加自适应融合的上下文增强模块,增强模型对上下文信息的理... 为了检测复杂环境下枸杞的虫害情况,提出基于改进YOLOv5m的模型.以下一代视觉转换器(Next-ViT)作为骨干网络,提高模型的特征提取能力,使模型更加关注关键目标特征.在模型颈部增加自适应融合的上下文增强模块,增强模型对上下文信息的理解与处理能力,提高模型对小目标(蚜虫)的检测精度.将颈部网络中的C3模块替换为C3_Faster模块,减少模型占用量并进一步提高模型检测精度.实验结果表明,所提模型的准确率和召回率分别为97.0%、92.1%,平均精度均值为94.7%;相比于YOLOv5m,所提模型的平均精度均值提高了1.9个百分点,蚜虫的检测平均精度提高了9.4个百分点.对比不同模型的平均精度均值,所提模型比主流模型YOLOv7、YOLOX、DETR、EfficientDet-D1、Cascade R-CNN分别高1.6、1.6、2.8、3.5、1.0个百分点.所提模型在提高检测性能的同时,模型占用量也保持在合理范围内. 展开更多
关键词 枸杞虫害 深度学习 小目标检测 YOLOv5 下一代视觉转换器(Next-ViT)
在线阅读 下载PDF
基于深度神经网络模拟复杂多孔介质中两相驱替过程 被引量:3
12
作者 ASADOLAHPOUR Seyed Reza JIANG Zeyun +1 位作者 LEWIS Helen 闵超 《石油勘探与开发》 EI CAS CSCD 北大核心 2024年第5期1126-1140,共15页
为了预测复杂孔隙结构中毛管压力主导下两相流排驱过程中的流体分布,从仿真多孔介质和岩石CT图像中抽取子样本,并采用孔隙形态模拟器(PMS)生成流体分布,以创建多样化的数据集,将距离图及像素大小、界面张力、接触角、压力作为输入参数,... 为了预测复杂孔隙结构中毛管压力主导下两相流排驱过程中的流体分布,从仿真多孔介质和岩石CT图像中抽取子样本,并采用孔隙形态模拟器(PMS)生成流体分布,以创建多样化的数据集,将距离图及像素大小、界面张力、接触角、压力作为输入参数,通过改造、训练、评估卷积神经网络(CNN)、递归神经网络(RNN)和视觉转换器(ViT),优选用于预测流体分布的模型。模拟分析表明,常用的卷积和递归神经网络在捕捉流体连通性方面存在不足。基于ViT构建了一个高维视觉转换器(HD-ViT),该转换器先忽略孔隙的空间位置仅根据其大小进行排驱,再在后处理步骤中追加流体连通要求,这种方法允许在任何坐标方向预设出入口,并使用不同尺寸和不同分辨率的图像进行渗流状态推断。通过在砂岩和碳酸盐岩大图像上验证,并与微流控驱替测试的实验结果比较,证实了HD-ViT模型的有效性、精确性和速度优势,且在捕捉孔隙尺度三维流动方面存在较大的潜力。 展开更多
关键词 两相驱替 流体分布 深度神经网络 视觉转换器 孔隙形态模拟器 大数据集
在线阅读 下载PDF
人脸和步态特征注意力融合的身份识别方法 被引量:2
13
作者 沈澍 张文昊 +2 位作者 王汝传 沙超 丁浩 《小型微型计算机系统》 CSCD 北大核心 2024年第7期1695-1701,共7页
真实的身份认证场景往往存在面部遮挡和远距离等难点,给人脸识别等传统识别方法带来挑战.步态识别等新型识别方法助力身份认证.步态识别适用于面部遮挡场景,且远距离时优于人脸识别.为了发挥人脸识别和步态识别在远距离遮挡下的互补作用... 真实的身份认证场景往往存在面部遮挡和远距离等难点,给人脸识别等传统识别方法带来挑战.步态识别等新型识别方法助力身份认证.步态识别适用于面部遮挡场景,且远距离时优于人脸识别.为了发挥人脸识别和步态识别在远距离遮挡下的互补作用,本文提出了一种基于人脸和步态多模态融合的身份识别方法.该方法包括面向低分辨率和有遮挡场景的人脸识别模块、基于轻量化模型GaitLight的多视角步态识别模块、融合人脸和步态特征的注意力融合模块.人脸和步态融合数据集上的实验结果表明,提出的多模态方法在面部无遮挡和面部遮挡条件下,识别率均高于单模态方法和现有的多模态方法.两种条件下识别率分别达到98.5%和98.4%,高于人脸识别算法1.2%和7.1%.多模态识别方法既能满足日常识别需求,也适用于远距离遮挡下的身份识别,识别性能优于目前应用的人脸识别方案. 展开更多
关键词 人脸识别 步态识别 注意力机制 多模态融合 身份识别 视频视觉转换器
在线阅读 下载PDF
基于ViT-CNN混合网络的合成孔径雷达图像船舶分类 被引量:1
14
作者 邵然 毕晓君 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2024年第8期1616-1623,共8页
为了解决视觉转换器模型缺乏多尺度与局部特征捕获能力,难以适应合成孔径雷达图像船舶分类任务的问题,本文提出一种混合网络模型用于合成孔径雷达图像船舶分类。利用分阶段下采样网络结构,解决了ViT无法捕获多尺度特征的问题。通过在Vi... 为了解决视觉转换器模型缺乏多尺度与局部特征捕获能力,难以适应合成孔径雷达图像船舶分类任务的问题,本文提出一种混合网络模型用于合成孔径雷达图像船舶分类。利用分阶段下采样网络结构,解决了ViT无法捕获多尺度特征的问题。通过在ViT模型的3个核心模块中融入卷积结构,设计了卷积标记嵌入、卷积参数共享注意力和局部前馈网络3个模块,使得网络能够同时捕获船舶图像的全局和局部特征,进一步增强了网络归纳偏置和特征提取能力。研究表明:本文所提模型在OpenSARShip和FUSAR-Ship2个通用合成孔径雷达船舶图像数据集上,分类准确率较最优方法分别提高了2.96%和4.18%,有效地提升了合成孔径雷达图像船舶分类性能。 展开更多
关键词 视觉转换器 卷积神经网络 SAR图像 深度学习 参数共享 局部特征 全局特征 船舶图像
在线阅读 下载PDF
基于BiViTNet的轻量级驾驶员分心行为检测方法 被引量:2
15
作者 高尚兵 张莹莹 +2 位作者 王腾 张秦涛 刘宇 《重庆交通大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期57-64,共8页
针对基于卷积神经网络的驾驶员分心行为检测,模型比较复杂、检测效率低下且缺少全局视觉表征的问题,提出了一种双分支并行双向交互神经网络BiViTNet(bidirectional interaction neural network based on vision transformer)对驾驶员行... 针对基于卷积神经网络的驾驶员分心行为检测,模型比较复杂、检测效率低下且缺少全局视觉表征的问题,提出了一种双分支并行双向交互神经网络BiViTNet(bidirectional interaction neural network based on vision transformer)对驾驶员行为进行识别,将ViT(vision transformer)引入到网络中对全局信息进行编码,在一定程度上提高检测精度。该网络由两个并行分支组成,第1个分支基于轻量级的CNN结构,第2个分支基于ViT结构。通过双向特征交互模块BiFIM(bidirectional feature interaction module)解决CNN Branch和ViT Branch之间特征不对称的问题,最后将两个分支的特征融合并对驾驶员行为进行检测。实验在自建的多视角驾驶员数据集上展开,验证集准确率达到97.18%,参数量为38.22 MB,计算量为271.20×10^(6)。研究表明:轻量级BiViTNet提高了驾驶员分心行为识别的准确率,可以在一定程度上辅助驾驶员的行车安全。 展开更多
关键词 交通运输工程 智能交通 分心行为检测 双分支并行双向交互神经网络 视觉转换器 轻量级模型
在线阅读 下载PDF
Swin Transformer轻量化:融合权重共享、蒸馏与剪枝的高效策略
16
作者 韩博 周顺 +3 位作者 范建华 魏祥麟 胡永杨 朱艳萍 《电信科学》 北大核心 2024年第9期66-74,共9页
偏移窗口的分层视觉转换器(Swin Transformer)因其优秀的模型能力而在计算机视觉领域引起了广泛的关注,然而Swin Transformer模型有着较高的计算复杂度,限制了其在计算资源有限设备上的适用性。为缓解该问题,提出一种融合权重共享及蒸... 偏移窗口的分层视觉转换器(Swin Transformer)因其优秀的模型能力而在计算机视觉领域引起了广泛的关注,然而Swin Transformer模型有着较高的计算复杂度,限制了其在计算资源有限设备上的适用性。为缓解该问题,提出一种融合权重共享及蒸馏的模型剪枝压缩方法。首先,在各层之间实现了权重共享,并添加变换层实现权重变换以增加多样性。接下来,构建并分析变换块的参数依赖映射图,构建分组矩阵F记录所有参数之间的依赖关系,确定需要同时剪枝的参数。最后,蒸馏被用于恢复模型性能。在ImageNet-Tiny-200公开数据集上的试验表明,在模型计算复杂度减少32%的情况下,最低仅造成约3%的性能下降,有效降低了模型的计算复杂度。为实现在计算资源受限环境中部署高性能人工智能模型提供了一种解决方案。 展开更多
关键词 偏移窗口的分层视觉转换器 模型轻量化 推理加速 剪枝 蒸馏 权重共享
在线阅读 下载PDF
基于改进ViT的熔池识别与焊接偏差在线检测方法
17
作者 蒋宇轩 林凯 +2 位作者 王瑶祺 张岳 洪宇翔 《现代制造工程》 CSCD 北大核心 2024年第10期130-137,共8页
焊接偏差的精确检测是实现焊接机器人焊缝轨迹自动跟踪及智能化焊接的前提。提出了一种基于改进视觉转换器(Vision Transformer,ViT)的熔池识别与焊接偏差在线检测方法。首先,采用轻量级ViT模型Segformer作为基线模型,在其掩码分割前嵌... 焊接偏差的精确检测是实现焊接机器人焊缝轨迹自动跟踪及智能化焊接的前提。提出了一种基于改进视觉转换器(Vision Transformer,ViT)的熔池识别与焊接偏差在线检测方法。首先,采用轻量级ViT模型Segformer作为基线模型,在其掩码分割前嵌入置换注意力(Shuffle Attention,SA)机制,以更好地捕获特征信息在空间和通道这2个维度中的依赖关系,从而提高模型的分割精度;其次,在多层感知机(Multilayer Perceptron,MLP)中加入上下文广播(Context Broadcasting,CB)模块,在保证模型低参数量的前提下提高泛化能力;最后,基于模型分割结果,提出一种焊接偏差计算方法来定量描述偏差检测精度。实验结果表明,相较于基线模型,所提出模型的平均交并比和平均像素准确率分别提高了2.67%和2.12%,且对于不同预设焊枪偏移情况均具有良好的泛化性,焊接偏差精度控制在±0.021 mm之内,为实现精密焊接焊缝跟踪提供基础。 展开更多
关键词 焊接偏差 焊缝跟踪 熔池识别 视觉转换器 注意力机制
在线阅读 下载PDF
基于YOLOv5l和ViT的交通标志检测识别方法 被引量:9
18
作者 郭朦 陈紫强 +1 位作者 邓鑫 梁晨 《科学技术与工程》 北大核心 2022年第27期12038-12044,共7页
随着交通行业的发展,交通标志检测识别成为了辅助驾驶系统中最热门的研究方向之一。在实际行车道路中,交通标志具有目标小且类别繁多的特点,针对现有检测与识别算法难以同时兼顾准确度和速率的问题,提出一种YOLOv5l(you only look once ... 随着交通行业的发展,交通标志检测识别成为了辅助驾驶系统中最热门的研究方向之一。在实际行车道路中,交通标志具有目标小且类别繁多的特点,针对现有检测与识别算法难以同时兼顾准确度和速率的问题,提出一种YOLOv5l(you only look once version 5l)与视觉转换器(vision transformer,ViT)结合的检测与识别方法。首先采用YOLOv5l对目标进行检测,得出交通标志的位置信息,再将其输入ViT进行分类识别,其中特征连接部分引入DenseNet网络模块,来实现原始特征和卷积后特征映射的密集连接,加强特征的传递性,提高识别率。结果表明:在GTSDB和GTSRB数据集上实验效果更佳,交通标志检测速率达到20 ms,准确率达到98.78%,相比全连接层识别准确率提高了约4%。 展开更多
关键词 交通标志 检测与识别 YOLOv5l 视觉转换器
在线阅读 下载PDF
复杂场景下的行人跌倒检测算法 被引量:5
19
作者 方可 刘蓉 +2 位作者 魏驰宇 张心月 刘杨 《计算机应用》 CSCD 北大核心 2023年第6期1811-1817,共7页
随着人口老龄化程度的不断深化,跌倒检测成为医疗与健康领域的一个关键问题。针对复杂场景下跌倒检测算法准确率偏低的问题,提出一种改进的跌倒检测模型——PDD-FCOS(PVT DRFPN DIoU-Fully Convolutional One-Stage object detection)... 随着人口老龄化程度的不断深化,跌倒检测成为医疗与健康领域的一个关键问题。针对复杂场景下跌倒检测算法准确率偏低的问题,提出一种改进的跌倒检测模型——PDD-FCOS(PVT DRFPN DIoU-Fully Convolutional One-Stage object detection)。在基准FCOS算法的骨干网络中引入金字塔视觉转换器(PVT),以不增加计算量为前提提取更丰富的语义信息;在特征信息融合阶段插入双重细化特征金字塔网络(DRFPN),更加准确地学习特征图之间采样点的位置和其他信息,并通过上下文信息捕获特征通道之间更准确的语义关系,从而提升检测性能;训练阶段采用距离交并比(DIoU)损失进行边界框回归,通过优化预测框与目标框中心点的距离,使回归框收敛得更快更准确,从而有效提高跌倒检测算法的准确率。实验结果表明,所提模型在开源数据集Fall detection Database上平均精确度均值(mAP)达到82.2%,与基准FCOS算法相比,所提算法的mAP提升了6.4个百分点,且相较于其他主流目标检测算法有精度上的提升以及更好的泛化能力。 展开更多
关键词 目标检测 行人跌倒检测 金字塔视觉转换器 注意力机制 双重细化特征金字塔网络 距离交并比
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部