期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
MHVTs:多尺度混合视觉自注意力模型
1
作者 高丽丽 应文豪 +2 位作者 钟珊 胡文军 吴晓宇 《计算机工程与设计》 北大核心 2025年第5期1395-1402,共8页
为提高ViT模型在小型数据集上从零开始训练的性能,提出一种多尺度混合ViT模型(MHVT),由多尺度扩张局部聚集模块(MDLA)和多尺度先下采样再上采样模块(MPUA)组成。MDLA利用不同膨胀率的深度可分卷积在不同通道上提取不同尺度的局部特征。M... 为提高ViT模型在小型数据集上从零开始训练的性能,提出一种多尺度混合ViT模型(MHVT),由多尺度扩张局部聚集模块(MDLA)和多尺度先下采样再上采样模块(MPUA)组成。MDLA利用不同膨胀率的深度可分卷积在不同通道上提取不同尺度的局部特征。MPUA在自注意力计算前,在不同的通道上对查询、键和值进行不同粒度的池化处理,保持计算效率的同时捕获多尺度的全局特征。在各种小尺寸数据集上的大量实验验证了MHVT在精度和速度方面均获得了更好的权衡。 展开更多
关键词 视觉自注意力模型 局部相关性 多尺度特征交互 卷积神经网络 小型数据集 自注意力模型 卷积神经网络
在线阅读 下载PDF
基于视觉自注意力模型的苗期玉米与杂草检测方法 被引量:3
2
作者 唐伯青 赵大勇 +1 位作者 熊锋 李德强 《南京农业大学学报》 CAS CSCD 北大核心 2024年第4期772-781,共10页
[目的]识别作物和杂草是农业智能化中自动除草的关键步骤。本文旨在解决作物与杂草识别精度低、检测模型实时性和鲁棒性差等问题。[方法]以叶龄处于3~8叶期的玉米及其伴生杂草为研究对象,提出一种高效准确的玉米苗与杂草的检测方法。该... [目的]识别作物和杂草是农业智能化中自动除草的关键步骤。本文旨在解决作物与杂草识别精度低、检测模型实时性和鲁棒性差等问题。[方法]以叶龄处于3~8叶期的玉米及其伴生杂草为研究对象,提出一种高效准确的玉米苗与杂草的检测方法。该方法以实时端到端目标检测视觉自注意力模型为基础框架,用小尺度卷积等效替代大尺度深度卷积的思想,以较小的精度损失降低推理耗时。引入一种包含上下文信息的自顶向下注意力机制,强化模型对小目标的检测效果。应用组合图像增强策略,提升模型精度与泛化能力。[结果]改进后模型的平均检测精度为90.11%,推理阶段单张图片耗时33.67 ms,模型参数量44.86 MB。改进后的模型比主流目标检测模型总体精度更高,且推理速度快。[结论]所提方法对于玉米苗与伴生杂草的整体检测性能优秀,能够提高杂草识别的准确性和效率。 展开更多
关键词 玉米 杂草 检测 实时视觉自注意力模型 等效卷积 图像增强
在线阅读 下载PDF
基于多尺度风格自适应的手写维文识别模型
3
作者 闫林 王磊 +2 位作者 艾孜麦提·艾尼瓦尔 杨雅婷 李晓 《计算机工程与设计》 北大核心 2024年第9期2749-2756,共8页
基于字符形态与书写风格的强关联性,提出一种多尺度风格自适应的手写维文识别模型,模型从浅层笔划到深层序列建模多尺度风格特征,提高对手写风格的自适应能力。针对手写维文特点改进Transformer提取多尺度笔划特征;构建多尺度风格自适... 基于字符形态与书写风格的强关联性,提出一种多尺度风格自适应的手写维文识别模型,模型从浅层笔划到深层序列建模多尺度风格特征,提高对手写风格的自适应能力。针对手写维文特点改进Transformer提取多尺度笔划特征;构建多尺度风格自适应模块提取序列特征;构建特征泛化融合模块对笔划特征和序列特征进行深度融合,提升识别效果。实验结果表明,该模型在真实手写维文测试集WER、CER分别下降3.75%、0.19%,在IAM数据集中验证了模型迁移性。 展开更多
关键词 手写维文识别 手写风格 多尺度 特征金字塔网络 视觉自注意力模型 长短期记忆网络 特征融合
在线阅读 下载PDF
IEMAyoloViT:基于改进YOLOv8的水下目标检测算法
4
作者 施克权 李祺 +1 位作者 隋皓 朱宏娜 《电讯技术》 北大核心 2025年第1期54-62,共9页
针对光学成像技术受到光线衰减、散射等因素影响,图像质量和目标分辨率较差,不利于开展水下目标检测任务的问题,提出了一种高效水下目标检测框架IEMAyoloViT。该框架结合了改进Vision Transformer(ViT)主干的YOLOv8算法YOLOViT和一种融... 针对光学成像技术受到光线衰减、散射等因素影响,图像质量和目标分辨率较差,不利于开展水下目标检测任务的问题,提出了一种高效水下目标检测框架IEMAyoloViT。该框架结合了改进Vision Transformer(ViT)主干的YOLOv8算法YOLOViT和一种融合多尺度高效空间注意力机制(Efficient Multi-scale Attention,EMA)的C2f模块,以解决目标特征提取过程中注意力分散的问题。同时改进了Inner-CIoU损失函数,基于不同尺度的辅助边界加速边界框回归。实验结果表明,在全国水下机器人大赛(Underwater Robot Professional Contest,URPC)2021数据集中,IEMAyoloViT的mAP50高达83.2%,较YOLOv8高9.2%;mAP50:95较YOLOv8高1.0%,证明了IEMAyoloViT的有效性和应用潜力。 展开更多
关键词 水下目标检测 深度学习 视觉自注意力模型 注意力机制
在线阅读 下载PDF
融合多种参数高效微调技术的深度伪造检测方法 被引量:1
5
作者 张溢文 蔡满春 +2 位作者 陈咏豪 朱懿 姚利峰 《计算机科学与探索》 CSCD 北大核心 2024年第12期3335-3347,共13页
近年来,随着深度伪造技术趋于成熟,换脸软件、合成视频已经随处可见。尽管深度伪造技术为人们带来了娱乐,但同时也为不法分子提供了滥用的机会。因此,深度伪造检测技术的重要性也日益凸显。现有的深度伪造检测方法普遍存在跨压缩率鲁棒... 近年来,随着深度伪造技术趋于成熟,换脸软件、合成视频已经随处可见。尽管深度伪造技术为人们带来了娱乐,但同时也为不法分子提供了滥用的机会。因此,深度伪造检测技术的重要性也日益凸显。现有的深度伪造检测方法普遍存在跨压缩率鲁棒性差、跨数据集泛化性差以及模型训练开销大等问题。为解决上述问题,提出一种融合多种参数高效微调技术的深度伪造检测方法,使用以掩码图像建模(MIM)自监督方法预训练的视觉自注意力模型作为主干,使用克罗内克积改进的低秩自适应方法对预训练模型的自注意力模块参数进行微调,同时采用并行结构加入卷积适配器对图像局部纹理信息进行学习,以增强预训练模型在深度伪造检测任务中的适应能力,采用并行结构引入经典适配器对预训练模型的前馈网络微调以充分利用预训练阶段学习到的知识,使用多层感知机代替原预训练模型分类头实现深度伪造检测。在六个数据集上的实验结果表明,该模型在可训练参数仅有2×10^(7)的情况下,在六个主流数据集上实现了平均约0.996的帧水平AUC。在跨压缩率实验中,帧水平AUC的平均下降为0.135。在跨数据集泛化性实验中,帧水平AUC达到了平均0.765。 展开更多
关键词 深度伪造 视觉自注意力模型 自监督预训练模型 低秩自适应 参数高效微调
在线阅读 下载PDF
基于语义分割的视频鱼类特征提取方法研究
6
作者 李潇洋 陈健 常剑波 《水生态学杂志》 CSCD 北大核心 2024年第5期204-212,共9页
从视频图像中快速、准确提取水生生物(如鱼类)的特征信息,是信息科学与水生态研究结合的热点。基于Transformer的视觉模型,采用一种基于弱监督语义分割的视频鱼类特征提取方法,在无需预训练或微调的条件下,可以实现对鱼的身体、头部和鱼... 从视频图像中快速、准确提取水生生物(如鱼类)的特征信息,是信息科学与水生态研究结合的热点。基于Transformer的视觉模型,采用一种基于弱监督语义分割的视频鱼类特征提取方法,在无需预训练或微调的条件下,可以实现对鱼的身体、头部和鱼鳍3类形态区域标签的分割提取。采用DeepFish分割数据集构建计算机视觉自注意力模型(vision transformer,ViT),通过对水下拍摄的鱼类视频进行实验,结果实现了鱼体形态主体特征的有效提取,对拟定的3类形态标签区域进行了良好的分割标记。研究方法具有较高的效率、分割准确度和标记区域的连续平滑性,可提供良好的语义特征,为人工智能技术在鱼类等水生生物监测实践中提供了一种低成本、高效率的新方法。 展开更多
关键词 弱监督学习 语义分割 视觉自注意力模型 鱼类特征提取
在线阅读 下载PDF
多尺度时空特征融合的动态手势识别网络 被引量:3
7
作者 刘杰 王月 田明 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2614-2622,共9页
由于动态手势数据具有时间复杂性以及空间复杂性,传统的机器学习算法难以提取准确的手势特征;现有的动态手势识别算法网络设计复杂、参数量大、手势特征提取不充分。为解决以上问题,该文提出一种基于卷积视觉自注意力模型(CvT)的多尺度... 由于动态手势数据具有时间复杂性以及空间复杂性,传统的机器学习算法难以提取准确的手势特征;现有的动态手势识别算法网络设计复杂、参数量大、手势特征提取不充分。为解决以上问题,该文提出一种基于卷积视觉自注意力模型(CvT)的多尺度时空特征融合网络。首先,将图片分类领域的CvT网络引入动态手势分类领域,用于提取单张手势图片的空间特征,将不同空间尺度的浅层特征与深层特征融合。其次,设计一种多时间尺度聚合模块,提取动态手势的时空特征,将CvT网络与多时间尺度聚合模块结合,抑制无效特征。最后为了弥补CvT网络中dropout层的不足,将R-Drop模型应用于多尺度时空特征融合网络。在Jester数据集上进行实验验证,与多种基于深度学习的动态手势识别方法进行对比,实验结果表明,该文方法在识别率上优于现有动态手势识别方法,在动态手势数据集Jester上识别率达到92.26%。 展开更多
关键词 动态手势识别 深度学习 卷积视觉自注意力模型 多尺度融合
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部