期刊文献+
共找到67篇文章
< 1 2 4 >
每页显示 20 50 100
MHVTs:多尺度混合视觉自注意力模型
1
作者 高丽丽 应文豪 +2 位作者 钟珊 胡文军 吴晓宇 《计算机工程与设计》 北大核心 2025年第5期1395-1402,共8页
为提高ViT模型在小型数据集上从零开始训练的性能,提出一种多尺度混合ViT模型(MHVT),由多尺度扩张局部聚集模块(MDLA)和多尺度先下采样再上采样模块(MPUA)组成。MDLA利用不同膨胀率的深度可分卷积在不同通道上提取不同尺度的局部特征。M... 为提高ViT模型在小型数据集上从零开始训练的性能,提出一种多尺度混合ViT模型(MHVT),由多尺度扩张局部聚集模块(MDLA)和多尺度先下采样再上采样模块(MPUA)组成。MDLA利用不同膨胀率的深度可分卷积在不同通道上提取不同尺度的局部特征。MPUA在自注意力计算前,在不同的通道上对查询、键和值进行不同粒度的池化处理,保持计算效率的同时捕获多尺度的全局特征。在各种小尺寸数据集上的大量实验验证了MHVT在精度和速度方面均获得了更好的权衡。 展开更多
关键词 视觉自注意力模型 局部相关性 多尺度特征交互 卷积神经网络 小型数据集 自注意力模型 卷积神经网络
在线阅读 下载PDF
基于通用视觉大模型与注意力增强的无监督异常检测
2
作者 王镇 翟轲 +1 位作者 薛赛 白双 《北京交通大学学报》 北大核心 2025年第3期14-22,共9页
针对现有无监督异常检测方法普遍存在特征提取不充分和不能有效关注异常区域导致检测性能下降的问题,提出一种基于通用视觉大模型——视觉变换器(Vision Transformer,ViT)与注意力增强的无监督异常检测方法.首先,利用预训练的通用视觉Vi... 针对现有无监督异常检测方法普遍存在特征提取不充分和不能有效关注异常区域导致检测性能下降的问题,提出一种基于通用视觉大模型——视觉变换器(Vision Transformer,ViT)与注意力增强的无监督异常检测方法.首先,利用预训练的通用视觉ViT模型对输入图像进行特征提取.其次,为进一步增强模型对异常区域的关注度,引入通道与空间注意力模块(Convolutional Block At-tention Module,CBAM),在特征提取阶段自适应调整特征权重,以更精准地捕捉局部异常信息.最后,本文在MVTec工业数据集与自制钢缆异常数据集上进行了大量实验,全面评估所提方法的检测性能.实验结果表明:所提方法在无监督异常检测任务上优于同期多种主流方法.在钢缆异常数据集上,所提方法的图像级受试者特征曲线下面积(Image-wise Area Under ROC,Image-wise AUROC)和F1-Score平均值分别达到88.1%和80.8%,较基准Fastflow算法提升了11.7%和7.8%. 展开更多
关键词 异常检测 无监督检测 机器视觉 视觉模型 注意力机制
在线阅读 下载PDF
基于视觉自注意力模型的苗期玉米与杂草检测方法 被引量:3
3
作者 唐伯青 赵大勇 +1 位作者 熊锋 李德强 《南京农业大学学报》 CAS CSCD 北大核心 2024年第4期772-781,共10页
[目的]识别作物和杂草是农业智能化中自动除草的关键步骤。本文旨在解决作物与杂草识别精度低、检测模型实时性和鲁棒性差等问题。[方法]以叶龄处于3~8叶期的玉米及其伴生杂草为研究对象,提出一种高效准确的玉米苗与杂草的检测方法。该... [目的]识别作物和杂草是农业智能化中自动除草的关键步骤。本文旨在解决作物与杂草识别精度低、检测模型实时性和鲁棒性差等问题。[方法]以叶龄处于3~8叶期的玉米及其伴生杂草为研究对象,提出一种高效准确的玉米苗与杂草的检测方法。该方法以实时端到端目标检测视觉自注意力模型为基础框架,用小尺度卷积等效替代大尺度深度卷积的思想,以较小的精度损失降低推理耗时。引入一种包含上下文信息的自顶向下注意力机制,强化模型对小目标的检测效果。应用组合图像增强策略,提升模型精度与泛化能力。[结果]改进后模型的平均检测精度为90.11%,推理阶段单张图片耗时33.67 ms,模型参数量44.86 MB。改进后的模型比主流目标检测模型总体精度更高,且推理速度快。[结论]所提方法对于玉米苗与伴生杂草的整体检测性能优秀,能够提高杂草识别的准确性和效率。 展开更多
关键词 玉米 杂草 检测 实时视觉自注意力模型 等效卷积 图像增强
在线阅读 下载PDF
基于视觉注意力的图文跨模态情感分析 被引量:2
4
作者 王法玉 郝攀征 《计算机工程与设计》 北大核心 2024年第2期601-607,共7页
针对单模态情感分析无法完全捕获情感信息的问题,提出一种图像和文本跨模态情感分析模型(BERT-VistaNet),该模型没有直接使用视觉信息作为特征,而是利用视觉信息作为对齐方式,使用注意力机制指出文本中重要的句子,得到基于视觉注意力的... 针对单模态情感分析无法完全捕获情感信息的问题,提出一种图像和文本跨模态情感分析模型(BERT-VistaNet),该模型没有直接使用视觉信息作为特征,而是利用视觉信息作为对齐方式,使用注意力机制指出文本中重要的句子,得到基于视觉注意力的文档表示。对于视觉注意力无法完全覆盖的文本内容,使用BERT模型对文本进行情感分析,得到基于文本的文档表示,将特征进行融合应用于情感分类任务。在Yelp公开餐厅数据集上,该模型相比基线模型TFN-aVGG,准确率提高了43%,相比VistaNet模型准确率提高了1.4%。 展开更多
关键词 情感分析 视觉注意力机制 跨模态 深度学习 特征融合 预训练模型 双向门控单元
在线阅读 下载PDF
基于空间映射的视觉注意力分配预测模型 被引量:9
5
作者 吴旭 完颜笑如 庄达民 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2014年第12期1713-1718,共6页
为预测飞行员视觉注意力分配,在SEEV(Salient Effort Expectancy Value)模型和多因素模型的基础上引入注意控制空间和资源分配空间的概念.前者描述了影响注意力分配因素,而后者则反应了兴趣区域所获得的注意资源.并通过空间映射建立注... 为预测飞行员视觉注意力分配,在SEEV(Salient Effort Expectancy Value)模型和多因素模型的基础上引入注意控制空间和资源分配空间的概念.前者描述了影响注意力分配因素,而后者则反应了兴趣区域所获得的注意资源.并通过空间映射建立注意力分配的预测模型,应用模糊层次分析的方法对模型进行结算.为验证预测模型效度,采用16名被试在飞行模拟器上开展基于异常信息恢复的工效学实验,通过眼动追踪装置记录注视点分布作为注意力分配指标.被试需要根据实验条件对主飞行显示器仿真界面中的目标信息状态进行监视,并通过驾驶杆的指定操作对异常信息进行响应.实验结果表明,注意力分配预测模型的理论结果与工效实验中注视点分布的实验结果显著相关且吻合较好,验证了预测模型的可用性. 展开更多
关键词 视觉注意力分配 数学模型 眼动追踪 注视点分布 人机工效
在线阅读 下载PDF
基于注意力机制和跨模态层级特征融合的群养肉牛个体质量估测
6
作者 宋平 杨颖 +3 位作者 刘刚 姚冲 李子若 毛天赐 《农业工程学报》 北大核心 2025年第10期221-231,共11页
为解决群养场景下肉牛个体质量称量复杂、精度低的问题,该研究提出了基于注意力机制和跨模态层级特征融合模型CMHFF-ResNet(cross-modal hierarchical feature fusion resnet)。首先,无接触式地采集俯视视角下日常活动的肉牛的RGB(red-g... 为解决群养场景下肉牛个体质量称量复杂、精度低的问题,该研究提出了基于注意力机制和跨模态层级特征融合模型CMHFF-ResNet(cross-modal hierarchical feature fusion resnet)。首先,无接触式地采集俯视视角下日常活动的肉牛的RGB(red-green-blue)图像与深度图像,使用引入定向边界框OBB(oriented bounding box)的YOLOv8网络对肉牛进行旋转目标检测和识别,精准定位群养场景中的个体目标;其次,以ResNet50为骨干网络构建双流估重模型,分别提取RGB和深度模态特征,并引入CBAM(convolutional block attention module)注意力机制以增强关键特征表达能力。设计跨模态的层级特征融合,有效结合RGB流和深度流的特征并充分利用浅层特征;第三,引入肉牛的身份信息便于网络学习肉牛身份与其体质量之间的对应关系,为优化模型效率,将全连接层替换为KAN(kolmogorov-arnold networks),显著减少参数量;最后,将双流的输出结果融合,回归肉牛体质量值。在试验中,构建了包含2546对RGB-D图像的数据集,包括2373对训练数据和173对验证数据。结果表明,CMHFF-ResNet在验证集上的平均绝对误差为14.19 kg。与基于RGB和深度的单流模型相比,双流模型在平均绝对误差上分别降低16.943%和26.133%。同时,该方法优于其他现有肉牛体质量估测方法:与多元线性回归、改进MobileNetv2模型、改进DenseNet201模型和改进跨模态特征融合模型CFF-ResNet相比,在平均绝对误差上分别减少57.233%、34.699%、24.761%和20.991%,提升了群养环境下肉牛个体质量估测的精度与泛化性,能够有效地学习跨模态的层级特征表示。该研究为大规模群养环境中肉牛个体质量的高精度估测提供了参考。 展开更多
关键词 模型 计算机视觉 目标检测 体质量估测 注意力机制 跨模态层级特征融合 双流网络
在线阅读 下载PDF
铁路行业视觉大模型构建及应用 被引量:1
7
作者 代明睿 李文浩 +3 位作者 史维峰 李国华 杨涛存 杜文然 《中国铁路》 北大核心 2025年第1期1-12,共12页
铁路领域的视觉应用场景往往具有场景复杂多变、有效样本量少等困难,单独设计面向各场景的小模型耗费大量时间精力且难以满足业务要求,因此构建铁路行业视觉大模型具有重要意义。研究挖掘视觉大模型的潜在应用场景,提出铁路视觉大模型... 铁路领域的视觉应用场景往往具有场景复杂多变、有效样本量少等困难,单独设计面向各场景的小模型耗费大量时间精力且难以满足业务要求,因此构建铁路行业视觉大模型具有重要意义。研究挖掘视觉大模型的潜在应用场景,提出铁路视觉大模型构建方案,基于UPerNet网络,利用InternImage代替原主干网络,更好地捕捉图像目标细节,并将Semantic-Aware Nor⁃malization(SAN)与Semantic-Aware Whitening(SAW)注意力机制代替原金字塔池化模块,提升模型整体鲁棒性,将空间注意力与通道注意力融合代替原解码部分,实现动态地调整对不同区域的关注度,最后通过半自动化标注构建一批铁路场景数据集。实验结果表明,研究提出的改进的UPerNet_InternImage铁路行业视觉大模型在提高分割效果的准确性和鲁棒性方面具有一定潜力,并在面对后续具体场景的分割任务时,收敛速度更快、模型效果更好,为解决铁路视觉场景中的问题提供了新的思路和方法。 展开更多
关键词 人工智能 可变形卷积 注意力机制 语义分割 视觉模型 铁路行业大模型
在线阅读 下载PDF
一种整合语义对象特征的视觉注意力模型
8
作者 李娜 赵歆波 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2020年第5期99-105,共7页
视觉注意力建模作为预测人类在观察场景时注意力分布的关键技术,在计算机视觉的众多领域均有广泛应用.传统的视觉注意力模型着重研究人眼注视点,计算出的显著图更多的是反映眼动信息,并未将大脑的感知出的语义信息反映出来.针对这一问题... 视觉注意力建模作为预测人类在观察场景时注意力分布的关键技术,在计算机视觉的众多领域均有广泛应用.传统的视觉注意力模型着重研究人眼注视点,计算出的显著图更多的是反映眼动信息,并未将大脑的感知出的语义信息反映出来.针对这一问题,本文提出了一种整合了语义对象特征的视觉注意力模型.首先,本文建立了眼动跟踪数据库V0C2012-E,研究并记录普通人在观察自然场景时的眼动数据.然后,受语义分割启发,利用全卷积神经网络(Fully Convolution;Networks,FCN)提取语义对象特征,同时用激活函数PReLu和优化函数Adam改进FCN网络使其更有效地提取的语义对象特征,来模仿大脑对语义对象特征的感知.接着,提取在人类潜意识层吸引人注意力的如方向,颜色,强度特征等28个低级特征.最后利用支持向量机(Support Vector Machine,SVM)将之前提取的语义对象特征及低级特征映射到人类视觉空间,同时引入真实眼动数据进行有监督的训练,得到可以预测人眼视觉显著图的视觉注意力模型.实验结果表明,在VOC2012-E及MIT300数据库上与其他8种经典模型及4种先进模型相比,本文提出的视觉注意力模型性能更好,更有生物学优势. 展开更多
关键词 视觉注意力模型 语义对象特征 FCN SVM 深度学习
在线阅读 下载PDF
基于小波的具有选择性注意力机制的初级视觉模型
9
作者 王爱群 郑南宁 《西安交通大学学报》 EI CAS CSCD 北大核心 1995年第1期46-51,共6页
提出了一种新的初级视觉模型,在此模型中,提出了一个基于小波时频特性的非均匀采样方案,以非规整信息表示图象信号,并形成多分辨率处理通道,通过引入一个反馈通道来模拟人眼的“眼动”,形成反馈闭环控制,最终我们试图通过此系统... 提出了一种新的初级视觉模型,在此模型中,提出了一个基于小波时频特性的非均匀采样方案,以非规整信息表示图象信号,并形成多分辨率处理通道,通过引入一个反馈通道来模拟人眼的“眼动”,形成反馈闭环控制,最终我们试图通过此系统实现具有选择性注意力机制的初级视觉模型。 展开更多
关键词 视觉模型 选择性 注意力 图象表示 小波变换
在线阅读 下载PDF
基于光照模型和视觉特性的半色调彩色图像的实时仿真 被引量:1
10
作者 洪汉玉 张天序 《计算机应用与软件》 CSCD 北大核心 2002年第12期19-20,51,共3页
利用人类视觉系统的生理特性,提出了一种基于光照模型的半色调模式的真实感彩色图像的实时仿真方法,该方法合三维目标的成像过程,将场景中视觉2°视锥小区域的平均灰度信息转换为明暗象素点阵模式,从而实时地生成半色调模式的实感... 利用人类视觉系统的生理特性,提出了一种基于光照模型的半色调模式的真实感彩色图像的实时仿真方法,该方法合三维目标的成像过程,将场景中视觉2°视锥小区域的平均灰度信息转换为明暗象素点阵模式,从而实时地生成半色调模式的实感彩色图像。在微机上进行了编程设计和实验,实验结果表明,本文提出的方法不但可产生三维视觉效果舒适的真实感图像处理速度极快,图像数据量也大大降低,这为场景图像的实时仿真、输出和图像传输等提供先进的实用的数字技术。 展开更多
关键词 光照模型 视觉特性 半色调彩色图像 实时仿真 真实感图像 计算机图形学 图像处理
在线阅读 下载PDF
目标检测中注意力机制综述 被引量:4
11
作者 任书玉 汪晓丁 林晖 《计算机工程》 CAS CSCD 北大核心 2024年第12期16-32,共17页
Transformer在自然语言处理中表现出优越的性能激励了研究人员开始探索其在计算机视觉任务中的应用。基于Transformer的目标检测模型DETR将目标检测视为一个集合预测问题,引入Transformer模型来解决目标检测任务,从而避免了传统方法中... Transformer在自然语言处理中表现出优越的性能激励了研究人员开始探索其在计算机视觉任务中的应用。基于Transformer的目标检测模型DETR将目标检测视为一个集合预测问题,引入Transformer模型来解决目标检测任务,从而避免了传统方法中的提案生成和后处理步骤。最初的DETR在训练收敛和小物体检测方面存在速度慢、效率低的问题。为了解决这些问题,研究人员进行了多方面改进,提升了DETR的性能。对DETR的基本模块和增强模块进行深入研究,包括对主干结构的修改、查询设计策略和注意力机制的改进,同时对各种检测器进行比较分析,评估它们的性能和网络架构,探讨了DETR在计算机视觉任务中的潜力和应用前景以及目前存在的局限性和面临的挑战,并对相关模型进行分析与总结。根据目标检测发展的现状,分析注意力模型的优势与局限性,并对注意力模型在目标检测领域的研究方向加以展望。 展开更多
关键词 注意力机制 计算机视觉 深度学习 DETR模型 目标检测
在线阅读 下载PDF
融合自监督和多层交叉注意力的多模态情感分析网络 被引量:1
12
作者 薛凯鹏 徐涛 廖春节 《计算机应用》 CSCD 北大核心 2024年第8期2387-2392,共6页
针对多模态情感分析任务中模态内信息不完整、模态间交互能力差和难以训练的问题,将视觉语言预训练(VLP)模型应用于多模态情感分析领域,提出一种融合自监督和多层交叉注意力的多模态情感分析网络(MSSM)。通过自监督学习强化视觉编码器模... 针对多模态情感分析任务中模态内信息不完整、模态间交互能力差和难以训练的问题,将视觉语言预训练(VLP)模型应用于多模态情感分析领域,提出一种融合自监督和多层交叉注意力的多模态情感分析网络(MSSM)。通过自监督学习强化视觉编码器模块,并加入多层交叉注意力以更好地建模文本和视觉特征,使模态内部信息更丰富完整,同时使模态间的信息交互更充分。此外,通过具有感知意识的快速、内存效率高的精确注意力FlashAttention解决Transformer中注意力计算高复杂度的问题。实验结果表明,与目前主流的基于对比文本-图像对的模型(CLIP)相比,MSSM在处理后的MVSA-S数据集上的准确率提高3.6个百分点,在MVSA-M数据集上的准确率提高2.2个百分点,验证所提网络能在降低运算成本的同时有效提高多模态信息融合的完整性。 展开更多
关键词 多模态 情感分析 自监督 注意力机制 视觉语言预训练模型
在线阅读 下载PDF
基于级联注意力机制的孪生网络视觉跟踪算法 被引量:6
13
作者 蒲磊 冯新喜 +2 位作者 侯志强 余旺盛 马素刚 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2020年第12期2302-2310,共9页
针对全卷积孪生网络(SiamFC)在相似物体干扰及目标发生大尺度外观变化时容易跟踪失败的问题,提出了一种基于级联注意力机制的孪生网络视觉跟踪算法。首先,在网络的最后一层加入非局部注意力模块,从空间维度得到关于目标区域的自注意特征... 针对全卷积孪生网络(SiamFC)在相似物体干扰及目标发生大尺度外观变化时容易跟踪失败的问题,提出了一种基于级联注意力机制的孪生网络视觉跟踪算法。首先,在网络的最后一层加入非局部注意力模块,从空间维度得到关于目标区域的自注意特征图,并与最后一层特征进行相加运算。其次,考虑到不同通道特征对不同目标和各类场景的响应差异,引入通道注意力模块实现对特征通道的重要性选择。为了进一步提高跟踪的鲁棒性,将其与SiamFC算法进行加权融合,得到最终的响应图。最后,将提出的孪生网络模型在GOT10k和VID数据集上进行联合训练,进一步提升模型的表达力与判别力。实验结果表明:所提算法相比于SiamFC,在跟踪精度上提高了9.3%,在成功率上提高了5.4%。 展开更多
关键词 视觉跟踪 孪生网络 非局部注意力 通道注意力 模型集成
在线阅读 下载PDF
一种基于对比学习大模型的视觉定位方法 被引量:3
14
作者 陆庆阳 袁广林 +2 位作者 朱虹 秦晓燕 薛模根 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3448-3458,共11页
一阶段视觉定位方法由于其快速性而受到广泛关注,该方法利用图像与文本的融合特征预测目标框,但是现有方法在特征融合前没有进行图像与文本特征的对齐,限制了视觉定位的精度.为了解决这一问题,本文提出一种基于对比学习大模型的视觉定... 一阶段视觉定位方法由于其快速性而受到广泛关注,该方法利用图像与文本的融合特征预测目标框,但是现有方法在特征融合前没有进行图像与文本特征的对齐,限制了视觉定位的精度.为了解决这一问题,本文提出一种基于对比学习大模型的视觉定位方法.该方法采用基于对比学习的大规模预训练模型CLIP(Contrastive Language-Image Pre-training)提取图像和文本特征,利用Transformer编码器融合图像文本特征,使用多层感知机和融合特征预测目标框.该方法能够解决视觉定位方法上述不足的原因在于:借助CLIP模型的编码器可以提取高度语义对齐的图像和文本特征,同时使用全局注意力交互融合图像与文本的上下文特征.在5个数据集上,对本文提出的方法进行实验验证,实验结果表明:相比于现有视觉定位方法,本文方法取得了综合精度的提升. 展开更多
关键词 视觉定位 对比学习 变换器 注意力 模型 对齐
在线阅读 下载PDF
深度图注意力CNN的三维模型识别 被引量:9
15
作者 党吉圣 杨军 《计算机科学与探索》 CSCD 北大核心 2021年第1期141-149,共9页
针对现有基于深度学习的三维模型识别方法缺乏结合三维模型的上下文细粒度局部特征,可能造成几何形状极其相似,局部细节信息略有不同的类识别混淆的问题,提出一种基于深度图注意力卷积神经网络的三维模型识别方法。首先,通过引入邻域选... 针对现有基于深度学习的三维模型识别方法缺乏结合三维模型的上下文细粒度局部特征,可能造成几何形状极其相似,局部细节信息略有不同的类识别混淆的问题,提出一种基于深度图注意力卷积神经网络的三维模型识别方法。首先,通过引入邻域选择机制挖掘三维模型的细粒度局部特征。其次,通过空间上下文编码机制捕捉多尺度空间上下文信息,且与细粒度局部特征相互补偿以增强特征的完备性。最后,采用一种多头部机制,使图注意力卷积层聚合多个单头部的特征以增强特征的丰富性。此外,设计选择性丢弃算法,根据度量权重值对神经元重要性进行排序,智能地丢弃重要性较低的神经元来防止网络过拟合。算法在ModelNet40数据集上的三维模型识别准确率达到了92.6%,且网络复杂度较低,在三维模型识别准确率和网络复杂度之间达到最佳平衡,优于当前主流方法。 展开更多
关键词 机器视觉 三维模型识别 注意力卷积层 卷积神经网络(CNN) 选择性丢弃
在线阅读 下载PDF
基于全局注意力的Gam-EEGNet在SSVEP分类中的应用 被引量:2
16
作者 刘俊杰 谢俊 +1 位作者 王虎 胡博 《电子测量技术》 北大核心 2024年第22期76-83,共8页
稳态视觉诱发电位(SSVEP)作为脑机接口(BCI)系统中的重要信号类型,因其高稳定性和易操作性而广泛应用于BCI研究。在过去的研究中,已有许多方法在SSVEP信号分类中取得了显著进展,但依然面临着信噪比低、信号非平稳性和个体差异大的挑战... 稳态视觉诱发电位(SSVEP)作为脑机接口(BCI)系统中的重要信号类型,因其高稳定性和易操作性而广泛应用于BCI研究。在过去的研究中,已有许多方法在SSVEP信号分类中取得了显著进展,但依然面临着信噪比低、信号非平稳性和个体差异大的挑战。为进一步提升SSVEP分类的准确性和实用性,本文提出了一种结合全局注意力机制与紧凑脑电网络(EEGNet)的新型神经网络架构——Gam-EEGNet。EEGNet作为一种紧凑、高效且适应性强的基础模型,在SSVEP信号处理中具有重要作用。通过在EEGNet中引入全局注意力机制,Gam-EEGNet能够更精确地提取和表征SSVEP信号特征,从而有效降低个体差异和噪声的影响。实验采用了涵盖12种不同频率的SSVEP脑电数据,并将Gam-EEGNet与典型卷积神经网络(CCNN)、滤波器组-时间卷积神经网络(FB-tCNN)和滤波器组-时间卷积神经网络(SSVEPNet)等主流深度学习方法进行了分类性能对比。结果表明,Gam-EEGNet在不同时间窗口下的分类准确率和信息传输率(ITR)均优于其他方法,特别是在0.7 s的短时间窗口内,分类精度达到86.58%;在1 s时间窗内,多名被试者的平均识别准确率超过95%,ITR超过189 bits/min。此外,Gam-EEGNet在训练过程中表现出更好的收敛性和稳定性,具有更快的收敛速度和更低的训练误差。这些结果表明,Gam-EEGNet在SSVEP信号分类中展现出显著的性能提升,尤其适用于实时BCI系统中的快速响应场景,具有广泛的应用潜力。 展开更多
关键词 深度学习 脑-机接口 稳态视觉诱发电位 全局注意力机制 Gam-EEGNet模型
在线阅读 下载PDF
基于AIC-YOLOv11n模型的砀山梨多表面缺陷检测方法
17
作者 李成轩 赵春江 +4 位作者 张驰 黄文倩 李佳琪 何鑫 王庆艳 《农业工程学报》 北大核心 2025年第14期320-328,共9页
针对实际应用场景中砀山梨表面缺陷检测实时性要求较高,边缘设备计算能力受限等问题,以提高砀山梨表面缺陷检测精度并对模型进行有效轻量化为前提,该研究提出一种基于改进YOLOv11n的AIC-YOLOv11n模型。首先,在主干网络中引入Adown下采... 针对实际应用场景中砀山梨表面缺陷检测实时性要求较高,边缘设备计算能力受限等问题,以提高砀山梨表面缺陷检测精度并对模型进行有效轻量化为前提,该研究提出一种基于改进YOLOv11n的AIC-YOLOv11n模型。首先,在主干网络中引入Adown下采样模块,减少模型浮点计算量和参数量提高网络提取特征能力;其次,使用融合了倒置残差块注意力机制(inverted residual mobile block,iRMB)的C2PSA-iRMB模块替换原主干网络中的C2PSA模块,在保持模型轻量的同时捕捉和利用长距离依赖;然后,将原模型的颈部结构替换为跨尺度特征融合模块(cross-scale feature fusion module,CFFM)融合不同尺度特征以提高模型对小尺度对象的检测能力。试验结果表明,采用AIC-YOLOv11n模型能够对砀山梨的多种类表面缺陷进行有效检测,在测试集上的精确度为92.5%,召回率为87.5%,平均精度均值mAP_(0.5)和mAP_(0.50~0.95)分别为92.7%和70.5%,相较于原YOLOv11n模型分别提高0.3、5.5、5.1、2.4个百分点;模型浮点计算量为4.3 G,参数量为1.46 M,模型大小为3.11 MB,分别相较于原模型下降31.7%、43.4%、40.5%;最大显存占用量为4.83 GB,帧率为120.1帧/s,计算资源占用少且推理速度满足表面缺陷检测实时性要求。研究结果可为砀山梨表面缺陷在线检测提供模型参考。 展开更多
关键词 砀山梨 机器视觉 缺陷检测 YOLOv11 轻量化 注意力机制 模型部署
在线阅读 下载PDF
CEEMDAN-Pyraformer-LSS模型在永定河径流预测中的应用
18
作者 孙祥瑜 王超 +4 位作者 杨一旸 张利娜 蔡思宇 康龙熙 王浩 《南水北调与水利科技(中英文)》 北大核心 2025年第2期363-374,共12页
为应对径流预测中多尺度性和模型复杂性对实时预测的影响,提出一种新型径流预测模型CEEMDANPyraformer-LSS,以确保模型的鲁棒性。利用自适应噪声完备集合经验模态分解(complete ensemble empirical mode decomposition with adaptive no... 为应对径流预测中多尺度性和模型复杂性对实时预测的影响,提出一种新型径流预测模型CEEMDANPyraformer-LSS,以确保模型的鲁棒性。利用自适应噪声完备集合经验模态分解(complete ensemble empirical mode decomposition with adaptive noise,CEEMDAN)技术将复杂径流序列分解为多个本征模态函数,有效去除噪声并提高数据平稳性。利用金字塔注意力模型(Pyraformer)的多头自注意力机制对这些分解后的数据进行高效特征提取和预测。为增强模型在处理噪声和突发事件时的鲁棒性和适应性,结合局部随机敏感性(localized stochastic sensitivity,LSS)函数,动态调整对最新数据点和异常值的敏感度。针对永定河4个关键断面开展应用研究,结果表明:CEEMDAN-Pyraformer-LSS模型在径流预测中精度达到95%。与LSTM、BP模型相比,基于Pyraformer的预测模型在水资源管理和防洪预警等实际应用场景实现了高效性和鲁棒性。 展开更多
关键词 降雨径流 实时预测 机器学习 金字塔注意力模型 局部随机敏感性
在线阅读 下载PDF
VSRI:基于视觉语义关系交互的图像字幕生成方法
19
作者 刘健 姚任远 +2 位作者 高楠 梁荣华 陈朋 《计算机科学》 北大核心 2025年第8期222-231,共10页
图像字幕是多模态图像理解的关键目标之一,为此需要生成细节丰富且准确的图像字幕。目前,主流的图像字幕方法主要关注区域之间的相互关系,忽略了区域与网格之间的视觉语义关系,导致生成效果不佳。为此,提出了一种视觉语义关系交互框架,... 图像字幕是多模态图像理解的关键目标之一,为此需要生成细节丰富且准确的图像字幕。目前,主流的图像字幕方法主要关注区域之间的相互关系,忽略了区域与网格之间的视觉语义关系,导致生成效果不佳。为此,提出了一种视觉语义关系交互框架,在区域与网格之间动态地构建视觉语义关系交互,以生成具有丰富场景细节和准确关系的描述。首先,提出语义关系构造器用于构建区域语义关系;然后,提出视觉-语义关系联合编码器,用于构建区域和网格内外的视觉和语义关系交互;最后,提出自适应桥接解码器,用于自适应地平衡区域和网格特征的贡献,并融合这两种特征以生成文本。在MSCOCO数据集上进行的实验表明,提出的方法在BLEU,Meteor等指标上均优于主流的基线方法。 展开更多
关键词 图像字幕生成 视觉语义关系 多模态学习 注意力机制 神经网络模型
在线阅读 下载PDF
融合SimAM注意力机制的实时多目标跟踪算法 被引量:3
20
作者 程之星 杨帆 《电子测量技术》 北大核心 2023年第17期94-101,共8页
多目标跟踪中的JDE算法首次将目标检测与重识别进行联合学习,极大提升了跟踪速度,但由于复杂背景干扰和遮挡导致跟踪准确度下降。为了解决跟踪速度与准确度的平衡问题,本文提出了SAM-JDE,该模型融合了SimAM注意力机制、多尺度融合等思想... 多目标跟踪中的JDE算法首次将目标检测与重识别进行联合学习,极大提升了跟踪速度,但由于复杂背景干扰和遮挡导致跟踪准确度下降。为了解决跟踪速度与准确度的平衡问题,本文提出了SAM-JDE,该模型融合了SimAM注意力机制、多尺度融合等思想,通过增强特征提取能力提高目标跟踪的准确性。使用CIoU_Loss作为回归损失函数,通过准确地构建目标框和预测框之间的位置关系来提升定位精度。关联匹配部分使用卡尔曼滤波预测运动信息,匈牙利匹配算法完成时序维度上的目标关联。在MOT16-test数据集上进行测试,MOTA达到66.4%,跟踪速度为20.6 FPS,在保证实时性的基础上跟踪准确度较JDE算法提升2.3%,较好地优化了准确度与速度的平衡问题。 展开更多
关键词 机器视觉 多目标跟踪 注意力机制 实时跟踪
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部