期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于改进视觉自注意力模型的分心驾驶行为识别研究
1
作者 夏嗣礼 《无线互联科技》 2024年第7期13-16,67,共5页
针对分心驾驶行为识别问题,文章提出一种基于改进视觉自注意力模型的方法,构建了模型ViT_CR,用于估计驾驶员头部姿势,通过多任务学习提高角度预测精度,在数据集AFLW上预测误差MAE为4.61;运用ViT_CR处理连续视频帧,并基于分心驾驶识别原... 针对分心驾驶行为识别问题,文章提出一种基于改进视觉自注意力模型的方法,构建了模型ViT_CR,用于估计驾驶员头部姿势,通过多任务学习提高角度预测精度,在数据集AFLW上预测误差MAE为4.61;运用ViT_CR处理连续视频帧,并基于分心驾驶识别原则设定安全阈值与辅助参数判断驾驶员是否处于分心状态。实验表明,在真实驾驶数据集Dimags上,该方法能有效利用头部姿势的时序信息进行识别,为分心驾驶监测及预警提供了一种新的思路。 展开更多
关键词 分心驾驶 视觉自注意力模型 行为识别 头部姿势
在线阅读 下载PDF
IEMAyoloViT:基于改进YOLOv8的水下目标检测算法
2
作者 施克权 李祺 +1 位作者 隋皓 朱宏娜 《电讯技术》 北大核心 2025年第1期54-62,共9页
针对光学成像技术受到光线衰减、散射等因素影响,图像质量和目标分辨率较差,不利于开展水下目标检测任务的问题,提出了一种高效水下目标检测框架IEMAyoloViT。该框架结合了改进Vision Transformer(ViT)主干的YOLOv8算法YOLOViT和一种融... 针对光学成像技术受到光线衰减、散射等因素影响,图像质量和目标分辨率较差,不利于开展水下目标检测任务的问题,提出了一种高效水下目标检测框架IEMAyoloViT。该框架结合了改进Vision Transformer(ViT)主干的YOLOv8算法YOLOViT和一种融合多尺度高效空间注意力机制(Efficient Multi-scale Attention,EMA)的C2f模块,以解决目标特征提取过程中注意力分散的问题。同时改进了Inner-CIoU损失函数,基于不同尺度的辅助边界加速边界框回归。实验结果表明,在全国水下机器人大赛(Underwater Robot Professional Contest,URPC)2021数据集中,IEMAyoloViT的mAP50高达83.2%,较YOLOv8高9.2%;mAP50:95较YOLOv8高1.0%,证明了IEMAyoloViT的有效性和应用潜力。 展开更多
关键词 水下目标检测 深度学习 视觉自注意力模型 注意力机制
在线阅读 下载PDF
基于语义分割的视频鱼类特征提取方法研究
3
作者 李潇洋 陈健 常剑波 《水生态学杂志》 CSCD 北大核心 2024年第5期204-212,共9页
从视频图像中快速、准确提取水生生物(如鱼类)的特征信息,是信息科学与水生态研究结合的热点。基于Transformer的视觉模型,采用一种基于弱监督语义分割的视频鱼类特征提取方法,在无需预训练或微调的条件下,可以实现对鱼的身体、头部和鱼... 从视频图像中快速、准确提取水生生物(如鱼类)的特征信息,是信息科学与水生态研究结合的热点。基于Transformer的视觉模型,采用一种基于弱监督语义分割的视频鱼类特征提取方法,在无需预训练或微调的条件下,可以实现对鱼的身体、头部和鱼鳍3类形态区域标签的分割提取。采用DeepFish分割数据集构建计算机视觉自注意力模型(vision transformer,ViT),通过对水下拍摄的鱼类视频进行实验,结果实现了鱼体形态主体特征的有效提取,对拟定的3类形态标签区域进行了良好的分割标记。研究方法具有较高的效率、分割准确度和标记区域的连续平滑性,可提供良好的语义特征,为人工智能技术在鱼类等水生生物监测实践中提供了一种低成本、高效率的新方法。 展开更多
关键词 弱监督学习 语义分割 视觉自注意力模型 鱼类特征提取
在线阅读 下载PDF
多尺度时空特征融合的动态手势识别网络 被引量:3
4
作者 刘杰 王月 田明 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2614-2622,共9页
由于动态手势数据具有时间复杂性以及空间复杂性,传统的机器学习算法难以提取准确的手势特征;现有的动态手势识别算法网络设计复杂、参数量大、手势特征提取不充分。为解决以上问题,该文提出一种基于卷积视觉自注意力模型(CvT)的多尺度... 由于动态手势数据具有时间复杂性以及空间复杂性,传统的机器学习算法难以提取准确的手势特征;现有的动态手势识别算法网络设计复杂、参数量大、手势特征提取不充分。为解决以上问题,该文提出一种基于卷积视觉自注意力模型(CvT)的多尺度时空特征融合网络。首先,将图片分类领域的CvT网络引入动态手势分类领域,用于提取单张手势图片的空间特征,将不同空间尺度的浅层特征与深层特征融合。其次,设计一种多时间尺度聚合模块,提取动态手势的时空特征,将CvT网络与多时间尺度聚合模块结合,抑制无效特征。最后为了弥补CvT网络中dropout层的不足,将R-Drop模型应用于多尺度时空特征融合网络。在Jester数据集上进行实验验证,与多种基于深度学习的动态手势识别方法进行对比,实验结果表明,该文方法在识别率上优于现有动态手势识别方法,在动态手势数据集Jester上识别率达到92.26%。 展开更多
关键词 动态手势识别 深度学习 卷积视觉自注意力模型 多尺度融合
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部