期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
一种整合语义对象特征的视觉注意力模型
1
作者 李娜 赵歆波 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2020年第5期99-105,共7页
视觉注意力建模作为预测人类在观察场景时注意力分布的关键技术,在计算机视觉的众多领域均有广泛应用.传统的视觉注意力模型着重研究人眼注视点,计算出的显著图更多的是反映眼动信息,并未将大脑的感知出的语义信息反映出来.针对这一问题... 视觉注意力建模作为预测人类在观察场景时注意力分布的关键技术,在计算机视觉的众多领域均有广泛应用.传统的视觉注意力模型着重研究人眼注视点,计算出的显著图更多的是反映眼动信息,并未将大脑的感知出的语义信息反映出来.针对这一问题,本文提出了一种整合了语义对象特征的视觉注意力模型.首先,本文建立了眼动跟踪数据库V0C2012-E,研究并记录普通人在观察自然场景时的眼动数据.然后,受语义分割启发,利用全卷积神经网络(Fully Convolution;Networks,FCN)提取语义对象特征,同时用激活函数PReLu和优化函数Adam改进FCN网络使其更有效地提取的语义对象特征,来模仿大脑对语义对象特征的感知.接着,提取在人类潜意识层吸引人注意力的如方向,颜色,强度特征等28个低级特征.最后利用支持向量机(Support Vector Machine,SVM)将之前提取的语义对象特征及低级特征映射到人类视觉空间,同时引入真实眼动数据进行有监督的训练,得到可以预测人眼视觉显著图的视觉注意力模型.实验结果表明,在VOC2012-E及MIT300数据库上与其他8种经典模型及4种先进模型相比,本文提出的视觉注意力模型性能更好,更有生物学优势. 展开更多
关键词 视觉注意力模型 语义对象特征 FCN SVM 深度学习
在线阅读 下载PDF
MHVTs:多尺度混合视觉自注意力模型
2
作者 高丽丽 应文豪 +2 位作者 钟珊 胡文军 吴晓宇 《计算机工程与设计》 北大核心 2025年第5期1395-1402,共8页
为提高ViT模型在小型数据集上从零开始训练的性能,提出一种多尺度混合ViT模型(MHVT),由多尺度扩张局部聚集模块(MDLA)和多尺度先下采样再上采样模块(MPUA)组成。MDLA利用不同膨胀率的深度可分卷积在不同通道上提取不同尺度的局部特征。M... 为提高ViT模型在小型数据集上从零开始训练的性能,提出一种多尺度混合ViT模型(MHVT),由多尺度扩张局部聚集模块(MDLA)和多尺度先下采样再上采样模块(MPUA)组成。MDLA利用不同膨胀率的深度可分卷积在不同通道上提取不同尺度的局部特征。MPUA在自注意力计算前,在不同的通道上对查询、键和值进行不同粒度的池化处理,保持计算效率的同时捕获多尺度的全局特征。在各种小尺寸数据集上的大量实验验证了MHVT在精度和速度方面均获得了更好的权衡。 展开更多
关键词 视觉注意力模型 局部相关性 多尺度特征交互 卷积神经网络 小型数据集 注意力模型 卷积神经网络
在线阅读 下载PDF
基于视觉自注意力模型的苗期玉米与杂草检测方法 被引量:5
3
作者 唐伯青 赵大勇 +1 位作者 熊锋 李德强 《南京农业大学学报》 CAS CSCD 北大核心 2024年第4期772-781,共10页
[目的]识别作物和杂草是农业智能化中自动除草的关键步骤。本文旨在解决作物与杂草识别精度低、检测模型实时性和鲁棒性差等问题。[方法]以叶龄处于3~8叶期的玉米及其伴生杂草为研究对象,提出一种高效准确的玉米苗与杂草的检测方法。该... [目的]识别作物和杂草是农业智能化中自动除草的关键步骤。本文旨在解决作物与杂草识别精度低、检测模型实时性和鲁棒性差等问题。[方法]以叶龄处于3~8叶期的玉米及其伴生杂草为研究对象,提出一种高效准确的玉米苗与杂草的检测方法。该方法以实时端到端目标检测视觉自注意力模型为基础框架,用小尺度卷积等效替代大尺度深度卷积的思想,以较小的精度损失降低推理耗时。引入一种包含上下文信息的自顶向下注意力机制,强化模型对小目标的检测效果。应用组合图像增强策略,提升模型精度与泛化能力。[结果]改进后模型的平均检测精度为90.11%,推理阶段单张图片耗时33.67 ms,模型参数量44.86 MB。改进后的模型比主流目标检测模型总体精度更高,且推理速度快。[结论]所提方法对于玉米苗与伴生杂草的整体检测性能优秀,能够提高杂草识别的准确性和效率。 展开更多
关键词 玉米 杂草 检测 实时视觉注意力模型 等效卷积 图像增强
在线阅读 下载PDF
基于注意力的多质量图像融合方法
4
作者 谭励 曹元大 +1 位作者 杨明华 张常有 《北京理工大学学报》 EI CAS CSCD 北大核心 2009年第7期614-617,共4页
为了降低视频传感器网络中的网络负载,减少能量消耗、降低时延,提出了一种分层的基于注意力模型的多质量图像融合方法.通过对节点的结构化部署及视图间的区域映射,建立了基于动态注意力的节点唤醒机制.通过使用低层节点采集的高质量图... 为了降低视频传感器网络中的网络负载,减少能量消耗、降低时延,提出了一种分层的基于注意力模型的多质量图像融合方法.通过对节点的结构化部署及视图间的区域映射,建立了基于动态注意力的节点唤醒机制.通过使用低层节点采集的高质量图像对高层节点低质量图像的融合,使注意力目标得到增强.实验结果证明了该融合方法的有效性. 展开更多
关键词 视频传感器网络 图像融合 视觉注意力模型 区域映射
在线阅读 下载PDF
基于解码器注意力机制的视频摘要 被引量:8
5
作者 冀中 江俊杰 《天津大学学报(自然科学与工程技术版)》 EI CSCD 北大核心 2018年第10期1023-1030,共8页
作为一种快速浏览和理解视频内容的方式,视频摘要技术引起了广泛的关注.本文将视频摘要任务看作是序列到序列的预测问题,设计了一种新颖的基于解码器的视觉注意力机制,并基于此提出一种有监督视频摘要算法.所提方法考虑到视频帧之间的... 作为一种快速浏览和理解视频内容的方式,视频摘要技术引起了广泛的关注.本文将视频摘要任务看作是序列到序列的预测问题,设计了一种新颖的基于解码器的视觉注意力机制,并基于此提出一种有监督视频摘要算法.所提方法考虑到视频帧之间的内在关联性,利用长短时记忆网络将注意力集中在历史的解码序列,融合历史的解码信息有效地指导解码,提升模型预测的准确性.所提算法主要在TVSum和Sum Me数据集上进行了大量实验,验证了其有效性及先进性. 展开更多
关键词 视频摘要 视觉注意力模型 编解码模型 长短时记忆网络
在线阅读 下载PDF
基于多尺度风格自适应的手写维文识别模型 被引量:1
6
作者 闫林 王磊 +2 位作者 艾孜麦提·艾尼瓦尔 杨雅婷 李晓 《计算机工程与设计》 北大核心 2024年第9期2749-2756,共8页
基于字符形态与书写风格的强关联性,提出一种多尺度风格自适应的手写维文识别模型,模型从浅层笔划到深层序列建模多尺度风格特征,提高对手写风格的自适应能力。针对手写维文特点改进Transformer提取多尺度笔划特征;构建多尺度风格自适... 基于字符形态与书写风格的强关联性,提出一种多尺度风格自适应的手写维文识别模型,模型从浅层笔划到深层序列建模多尺度风格特征,提高对手写风格的自适应能力。针对手写维文特点改进Transformer提取多尺度笔划特征;构建多尺度风格自适应模块提取序列特征;构建特征泛化融合模块对笔划特征和序列特征进行深度融合,提升识别效果。实验结果表明,该模型在真实手写维文测试集WER、CER分别下降3.75%、0.19%,在IAM数据集中验证了模型迁移性。 展开更多
关键词 手写维文识别 手写风格 多尺度 特征金字塔网络 视觉注意力模型 长短期记忆网络 特征融合
在线阅读 下载PDF
一种基于学习及视觉感知启发的目标分类方法 被引量:1
7
作者 李娜 赵歆波 +1 位作者 杨勇佳 邹晓春 《西北工业大学学报》 EI CAS CSCD 北大核心 2018年第2期359-367,共9页
目标分类是计算机视觉研究中的重要基本问题之一。为提高目标分类的准确率,由对目标进行人工分类的完整过程所得到的启发,提出了一种视觉注意力模型与CNN相结合的目标分类新方法。该方法与传统目标分类方法相比,在分类过程上更接近于人... 目标分类是计算机视觉研究中的重要基本问题之一。为提高目标分类的准确率,由对目标进行人工分类的完整过程所得到的启发,提出了一种视觉注意力模型与CNN相结合的目标分类新方法。该方法与传统目标分类方法相比,在分类过程上更接近于人工行为,有明显的生物学优势。首先,建立一个基于分类任务的眼动数据库,研究并记录人在进行目标分类时的视觉行为;然后,利用该数据库训练出一个结合低层特征(如方向、颜色、强度等)及高层特征(如人、脸、汽车等)的视觉注意力模型,以此,预测人工区分不同目标时所感兴趣的区域;最后设计CNN网络,利用视觉注意力模型所得到的感兴趣区域进行目标分类。实验结果表明,所提出的视觉注意力模型可以更准确地预测人在分类时的感兴趣区域,可显著提高目标分类的准确度,并且收敛速度更快。 展开更多
关键词 视觉注意力模型 CNN 目标分类 SVM
在线阅读 下载PDF
IEMAyoloViT:基于改进YOLOv8的水下目标检测算法 被引量:3
8
作者 施克权 李祺 +1 位作者 隋皓 朱宏娜 《电讯技术》 北大核心 2025年第1期54-62,共9页
针对光学成像技术受到光线衰减、散射等因素影响,图像质量和目标分辨率较差,不利于开展水下目标检测任务的问题,提出了一种高效水下目标检测框架IEMAyoloViT。该框架结合了改进Vision Transformer(ViT)主干的YOLOv8算法YOLOViT和一种融... 针对光学成像技术受到光线衰减、散射等因素影响,图像质量和目标分辨率较差,不利于开展水下目标检测任务的问题,提出了一种高效水下目标检测框架IEMAyoloViT。该框架结合了改进Vision Transformer(ViT)主干的YOLOv8算法YOLOViT和一种融合多尺度高效空间注意力机制(Efficient Multi-scale Attention,EMA)的C2f模块,以解决目标特征提取过程中注意力分散的问题。同时改进了Inner-CIoU损失函数,基于不同尺度的辅助边界加速边界框回归。实验结果表明,在全国水下机器人大赛(Underwater Robot Professional Contest,URPC)2021数据集中,IEMAyoloViT的mAP50高达83.2%,较YOLOv8高9.2%;mAP50:95较YOLOv8高1.0%,证明了IEMAyoloViT的有效性和应用潜力。 展开更多
关键词 水下目标检测 深度学习 视觉注意力模型 注意力机制
在线阅读 下载PDF
融合多种参数高效微调技术的深度伪造检测方法 被引量:1
9
作者 张溢文 蔡满春 +2 位作者 陈咏豪 朱懿 姚利峰 《计算机科学与探索》 CSCD 北大核心 2024年第12期3335-3347,共13页
近年来,随着深度伪造技术趋于成熟,换脸软件、合成视频已经随处可见。尽管深度伪造技术为人们带来了娱乐,但同时也为不法分子提供了滥用的机会。因此,深度伪造检测技术的重要性也日益凸显。现有的深度伪造检测方法普遍存在跨压缩率鲁棒... 近年来,随着深度伪造技术趋于成熟,换脸软件、合成视频已经随处可见。尽管深度伪造技术为人们带来了娱乐,但同时也为不法分子提供了滥用的机会。因此,深度伪造检测技术的重要性也日益凸显。现有的深度伪造检测方法普遍存在跨压缩率鲁棒性差、跨数据集泛化性差以及模型训练开销大等问题。为解决上述问题,提出一种融合多种参数高效微调技术的深度伪造检测方法,使用以掩码图像建模(MIM)自监督方法预训练的视觉自注意力模型作为主干,使用克罗内克积改进的低秩自适应方法对预训练模型的自注意力模块参数进行微调,同时采用并行结构加入卷积适配器对图像局部纹理信息进行学习,以增强预训练模型在深度伪造检测任务中的适应能力,采用并行结构引入经典适配器对预训练模型的前馈网络微调以充分利用预训练阶段学习到的知识,使用多层感知机代替原预训练模型分类头实现深度伪造检测。在六个数据集上的实验结果表明,该模型在可训练参数仅有2×10^(7)的情况下,在六个主流数据集上实现了平均约0.996的帧水平AUC。在跨压缩率实验中,帧水平AUC的平均下降为0.135。在跨数据集泛化性实验中,帧水平AUC达到了平均0.765。 展开更多
关键词 深度伪造 视觉注意力模型 自监督预训练模型 低秩自适应 参数高效微调
在线阅读 下载PDF
基于语义分割的视频鱼类特征提取方法研究 被引量:1
10
作者 李潇洋 陈健 常剑波 《水生态学杂志》 CSCD 北大核心 2024年第5期204-212,共9页
从视频图像中快速、准确提取水生生物(如鱼类)的特征信息,是信息科学与水生态研究结合的热点。基于Transformer的视觉模型,采用一种基于弱监督语义分割的视频鱼类特征提取方法,在无需预训练或微调的条件下,可以实现对鱼的身体、头部和鱼... 从视频图像中快速、准确提取水生生物(如鱼类)的特征信息,是信息科学与水生态研究结合的热点。基于Transformer的视觉模型,采用一种基于弱监督语义分割的视频鱼类特征提取方法,在无需预训练或微调的条件下,可以实现对鱼的身体、头部和鱼鳍3类形态区域标签的分割提取。采用DeepFish分割数据集构建计算机视觉自注意力模型(vision transformer,ViT),通过对水下拍摄的鱼类视频进行实验,结果实现了鱼体形态主体特征的有效提取,对拟定的3类形态标签区域进行了良好的分割标记。研究方法具有较高的效率、分割准确度和标记区域的连续平滑性,可提供良好的语义特征,为人工智能技术在鱼类等水生生物监测实践中提供了一种低成本、高效率的新方法。 展开更多
关键词 弱监督学习 语义分割 视觉注意力模型 鱼类特征提取
在线阅读 下载PDF
基于深度学习的肝包虫病超声图像分型研究 被引量:10
11
作者 南嘉格列 李锐 +3 位作者 王海霞 周旭 王毅 倪东 《深圳大学学报(理工版)》 EI CAS CSCD 北大核心 2019年第6期702-708,共7页
肝包虫病是一种严重的地域性寄生虫病,其病灶分型主要依靠临床医生对超声图像的主观判断,疾病筛查十分耗时,且容易造成误判.提出一种基于超声图像的肝包虫病病灶智能分型方法,首先从肝脏包虫病超声图像中直接裁剪得到病灶区域图像,利用... 肝包虫病是一种严重的地域性寄生虫病,其病灶分型主要依靠临床医生对超声图像的主观判断,疾病筛查十分耗时,且容易造成误判.提出一种基于超声图像的肝包虫病病灶智能分型方法,首先从肝脏包虫病超声图像中直接裁剪得到病灶区域图像,利用深度卷积神经网络(convolutional neural network,CNN)提取图像多尺度特征,然后结合视觉注意力模型,通过分类网络的主分支和辅助分支分别学习图像的整体和局部细节特征,最后使用度量学习来表征同类别之间样本的相似特征,实现对9种类型的包虫病病灶进行全自动分类.构建了一个18层CNN网络,通过7000张图像完成训练,在2000张图像上测试得到的平均准确率为82%,平均F 1分数为82%.实验结果表明,该方法能有效用于肝包虫病超声图像分型. 展开更多
关键词 生物医学工程 肝包虫病 卷积神经网络 超声图像 病灶分型 视觉注意力模型 度量学习 迁移学习 双分支分类网络
在线阅读 下载PDF
多尺度时空特征融合的动态手势识别网络 被引量:3
12
作者 刘杰 王月 田明 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2614-2622,共9页
由于动态手势数据具有时间复杂性以及空间复杂性,传统的机器学习算法难以提取准确的手势特征;现有的动态手势识别算法网络设计复杂、参数量大、手势特征提取不充分。为解决以上问题,该文提出一种基于卷积视觉自注意力模型(CvT)的多尺度... 由于动态手势数据具有时间复杂性以及空间复杂性,传统的机器学习算法难以提取准确的手势特征;现有的动态手势识别算法网络设计复杂、参数量大、手势特征提取不充分。为解决以上问题,该文提出一种基于卷积视觉自注意力模型(CvT)的多尺度时空特征融合网络。首先,将图片分类领域的CvT网络引入动态手势分类领域,用于提取单张手势图片的空间特征,将不同空间尺度的浅层特征与深层特征融合。其次,设计一种多时间尺度聚合模块,提取动态手势的时空特征,将CvT网络与多时间尺度聚合模块结合,抑制无效特征。最后为了弥补CvT网络中dropout层的不足,将R-Drop模型应用于多尺度时空特征融合网络。在Jester数据集上进行实验验证,与多种基于深度学习的动态手势识别方法进行对比,实验结果表明,该文方法在识别率上优于现有动态手势识别方法,在动态手势数据集Jester上识别率达到92.26%。 展开更多
关键词 动态手势识别 深度学习 卷积视觉注意力模型 多尺度融合
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部