期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
一种并行注意力的金字塔视觉Transformer的结肠息肉分割网络
1
作者 庞飞翔 丁德锐 罗康 《小型微型计算机系统》 北大核心 2025年第5期1161-1168,共8页
针对结肠息肉数据的多样性特征以及大多数息肉分割的方法缺乏将不同层的特征信息进行交互的不足,本文提出了一种新的结肠息肉分割模型(PVT-PMFFD).该模型由可以捕捉多尺度信息的金字塔视觉Tranformer(PVT)编码器和实现不同层之间多尺度... 针对结肠息肉数据的多样性特征以及大多数息肉分割的方法缺乏将不同层的特征信息进行交互的不足,本文提出了一种新的结肠息肉分割模型(PVT-PMFFD).该模型由可以捕捉多尺度信息的金字塔视觉Tranformer(PVT)编码器和实现不同层之间多尺度信息交互的并行多级特征融合解码器(PMFFD)组成.特别地,并行多级特征融合解码器包括了特征融合池化模块(FPM)用于全局和局部信息的融合,特征增强模块(FEM)用于对特征信息的增强,并行注意力卷积模块(PACM)用于实现全局和局部信息之间的交互以及细化再增强特征.此外本文使用了深度监督的框架,对多级特征进行监督学习,进一步改善了模型的分割性能.本文模型在5个息肉数据集上与9个医学图像分割网络进行对比,结果表明本文方法具有更强的学习能力与泛化能力. 展开更多
关键词 结肠息肉分割 金字塔视觉transformer 并行多级特征融合 注意力
在线阅读 下载PDF
基于双通道Transformer的地铁站台异物检测 被引量:1
2
作者 刘瑞康 刘伟铭 +2 位作者 段梦飞 谢玮 戴愿 《计算机工程》 CAS CSCD 北大核心 2024年第4期197-207,共11页
Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transforme... Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transformer块和通道交叉注意力机制的DualF ormer模型,用以检测地铁站台屏蔽门与列车门间隙中存在的异物。针对输入图像块尺寸固定的问题,提出双通道策略,通过设计2种不同的特征提取通道对不同尺度的输入图像块进行特征提取,增强网络对粗、细粒度特征的提取能力,提高对多尺度目标的识别精度;针对计算成本高的问题,构建金字塔轻量化Transformer块,将级联卷积引入到多头自注意力(MHSA)模块中,并利用卷积的维度压缩能力来降低模型的计算成本;针对局部与全局信息交互匮乏的问题,提出通道交叉注意力机制,利用提取到的粗细粒度特征在通道层面进行交互,优化局部与全局信息在网络中的权重。在标准化地铁异物检测数据集上的实验结果表明,DualFormer模型参数量为1.98×10^(7),实现了89.7%的精度和24帧/s的速度,优于对比的Transformer检测算法。 展开更多
关键词 视觉transformer 异物检测 双通道策略 金字塔轻量化transformer 注意力融合
在线阅读 下载PDF
ViTH:面向医学图像检索的视觉Transformer哈希改进算法
3
作者 刘传升 丁卫平 +2 位作者 程纯 黄嘉爽 王海鹏 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第5期11-26,共16页
对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义.哈希方法是图像检索领域中的一种主流方法,但在医学图像领域的应用相对较少.针对此,提出一种面向医学图像检索的视觉Transformer哈希改进算法.首先使用视觉Transfor... 对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义.哈希方法是图像检索领域中的一种主流方法,但在医学图像领域的应用相对较少.针对此,提出一种面向医学图像检索的视觉Transformer哈希改进算法.首先使用视觉Transformer模型作为基础的特征提取模块,其次在Transformer编码器的前、后端分别加入幂均值变换(Power-Mean Transformation,PMT),进一步增强模型的非线性性能,接着在Transformer编码器内部的多头注意力(Multi-Head Attention,MHA)层引入空间金字塔池化(Spatial Pyramid Pooling,SPP)形成多头空间金字塔池化注意力(Multi-Head Spatial Pyramid Pooling Attention,MHSPA)模块,该模块不仅可以提取全局的上下文特征,而且可以提取多尺度的局部上下文特征,并将不同尺度的特征进行融合.最后在输出幂均值变换层之后将提取到的特征分别通过两个多层感知机(Multi-Layer Perceptrons,MLPs),上分支的MLP用来预测图像的类别,下分支的MLP用来学习图像的哈希码.在损失函数部分,充分考虑了成对损失、量化损失、平衡损失以及分类损失来优化整个模型.在医学图像数据集ChestX-ray14和ISIC 2018上的实验结果表明,该研究所提出的算法相比于经典的哈希算法具有更好的检索效果. 展开更多
关键词 医学图像检索 视觉transformer 哈希 幂均值变换 空间金字塔池化
在线阅读 下载PDF
面向强后处理场景的图像篡改定位模型
4
作者 谭舜泉 廖桂樱 +1 位作者 彭荣煊 黄继武 《通信学报》 EI CSCD 北大核心 2024年第4期146-159,共14页
针对微信、微博等社交平台对图像进行的压缩、尺度拉伸等有损操作带来的篡改痕迹模糊或被破坏的挑战,提出了一种对抗强后处理的图像篡改定位模型。该模型选用了基于Transformer的金字塔视觉转换器作为编码器,用于提取图像的篡改特征。同... 针对微信、微博等社交平台对图像进行的压缩、尺度拉伸等有损操作带来的篡改痕迹模糊或被破坏的挑战,提出了一种对抗强后处理的图像篡改定位模型。该模型选用了基于Transformer的金字塔视觉转换器作为编码器,用于提取图像的篡改特征。同时,设计了一个类UNet结构的端到端编码器-解码器架构。金字塔视觉转换器的金字塔结构和注意力机制可以灵活关注图像的各个区块,结合类UNet结构能够多尺度地提取图像上下文间的关联信息,对强后处理的图像有着较好的鲁棒性。实验结果表明,所提模型在对抗JPEG压缩、高斯模糊等常见的后处理操作以及在不同社交媒体传播场景的数据集上的定位性能上明显优于目前主流的篡改定位模型,展现出了优异的鲁棒性。 展开更多
关键词 强后处理场景 图像篡改定位 鲁棒性 金字塔视觉转换器
在线阅读 下载PDF
基于改进YOLOv5s的鱼雷检测算法 被引量:1
5
作者 崔陈 甘文洋 朱大奇 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第1期35-41,79,共8页
针对目前深海鱼雷检测中存在检测精度低和检测速度慢的问题,提出了一种基于改进YOLOv5s的鱼雷检测算法。使用可分离视觉变换器(SepViT)模块来替换主干层网络最后一层中的C3模块,增强骨干网络与全局信息的联系以及鱼雷特征的提取,降低漏... 针对目前深海鱼雷检测中存在检测精度低和检测速度慢的问题,提出了一种基于改进YOLOv5s的鱼雷检测算法。使用可分离视觉变换器(SepViT)模块来替换主干层网络最后一层中的C3模块,增强骨干网络与全局信息的联系以及鱼雷特征的提取,降低漏检率和误检率。在YOLOv5s网络模型的主干层网络中引入ECA注意力机制,提高复杂的深海环境下检测模型对于鱼雷深层次关键特征的提取能力,同时避免了降维,以有效的方式捕捉跨通道的交互信息,以此来提高鱼雷检测模型的检测精度。将网络模型颈部层中的路径聚合网络(PANet)替换为双向特征金字塔网络(BiFPN),采用跨尺度连接去除路径聚合网络(PANet)中对特征融合贡献较小的节点,实现多尺度特征的快速融合,提高鱼雷检测模型的检测效率。实验结果表明:改进的YOLOv5s鱼雷检测算法的均值平均精度(mAP)达到了97.0%,较原来的YOLOv5s算法提高了3.7%,检测速度达83 FPS,有效地提高了深海鱼雷检测的精度和速度。 展开更多
关键词 鱼雷检测 YOLOv5s 深度学习 可分离视觉变换器 注意力机制 双向特征金字塔网络
在线阅读 下载PDF
复杂场景下的行人跌倒检测算法 被引量:5
6
作者 方可 刘蓉 +2 位作者 魏驰宇 张心月 刘杨 《计算机应用》 CSCD 北大核心 2023年第6期1811-1817,共7页
随着人口老龄化程度的不断深化,跌倒检测成为医疗与健康领域的一个关键问题。针对复杂场景下跌倒检测算法准确率偏低的问题,提出一种改进的跌倒检测模型——PDD-FCOS(PVT DRFPN DIoU-Fully Convolutional One-Stage object detection)... 随着人口老龄化程度的不断深化,跌倒检测成为医疗与健康领域的一个关键问题。针对复杂场景下跌倒检测算法准确率偏低的问题,提出一种改进的跌倒检测模型——PDD-FCOS(PVT DRFPN DIoU-Fully Convolutional One-Stage object detection)。在基准FCOS算法的骨干网络中引入金字塔视觉转换器(PVT),以不增加计算量为前提提取更丰富的语义信息;在特征信息融合阶段插入双重细化特征金字塔网络(DRFPN),更加准确地学习特征图之间采样点的位置和其他信息,并通过上下文信息捕获特征通道之间更准确的语义关系,从而提升检测性能;训练阶段采用距离交并比(DIoU)损失进行边界框回归,通过优化预测框与目标框中心点的距离,使回归框收敛得更快更准确,从而有效提高跌倒检测算法的准确率。实验结果表明,所提模型在开源数据集Fall detection Database上平均精确度均值(mAP)达到82.2%,与基准FCOS算法相比,所提算法的mAP提升了6.4个百分点,且相较于其他主流目标检测算法有精度上的提升以及更好的泛化能力。 展开更多
关键词 目标检测 行人跌倒检测 金字塔视觉转换器 注意力机制 双重细化特征金字塔网络 距离交并比
在线阅读 下载PDF
采用轮廓向量特征的嵌入式图像匹配方法 被引量:8
7
作者 倪健 白瑞林 +2 位作者 李英 吉峰 李杜 《计算机工程与应用》 CSCD 2014年第13期168-172,共5页
为实现工业流水线快速、准确目标定位,提出一种采用轮廓向量特征的实时图像匹配方法。以X、Y方向向量为描述的关键轮廓点集为匹配特征,根据模板具体信息,计算最佳金字塔分层数、模板旋转角度步长和缩放步长,图像金字塔最高层则利用二级... 为实现工业流水线快速、准确目标定位,提出一种采用轮廓向量特征的实时图像匹配方法。以X、Y方向向量为描述的关键轮廓点集为匹配特征,根据模板具体信息,计算最佳金字塔分层数、模板旋转角度步长和缩放步长,图像金字塔最高层则利用二级筛选策略,依据待测图优先剔除大量目标非潜在位置区域,仅对剩余少量区域进行计算,非最高层则进行同步局部搜索图像区域构建及匹配。实际测试表明:对目标遮挡,光照变化,聚焦不准,对比度低等鲁棒性强,耗时为毫秒级,识别率达97%以上,可实现任意坐标、角度和缩放情况下的目标定位,可满足工业现场要求。 展开更多
关键词 机器视觉 图像匹配 关键轮廓特征 图像金字塔 仿射变换
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部