现有目标检测算法对背景复杂下小交通标志的检测效果并不理想。为此,提出了一种基于归一化通道注意力机制YOLOv7的交通标志检测算法(YOLOv7 based on normalized channel attention mechanism,YOLOv7-NCAM)。为了使YOLOv7-NCAM模型具有...现有目标检测算法对背景复杂下小交通标志的检测效果并不理想。为此,提出了一种基于归一化通道注意力机制YOLOv7的交通标志检测算法(YOLOv7 based on normalized channel attention mechanism,YOLOv7-NCAM)。为了使YOLOv7-NCAM模型具有像素级建模能力,提高它对小目标交通标志特征的提取能力,YOLOv7-NCAM算法使用FReLU激活函数构建了DBF和CBF两种卷积层,并用它们来组建模型的Backbone模块和Neck模块;提出一种归一化通道注意力机制(normalized channel attention mechanism,NCAM)并加入Head模块中。通过与整体网络一起训练,得到归一化(batch normalization,BN)缩放因子,利用缩放因子算出各个通道的权重因子,提升网络对交通标志特征的表达能力,从而使YOLOv7-NCAM网络模型能够集中关注检测目标交通标志。通过在CCTSDB-2021交通标志检测数据集上的测试,与YOLOv7网络模型对比结果表明,YOLOv7-NCAM算法对背景复杂下小交通标志的检测各项指标均有明显提高:准确率(precision,P)达到91.5%,比原网络高出9.5个百分点;召回率(recall,R)达到85.9%,比原网络高出5.7个百分点;均值平均精度(mean average precision,mAP)达到了91.4%,比原网络高出4.7个百分点。与现有的交通标志检测算法相比,YOLOv7-NCAM算法的检测准确率也有提高,且检测速度48.3 FPS,能满足实时需求。展开更多
针对实时行人检测场景存在遮挡、形态姿势不同的行人目标,YOLOv5模型对于这些目标检测有明显的漏检问题,提出一种像素差异度注意力机制(pixel difference attention,PDA),不同于传统的通道注意力机制用全局均值池化(global average pool...针对实时行人检测场景存在遮挡、形态姿势不同的行人目标,YOLOv5模型对于这些目标检测有明显的漏检问题,提出一种像素差异度注意力机制(pixel difference attention,PDA),不同于传统的通道注意力机制用全局均值池化(global average pooling,GAP)、全局最大值池化(global max pooling,GMP)来概括整张特征图的信息,全局池化将空间压缩成一个值来表征整个通道,造成了空间信息的流失,PDA将空间信息沿高和宽分别压缩,并将其分别与通道信息联系起来做注意力加权操作,同时提出一种新的通道描述指标表征通道信息,增强空间信息与通道信息的交互,使模型更容易关注到综合了空间和通道维度上的特征图的重要信息,在主干网络末端插入PDA后使模型平均精度(mean average precision,mAP)0.5提升了2.4个百分点,mAP0.5:0.95提升了4.4个百分点;针对实时检测场景的部署和检测速度要求模型拥有较少的参数量和计算量,因此提出了新的轻量化特征提取模块AC3代替原YOLOv5模型中的C3模块,该模块使插入PDA后的改进模型在精度仅仅损失0.2个百分点的情况下,参数量(parameters,Param.)减少了20%左右,浮点运算量(giga floating-point operations,GFLOPs)减少了30%左右。实验结果表明,最终的改进模型比YOLOv5s原模型在VOC行人数据集上mAP0.5提升了2.2个百分点,mAP0.5:0.95提升了3.1个百分点,且参数量减少了20%左右,浮点运算量减少了30%左右,在GTX1050上的检测速度(frames per second,FPS)提升了4。展开更多
稀疏采样与图像复原相结合不但可以压缩数据容量,而且还可以提高成像速度,对于发展高分辨率激光雷达成像技术具有重要意义。为了改善稀疏采样图像的复原效果,本文设计了一种新的残差通道注意力机制网络块,并将残差通道注意力机制引入到...稀疏采样与图像复原相结合不但可以压缩数据容量,而且还可以提高成像速度,对于发展高分辨率激光雷达成像技术具有重要意义。为了改善稀疏采样图像的复原效果,本文设计了一种新的残差通道注意力机制网络块,并将残差通道注意力机制引入到基于压缩感知迭代软阈值方法的深度展开网络中,抑制图像复原重建中因缺失高频信息而导致的模糊现象,形成了一种新的激光雷达稀疏采样图像的复原重建方法。该方法结合了传统压缩感知重建方法和神经网络方法的优势,与传统压缩感知重建方法相比,具有更快的重建速度;与现有神经网络方法相比,增强了结构洞察力,改进了重建图像模糊问题。以Middlebury Stereo Data 2006为测试数据集的验证计算表明,本文提出的方法与SDA、ReconNet、TVAL3、D-AMP和IRCNN等方法相比不但具有更好的图像重建质量,而且具有较高的计算效率;当稀疏采样比率为25%时,复原后图像的峰值信噪比要比其他方法高1.6 d B以上,是一种综合性能较理想的激光雷达稀疏图像复原方法。展开更多
文摘现有目标检测算法对背景复杂下小交通标志的检测效果并不理想。为此,提出了一种基于归一化通道注意力机制YOLOv7的交通标志检测算法(YOLOv7 based on normalized channel attention mechanism,YOLOv7-NCAM)。为了使YOLOv7-NCAM模型具有像素级建模能力,提高它对小目标交通标志特征的提取能力,YOLOv7-NCAM算法使用FReLU激活函数构建了DBF和CBF两种卷积层,并用它们来组建模型的Backbone模块和Neck模块;提出一种归一化通道注意力机制(normalized channel attention mechanism,NCAM)并加入Head模块中。通过与整体网络一起训练,得到归一化(batch normalization,BN)缩放因子,利用缩放因子算出各个通道的权重因子,提升网络对交通标志特征的表达能力,从而使YOLOv7-NCAM网络模型能够集中关注检测目标交通标志。通过在CCTSDB-2021交通标志检测数据集上的测试,与YOLOv7网络模型对比结果表明,YOLOv7-NCAM算法对背景复杂下小交通标志的检测各项指标均有明显提高:准确率(precision,P)达到91.5%,比原网络高出9.5个百分点;召回率(recall,R)达到85.9%,比原网络高出5.7个百分点;均值平均精度(mean average precision,mAP)达到了91.4%,比原网络高出4.7个百分点。与现有的交通标志检测算法相比,YOLOv7-NCAM算法的检测准确率也有提高,且检测速度48.3 FPS,能满足实时需求。
文摘针对实时行人检测场景存在遮挡、形态姿势不同的行人目标,YOLOv5模型对于这些目标检测有明显的漏检问题,提出一种像素差异度注意力机制(pixel difference attention,PDA),不同于传统的通道注意力机制用全局均值池化(global average pooling,GAP)、全局最大值池化(global max pooling,GMP)来概括整张特征图的信息,全局池化将空间压缩成一个值来表征整个通道,造成了空间信息的流失,PDA将空间信息沿高和宽分别压缩,并将其分别与通道信息联系起来做注意力加权操作,同时提出一种新的通道描述指标表征通道信息,增强空间信息与通道信息的交互,使模型更容易关注到综合了空间和通道维度上的特征图的重要信息,在主干网络末端插入PDA后使模型平均精度(mean average precision,mAP)0.5提升了2.4个百分点,mAP0.5:0.95提升了4.4个百分点;针对实时检测场景的部署和检测速度要求模型拥有较少的参数量和计算量,因此提出了新的轻量化特征提取模块AC3代替原YOLOv5模型中的C3模块,该模块使插入PDA后的改进模型在精度仅仅损失0.2个百分点的情况下,参数量(parameters,Param.)减少了20%左右,浮点运算量(giga floating-point operations,GFLOPs)减少了30%左右。实验结果表明,最终的改进模型比YOLOv5s原模型在VOC行人数据集上mAP0.5提升了2.2个百分点,mAP0.5:0.95提升了3.1个百分点,且参数量减少了20%左右,浮点运算量减少了30%左右,在GTX1050上的检测速度(frames per second,FPS)提升了4。
文摘稀疏采样与图像复原相结合不但可以压缩数据容量,而且还可以提高成像速度,对于发展高分辨率激光雷达成像技术具有重要意义。为了改善稀疏采样图像的复原效果,本文设计了一种新的残差通道注意力机制网络块,并将残差通道注意力机制引入到基于压缩感知迭代软阈值方法的深度展开网络中,抑制图像复原重建中因缺失高频信息而导致的模糊现象,形成了一种新的激光雷达稀疏采样图像的复原重建方法。该方法结合了传统压缩感知重建方法和神经网络方法的优势,与传统压缩感知重建方法相比,具有更快的重建速度;与现有神经网络方法相比,增强了结构洞察力,改进了重建图像模糊问题。以Middlebury Stereo Data 2006为测试数据集的验证计算表明,本文提出的方法与SDA、ReconNet、TVAL3、D-AMP和IRCNN等方法相比不但具有更好的图像重建质量,而且具有较高的计算效率;当稀疏采样比率为25%时,复原后图像的峰值信噪比要比其他方法高1.6 d B以上,是一种综合性能较理想的激光雷达稀疏图像复原方法。