为了解决自然场景文本图像因为遮挡、扭曲等原因难以识别的问题,提出基于多模态特征融合的场景文本识别网络(multimodal scene text recognition,MMSTR)。首先,MMSTR使用共享权重内部自回归的排列语言模型实现多种解码策略;其次,MMSTR...为了解决自然场景文本图像因为遮挡、扭曲等原因难以识别的问题,提出基于多模态特征融合的场景文本识别网络(multimodal scene text recognition,MMSTR)。首先,MMSTR使用共享权重内部自回归的排列语言模型实现多种解码策略;其次,MMSTR在图像编码阶段提出残差注意力编码器(residual attention encoder,REA-encoder)提高了对浅层特征捕获能力,使得浅层特征能够传到更深的网络层,有效缓解了vision Transformer提取图像浅层特征不充分引起的特征坍塌问题;最后,针对解码过程中存在语义特征与视觉特征融合不充分的问题,MMSTR构建了决策融合模块(decision fusion module,DFM),利用级联多头注意力机制提高语义与视觉的融合程度。经过实验证明,MMSTR在ⅢT5K、ICDAR13等六个公共数据集上平均词准确率达到96.6%。此外,MMSTR在识别遮挡、扭曲等难以识别的文本图像方面相较于其他的主流算法具有显著优势。展开更多
对抗样本攻击是识别网络面临的主要安全威胁之一。针对对抗样本检测过程中由分类边界模糊导致识别准确率低及需大量对抗样本参与训练导致模型收敛速率慢等问题,本文提出一种联合图像重构技术和图像生成技术实现的对抗样本检测方法。首先...对抗样本攻击是识别网络面临的主要安全威胁之一。针对对抗样本检测过程中由分类边界模糊导致识别准确率低及需大量对抗样本参与训练导致模型收敛速率慢等问题,本文提出一种联合图像重构技术和图像生成技术实现的对抗样本检测方法。首先,设计由卷积层和Swin-Transformer联合实现的图像重构网络,还原图像的语义信息并消除对抗性扰动;然后,利用条件生成式对抗网络依据标签信息生成对应类别图像;最后,将重构图像和生成图像送至卷积识别网络,依据分类结果一致性判断是否为对抗样本。该方法将对抗样本检测问题转化为图像分类问题,无需对抗样本参与训练,无需先验地了解攻击者的攻击类型和被攻击模型的结构和参数即可直接检测对抗样本。在VGG-16、Res Net-18、Goog Le Net分类网络和MNIST、GTSRB数据集上的实验结果表明,该检测方法相较于其他经典检测方法,平均识别准确率提升了4.75%~22.86%,F1分数提升了3.40%~13.64%,证明了其优越性。展开更多
针对安全帽检测任务中存在的目标面积小、目标被不同程度遮挡、复杂背景干扰目标等问题,提出了基于YOLOX的多感受野增强的安全帽检测算法(multiple receptive field enhancement-YOLOX,MRFE-YOLOX)。在特征融合网络中增加浅层特征融合分...针对安全帽检测任务中存在的目标面积小、目标被不同程度遮挡、复杂背景干扰目标等问题,提出了基于YOLOX的多感受野增强的安全帽检测算法(multiple receptive field enhancement-YOLOX,MRFE-YOLOX)。在特征融合网络中增加浅层特征融合分支,提升小目标特征信息流通效率,提高了小目标的检测精度;设计基于空洞卷积组与卷积注意力机制的感受野增强模块(receptive field augmentation module,RFAM),捕获了更大范围的感受野和图像特征,改善了遮挡目标漏检率高的问题;根据三分支注意力机制构建特征增强网络(feature enhancement network,FENet),抑制背景噪音对目标区域的干扰,降低了复杂背景下的目标误检率;引入空间到深度卷积(space to depth-conv,SPD-Conv)得到无信息损失的二倍下采样特征图,保留了更多的特征信息,同时减少了模型的参数量。实验结果表明,所提算法的均值平均精度相较于基线算法提升了2.78个百分点,FPS达到了102.67,满足了爆破现场安全帽实时检测的需要。展开更多
文摘为了解决自然场景文本图像因为遮挡、扭曲等原因难以识别的问题,提出基于多模态特征融合的场景文本识别网络(multimodal scene text recognition,MMSTR)。首先,MMSTR使用共享权重内部自回归的排列语言模型实现多种解码策略;其次,MMSTR在图像编码阶段提出残差注意力编码器(residual attention encoder,REA-encoder)提高了对浅层特征捕获能力,使得浅层特征能够传到更深的网络层,有效缓解了vision Transformer提取图像浅层特征不充分引起的特征坍塌问题;最后,针对解码过程中存在语义特征与视觉特征融合不充分的问题,MMSTR构建了决策融合模块(decision fusion module,DFM),利用级联多头注意力机制提高语义与视觉的融合程度。经过实验证明,MMSTR在ⅢT5K、ICDAR13等六个公共数据集上平均词准确率达到96.6%。此外,MMSTR在识别遮挡、扭曲等难以识别的文本图像方面相较于其他的主流算法具有显著优势。
文摘对抗样本攻击是识别网络面临的主要安全威胁之一。针对对抗样本检测过程中由分类边界模糊导致识别准确率低及需大量对抗样本参与训练导致模型收敛速率慢等问题,本文提出一种联合图像重构技术和图像生成技术实现的对抗样本检测方法。首先,设计由卷积层和Swin-Transformer联合实现的图像重构网络,还原图像的语义信息并消除对抗性扰动;然后,利用条件生成式对抗网络依据标签信息生成对应类别图像;最后,将重构图像和生成图像送至卷积识别网络,依据分类结果一致性判断是否为对抗样本。该方法将对抗样本检测问题转化为图像分类问题,无需对抗样本参与训练,无需先验地了解攻击者的攻击类型和被攻击模型的结构和参数即可直接检测对抗样本。在VGG-16、Res Net-18、Goog Le Net分类网络和MNIST、GTSRB数据集上的实验结果表明,该检测方法相较于其他经典检测方法,平均识别准确率提升了4.75%~22.86%,F1分数提升了3.40%~13.64%,证明了其优越性。
文摘针对安全帽检测任务中存在的目标面积小、目标被不同程度遮挡、复杂背景干扰目标等问题,提出了基于YOLOX的多感受野增强的安全帽检测算法(multiple receptive field enhancement-YOLOX,MRFE-YOLOX)。在特征融合网络中增加浅层特征融合分支,提升小目标特征信息流通效率,提高了小目标的检测精度;设计基于空洞卷积组与卷积注意力机制的感受野增强模块(receptive field augmentation module,RFAM),捕获了更大范围的感受野和图像特征,改善了遮挡目标漏检率高的问题;根据三分支注意力机制构建特征增强网络(feature enhancement network,FENet),抑制背景噪音对目标区域的干扰,降低了复杂背景下的目标误检率;引入空间到深度卷积(space to depth-conv,SPD-Conv)得到无信息损失的二倍下采样特征图,保留了更多的特征信息,同时减少了模型的参数量。实验结果表明,所提算法的均值平均精度相较于基线算法提升了2.78个百分点,FPS达到了102.67,满足了爆破现场安全帽实时检测的需要。