期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
融合双重注意力机制的缅甸语图像文本识别方法
1
作者 王奉孝 毛存礼 +3 位作者 余正涛 高盛祥 黄于欣 刘福浩 《中文信息学报》 北大核心 2025年第1期47-55,共9页
由于缅甸语字符具有独特的语言编码结构以及字符组合规则,现有图像文本识别方法在缅甸语图像识别任务中无法充分关注文字边缘的特征,会导致缅甸语字符上下标丢失的问题。因此,该文基于Transformer框架的图像文本识别方法做出改进,提出... 由于缅甸语字符具有独特的语言编码结构以及字符组合规则,现有图像文本识别方法在缅甸语图像识别任务中无法充分关注文字边缘的特征,会导致缅甸语字符上下标丢失的问题。因此,该文基于Transformer框架的图像文本识别方法做出改进,提出一种融合通道和空间注意力机制的视觉关注模块,旨在捕获像素级成对关系和通道依赖关系,降低缅甸语图像中噪声干扰,从而获得语义更完整的特征图。此外,在解码过程中,将基于多头注意力的解码单元组合为解码器,用于将特征序列转化为缅甸语文字。实验结果表明,该方法在自构的缅甸语图像文本识别数据集上相比Transformer识别准确率提高0.5%,达到95.3%。 展开更多
关键词 缅甸语 文本识别 通道和空间注意力 特征增强 文字边缘特征
在线阅读 下载PDF
基于CSLS-CycleGAN的侧扫声纳水下目标图像样本扩增法 被引量:2
2
作者 汤寓麟 王黎明 +3 位作者 余德荧 李厚朴 刘敏 张卫东 《系统工程与电子技术》 EI CSCD 北大核心 2024年第5期1514-1524,共11页
针对侧扫声纳水下目标图像稀缺,获取难度大、成本高,导致基于深度学习的目标检测模型性能差的问题,结合光学域类目标数据集丰富的现状,提出一种基于通道和空间注意力(channel and spatial attention,CSA)模块、最小二乘生成对抗生成网络... 针对侧扫声纳水下目标图像稀缺,获取难度大、成本高,导致基于深度学习的目标检测模型性能差的问题,结合光学域类目标数据集丰富的现状,提出一种基于通道和空间注意力(channel and spatial attention,CSA)模块、最小二乘生成对抗生成网络(least squares generative adversarial networks,LSGAN)及循环对抗生成网络(cycle generative adversarial networks,CycleGAN)的侧扫声纳水下目标图像样本扩增方法。首先,受CycleGAN的启发,设计基于循环一致性的单循环网络结构,保证模型的训练效率。然后,在生成器中融合CSA模块,减少信息弥散的同时增强跨纬度交互。最后,设计了基于LSGAN的损失函数,提高生成图像质量的同时提高训练稳定性。在船舶光学域数据集与侧扫声纳沉船数据集上进行实验,所提方法实现了光学-侧扫声纳样本间信息的高效、稳健转换以及大量侧扫声纳目标样本的扩增。同时,基于本文生成样本训练后的检测模型进行了水下目标检测,结果表明,使用本文样本扩增数据训练后的模型在少样本沉船目标检测的平均准确率达到了84.71%,证明了所提方法实现了零样本和小样本水下强代表性目标样本的高质量扩增,并为高性能水下目标检测模型构建提供了一种新的途径。 展开更多
关键词 样本扩增 侧扫声纳 循环生成对抗网络 通道和空间注意力模块 最小二乘生成对抗网络
在线阅读 下载PDF
基于改进FCOS网络的遥感目标检测 被引量:7
3
作者 郑美俊 田益民 杨帅 《航天返回与遥感》 CSCD 北大核心 2022年第5期133-141,共9页
找出目标的位置和类别是目标检测的主要任务。随着人工智能和深度学习的发展,目标检测可以达到人眼所达不到的精度。由于信息较少,覆盖面积小且基于锚框的检测算法易受锚框大小、比例数目的影响,对较小的目标难以精确检测。针对以上问题... 找出目标的位置和类别是目标检测的主要任务。随着人工智能和深度学习的发展,目标检测可以达到人眼所达不到的精度。由于信息较少,覆盖面积小且基于锚框的检测算法易受锚框大小、比例数目的影响,对较小的目标难以精确检测。针对以上问题,改进无锚框算法全卷积单阶段目标检测(Fully Convolutional One-stage Object Detection,FCOS)实现了小目标检测的效率和精度。将FCOS算法的特征提取网络结构残差网络(Residual Network,ResNet)更换为轻量级网络结构MobileNetV3,随后在骨干网络中引入通道注意力机制和空间注意力机制对特征提取网络进行改进,最后设计T交并比(TIOU)代替原本的交并比(IOU),改善模型精度。实验结果表明,所改进的网络结构与FCOS相比,网络训练时间和模型大小为原来的一半,计算参数量由原来的32.12×106减少为11.73×106,减少到原来的三分之一,模型推理速度提升了10%,每秒传输帧数为11帧,与主流网络Faster RCNN相比,检测精度和速度更快,可以满足对小目标的实时检测。 展开更多
关键词 卷积神经网络 单阶段目标检测 通道和空间注意力机制 遥感应用
在线阅读 下载PDF
基于全局时空感受野的高效视频分类方法
4
作者 王辉涛 胡燕 《小型微型计算机系统》 CSCD 北大核心 2020年第8期1768-1775,共8页
在现有混合卷积神经网络架构(2D+3D)的视频分类方法中,卷积滤波器都是对局部区域进行操作,无法捕获大范围的时空依赖关系,特征通道之间缺乏相互依赖关系,传统的三维卷积核无法很好地建模时空特征.针对这些问题,提出了一种基于全局时空... 在现有混合卷积神经网络架构(2D+3D)的视频分类方法中,卷积滤波器都是对局部区域进行操作,无法捕获大范围的时空依赖关系,特征通道之间缺乏相互依赖关系,传统的三维卷积核无法很好地建模时空特征.针对这些问题,提出了一种基于全局时空感受野的高效视频分类方法(CS-NL-SECO).首先将传统的三维卷积核分解成空域卷积核和时域卷积核,来更好地学习时空特征.然后在已有混合架构中的底层二维网络引入通道和空间注意力,通过学习自动获取每个特征通道的权重,依照权重关注重要的特征而抑制不相关的背景.最后在高层三维网络中引入全局时空感受野,学习全局时空特征表示自动捕获大范围的时空依赖关系.并在UCF101、HMDB51、Kinetics以及Something-something这四个视频分类常用的公有数据集上进行了实验,结果表明该方法无论在速度和精度上都远好于原方法,并且整体性能达到了最新方法的基准. 展开更多
关键词 视频分类 卷积神经网络 通道和空间注意力 全局时空感受野 三维卷积核分解
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部