-
题名融合双重注意力机制的缅甸语图像文本识别方法
- 1
-
-
作者
王奉孝
毛存礼
余正涛
高盛祥
黄于欣
刘福浩
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《中文信息学报》
北大核心
2025年第1期47-55,共9页
-
基金
国家自然科学基金(61732005,U21B2027,62166023,61866019)
云南省自然科学基金(2019FA023)
云南省重大科技专项计划(202103AA080015,202002AD080001)。
-
文摘
由于缅甸语字符具有独特的语言编码结构以及字符组合规则,现有图像文本识别方法在缅甸语图像识别任务中无法充分关注文字边缘的特征,会导致缅甸语字符上下标丢失的问题。因此,该文基于Transformer框架的图像文本识别方法做出改进,提出一种融合通道和空间注意力机制的视觉关注模块,旨在捕获像素级成对关系和通道依赖关系,降低缅甸语图像中噪声干扰,从而获得语义更完整的特征图。此外,在解码过程中,将基于多头注意力的解码单元组合为解码器,用于将特征序列转化为缅甸语文字。实验结果表明,该方法在自构的缅甸语图像文本识别数据集上相比Transformer识别准确率提高0.5%,达到95.3%。
-
关键词
缅甸语
文本识别
通道和空间注意力
特征增强
文字边缘特征
-
Keywords
Burmese
text recognition
channels and spatial attention
feature enhancement
text edge features
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-