摘要
在复杂自然场景的端到端文本识别中,由于文本和背景难以区分,文本检测的位置信息和识别的语义信息不匹配,无法有效利用检测和识别之间的相关性.针对该问题,本文提出双域感知下多方显式信息协同的自然场景端到端文本识别方法(Multi-party Synergetic explicit Information with Dual-domain Awareness text spotting,MSIDA),通过强化文本区域特征和边缘纹理,利用文本检测和识别特征之间的协同作用提高端到端文本识别性能.首先,设计融合文本空间和方向信息的双域感知模块(Dual-Domain Awareness,DDA),增强文本实例的视觉特征信息;其次,提出多方显式信息协同模块(Multi-party Explicit Information Synergy,MEIS)提取编码特征中的显式信息,通过匹配对齐用于检测和识别的位置、分类和字符多方信息生成候选文本实例;最后,协同特征通过解码器引导可学习的查询序列获得文本检测和识别的结果 .相比最新的DeepSolo(Decoder with explicit points Solo)方法,在Total-Text、ICDAR 2015和CTW1500数据集上,MSIDA模型的准确率分别提升0.8%、0.8%和0.4%.代码和数据集在https://github.com/msida2024/MSIDA.git可以获取.
In the end-to-end text recognition of complex natural scenes,because text and background are difficult to distinguish,the location information detected by text and the semantic information recognized do not match,and the correlation between detection and recognition cannot be effectively utilized.In response to this problem,this paper proposes a multi-party synergetic information with dual-domain awareness text spotting(MSIDA).By enhancing text region features and edge textures,the synergies between text detection and recognition features are utilized to improve end-to-end text recognition performance.Firstly,a dual-domain awareness(DDA)module integrating text space and direction information is designed to enhance the visual feature information of text instances.Secondly,a multi-party explicit information synergy(MEIS)is proposed to extract explicit information from coding features and generate candidate text instances by matching and allocating the position,classification and character multi-party information used for detection and recognition.Finally,cooperative features guide learnable query sequences through decoders to obtain text detection and recognition results.Compared to the latest decoder with explicit points solo(DeepSolo)method,on the Total-Text,ICDAR 2015 and CTW1500 datasets,the accuracy of MSIDA improved respectively by 0.8%,0.8%and 0.4%.The code and datasets are available at https://github.com/msida2024/MSIDA.git.
作者
陈平平
林虎
陈宏辉
谢肇鹏
CHEN Ping-ping;LIN Hu;CHEN Hong-hui;XIE Zhao-peng(College of Physics and Information Engineering,Fuzhou University,Fuzhou,Fujian 350108,China)
出处
《电子学报》
北大核心
2025年第3期974-985,共12页
Acta Electronica Sinica
基金
国家自然科学基金(No.62171135)
福建省杰青项目(No.2022J06010)
福建省教育厅重点攻关项目(No.2023XQ004)
福州科技局项目(No.2023-P-001)。
作者简介
陈平平,男,1986年出生于福建省泉州市.现为福州大学电子信息工程系教授,博士生导师.主要研究方向为信息处理、人工智能与计算机视觉.中国电子学会会员编号:E190021215M.E-mail:ppchen.xm@gmail.com;通讯作者:林虎,男,2001年出生于福建省三明市.现为福州大学物理与信息工程学院研究生.主要研究方向为计算机视觉、场景文本检测、场景文本端到端识别.E-mail:linhu_noah@outlook.com;陈宏辉,男,1998年出生于福建省南平市.现为福州大学物理与信息工程学院研究生.主要研究方向为计算机视觉、场景文本检测、场景文本端到端检测识别.E-mail:726673517@qq.com;谢肇鹏,男,1995年出生,现为福州大学先进制造学院讲师.主要研究方向为强化学习,信道编码与无线通信等.E-mail:xzp_fzu@163.com。