-
题名改进SLANet的OCR表结构识别方法
- 1
-
-
作者
曹茂俊
李悦
-
机构
东北石油大学计算机与信息技术学院
-
出处
《吉林大学学报(信息科学版)》
2025年第1期98-106,共9页
-
基金
黑龙江省自然科学基金资助项目(LH2019F004)
中石油科技术开发基金资助项目(2021DJ4001)。
-
文摘
针对传统的识别表结构方法难以充分学习多行多列合并、空白、嵌套单元格等复杂表结构以及提取特征过程中容易出现信息缺失的问题,提出了一种改进SLANet(Structure Location Alignment Network)的OCR(Optical Character Recognition)表结构识别方法。首先,利用轻量级CPU(Central Processing Unit)卷积神经网络并引入注意力机制,增强网络泛化和解释能力,将训练得到信息向量输入轻量级高低层特征融合模块中提取特征,并将输出特征通过特征解码模块对齐结构与位置信息,得到预测标签。实验表明,与EDD(Encoder-Dual-Decoder)、 TableMaster等模型相比,该方法准确率有显著提升,达到76.95%,TEDS(Tree-Edit-Distance-based Similarity)达到95.57%,显著增强了模型识别非常规复杂表结构能力,为识别表结构提供了一种优化策略。
-
关键词
识别表结构
结构位置对齐网络
注意力机制
基于树编辑距离的相似度
-
Keywords
recognition table structure
structure location alignment network(SLANet)
attention mechanism
tree-edit-distance-based similarity(TEDS)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-