-
题名融合边特征与注意力的表格结构识别模型
被引量:3
- 1
-
-
作者
吕学强
张煜楠
韩晶
崔运鹏
李欢
-
机构
网络文化与数字传播北京市重点实验室(北京信息科技大学)
农业农村部农业大数据重点实验室(中国农业科学院农业信息研究所)
-
出处
《计算机应用》
CSCD
北大核心
2023年第3期752-758,共7页
-
基金
国家自然科学基金资助项目(62171043)。
-
文摘
针对现有方法在表格结构识别问题中存在的先验知识依赖、鲁棒性不足、表达能力不足等问题,提出一种新的融合边特征与注意力的表格结构识别模型——GEAN-TSR。首先,提出图边注意力网络(GEAN)并作为模型的主干网络,在边卷积结构的基础上引入并改进图注意力机制聚合图节点特征,解决图网络在特征提取过程中的信息损失的问题,提高图网络的表达能力;然后,引入边特征融合模块融合浅层图节点信息与图网络输出,增强图网络的局部信息提取能力与表达能力;最后,将门控循环单元(GRU)提取的图节点文本特征融入文本特征融合模块对边进行分类预测。在SciTSR-COMP数据集上的对比实验中,相较于目前最优的模型SEM,GEAN-TSR的召回率与F1值分别提升2.5与1.4个百分点。在消融实验中,GEAN-TSR采用特征融合模块后,所有指标都取得了最优值,验证了模块的有效性。实验结果表明,GEAN-TSR能够有效提升网络性能,更好地完成表格结构识别任务。
-
关键词
图神经网络
图注意力网络
特征融合
表格结构识别
表格解析
-
Keywords
graph neural network
graph attention network
feature fusion
table structure recognition
table parsing
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名表格结构识别的自动性能评估
- 2
-
-
作者
靳简明
史广顺
张伟鹏
韩智
潘武模
王庆人
-
机构
南开大学机器智能研究所
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第6期82-84,91,共4页
-
文摘
评估算法的性能需要反复大量的测试。人工评估既难以保证评价标准的一致,又无法保证测试的速度和规模,只有自动的性能评估才能解决上述问题。表格结构识别是进一步理解表格内容的前提。在定义通用表格结构描述的基础上,提出了基于表格线的表格结构识别的性能评估方法。自动评估系统能够指出识别结果与基准数据的区别,平均每秒比较38.6个表格,远超过人工评估的效率。
-
关键词
表格结构识别
自动性能评估
文档图像处理系统
字符识别
-
Keywords
automatic performance evaluation,document image processing,table structure
-
分类号
TP317.4
[自动化与计算机技术—计算机软件与理论]
-
-
题名融合图卷积网络的表格图像结构识别模型
- 3
-
-
作者
孙俊
苟刚
-
机构
贵州大学公共大数据国家重点实验室
贵州大学计算机科学与技术学院
-
出处
《计算机工程与设计》
北大核心
2024年第10期3066-3073,共8页
-
基金
国家自然科学基金项目(62162010)
贵州省科技支撑计划基金项目(黔科合支撑[2022]一般267)。
-
文摘
针对表格图像很难精确从文档中提取出表格结构的问题,提出一种融合图卷积网络的双分支识别网络模型。以ResNet+FPN为主干网络,引入矩阵分解头代替注意力机制重整全局特征。设计一个双分支网络以获取表格单元格间空间位置和逻辑邻接信息。以GCN感知单元格间连接关系辅助输出位置信息和逻辑邻接关系。实验结果表明,在多个数据集上相比基线模型F1指标平均提升10.6%,F(beta=0.5)指标提升18.6%。在TableGraph-24K数据集上,相比最近的TGRNet模型在F1指标上提升3.1%,F(beta=0.5)指标平均提升2.9%。
-
关键词
图像处理
表格图像结构识别
图卷积网络
特征融合
注意力机制
矩阵分解
双分支网络
-
Keywords
image processing
table image structure recognition
graph convolution network
feature fusion
attention mechanism
matrix decomposition
double-branch network
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名智能化表格识别技术综述
被引量:4
- 4
-
-
作者
梁天恺
苏新铎
黄宇恒
徐天适
张华俊
曾碧
-
机构
广州广电运通金融电子股份有限公司研究总院
广东工业大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2023年第12期62-76,共15页
-
基金
国家自然科学基金(62172111)
广东省自然科学基金(2021A1515012233)。
-
文摘
在大数据和互联网的历史背景下,信息技术的发展伴随着大量文档的产生。作为数据关系直观体现的表格常见于文档中,表格的归档也是文档处理的重要任务之一。如何在海量的文档中快速地对表格进行自动化识别成为妨碍文档处理迈向智能化的关键因素。作为人工智能研究领域重要分支之一的表格识别,能实现表格对象和结构的自动化检测与识别,被广泛应用在文档智能化处理等场景。因此总结与综述表格识别领域的概念、技术、应用与挑战显得尤为重要。阐述表格识别的概念,指出表格识别任务可被分为表格检测和表格结构识别两大子任务。针对表格检测研究方向主流的anchor-based和anchor-free算法进行介绍和分析,总结不同算法的优缺点。分别阐述基于语义分割、基于双向割并、融合神经网络以及端到端等四大类别的主流的表格结构识别算法的原理和优缺点。同时分析并讨论目前常见的有机融合表格检测和表格结构识别的非端到端与端到端的表格识别算法。最后总结并指出表格识别的应用、挑战与展望。
-
关键词
表格识别
表格检测
表格结构识别
人工智能
大数据
-
Keywords
table recognition
table detection
table structure recognition
artificial intelligence
big data
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于加权无向图的表格分割方法
- 5
-
-
作者
贺岩
崔喆
-
机构
中国科学院成都计算机应用研究所
-
出处
《计算机应用》
CSCD
北大核心
2004年第S1期175-177,共3页
-
文摘
用计算机大批量实时处理表格 ,必须尽量快速地分割出各有效信息块 ,再针对单个信息块进行字符识别和基于词语句法的后期处理。介绍了一种构造加权无向图以分割表格的方法 ,图本身蕴含了表格的版面结构 ,同时又可以作为模式对表格进行分类。
-
关键词
表格处理
表格结构识别
信息块分割
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-