期刊文献+

基于深度学习的非结构化表格文档数据抽取方法 被引量:4

Data Extraction Method of Unstructured form Documents Based on Deep Learning
在线阅读 下载PDF
导出
摘要 非结构化表格文档结构性较低,模式多样且数据冗杂,但此类文档里潜藏大量有价值数据,数据高精度抽取对分析数据价值存在增值作用,为此提出基于深度学习的非结构化表格文档数据抽取方法。在数据抽取前,采用基于循环和卷积神经网络的文本分类方法,对非结构化表格文档实施分类,获取所需表格文档,由此缩小后续数据抽取范围,提高抽取效率与精度;在分类后的表格文档中使用基于深度学习的数据自动抽取模型,通过双向循环神经网络编码获取中间语义向量,然后通过注意力模型和单项循环神经网络解密中间语义向量,获取非结构化表格文档数据。实验结果表明,采用所提方法抽取10种非结构化表格文档数据时,均获取显著的抽取效果。 Documents with unstructured form have low structure,diverse patterns and redundant data.There are a lot of valuable data in this kind of documents,and high-precision data extraction has a catalytic effect on the analysis of data.Before data extraction,the text classification method based on cyclic and convolutional neural network is used to classify unstructured form documents and obtain the required form documents,so as to reduce the scope of subsequent data extraction and improve the efficiency and accuracy of extraction.After classification,the automatic data extraction model based on deep learning is used in the documents,and the two-way cyclic neural network coding is used to obtain the data.The intermediate semantic vector is then decrypted by attention model and single loop neural network to obtain unstructured form document data.The experimental results show that when the proposed method is used to extract 10 kinds of unstructured form document data,significant extraction results are obtained.
作者 奚建飞 王志英 邹文景 甘莹 XI Jianfei;WANG Zhiying;ZOU Wenjing;GAN Ying(Digital Grid Research Institute, CSG, Guangzhou 511455, China;China Southern Power Grid Co. Ltd., Guangzhou 510663, China)
出处 《微型电脑应用》 2022年第2期102-105,共4页 Microcomputer Applications
关键词 深度学习 非结构化表格 文档数据 抽取方法 卷积神经网络 deep learning unstructured table document data extraction method convolutional neural network
作者简介 奚建飞(1981-),男,硕士,高级工程师,研究方向为信息化及数字化建设项目;王志英(1962-),男,硕士,高级工程师(教授级),研究方向为电网信息化规划及建设、数据资源管理规划及建设、网络安全体系;邹文景(1990-),男,学士,高级工程师,研究方向为电力大数据建设及应用;甘莹(1985-),男,学士,工程师,研究方向为电网大数据处理和平台建设。
  • 相关文献

参考文献13

二级参考文献73

共引文献165

同被引文献30

引证文献4

二级引证文献5

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部