-
题名基于深度学习的视觉文档信息抽取研究综述
被引量:4
- 1
-
-
作者
吴泊心
仲国强
马龙龙
-
机构
中国海洋大学信息科学与工程学部
中国科学院软件研究所中文信息处理实验室
-
出处
《中文信息学报》
CSCD
北大核心
2023年第12期1-16,共16页
-
基金
“新一代人工智能”重大项目(2018AAA0100400)
山东省自然科学基金(ZR2020MF131)
+1 种基金
山东省重大基础研究项目(ZR2021ZD19)
青岛市科技计划项目(21-1-4-ny-19-nsh)。
-
文摘
视觉文档赋予文本丰富的多模态特征,如视觉特征、文本特征和布局特征等。视觉文档信息抽取旨在利用视觉文档的多模态特征更好地从文档内容中提取结构化的关键信息,已逐渐成为自然语言处理和计算机视觉技术的重要交叉领域,在商业、医疗、教育等行业应用广泛。随着深度学习技术的发展与突破,近期视觉文档信息抽取发展迅速,研究方法大致可分为两类,一类是基于有监督学习的方法,包括基于图的方法、基于网格的方法、端到端方法;另一类是基于自监督预训练和有监督微调的方法,逐渐成为主流的研究方向。该文概述了基于有监督学习的三类方法,基于自监督预训练和有监督微调方法的四个方面以及一些常用的公开数据集,最后总结并展望了未来可能的研究方向。
-
关键词
视觉文档信息抽取
多模态
预训练
深度学习
-
Keywords
visual document information extraction
multi-modal
pre-training
deep learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-