本文针对智慧档案馆的建设,提出一种基于深度学习的纸质档案智能检索模型。该模型由数据采集、图像预处理、OCR识别、信息抽取和信息检索5个模块组成。在采用OCR识别前增加了一些预处理手段,以此来提升模型识别的准确性。在Paddle OCR(O...本文针对智慧档案馆的建设,提出一种基于深度学习的纸质档案智能检索模型。该模型由数据采集、图像预处理、OCR识别、信息抽取和信息检索5个模块组成。在采用OCR识别前增加了一些预处理手段,以此来提升模型识别的准确性。在Paddle OCR(OCR toolkits based on Paddle,基于飞桨深度学习平台的OCR模型库)集成的各模型中尝试采用一种适合我国档案文件信息识别的模型组合。探索采用一种除常用规则抽取外的字段推算信息抽取方式,并以N版本程序策略的方式提高各字段抽取的覆盖率和准确性,同时设计了一种智能信息检索系统,方便各类档案文件的全文检索。展开更多
文摘本文针对智慧档案馆的建设,提出一种基于深度学习的纸质档案智能检索模型。该模型由数据采集、图像预处理、OCR识别、信息抽取和信息检索5个模块组成。在采用OCR识别前增加了一些预处理手段,以此来提升模型识别的准确性。在Paddle OCR(OCR toolkits based on Paddle,基于飞桨深度学习平台的OCR模型库)集成的各模型中尝试采用一种适合我国档案文件信息识别的模型组合。探索采用一种除常用规则抽取外的字段推算信息抽取方式,并以N版本程序策略的方式提高各字段抽取的覆盖率和准确性,同时设计了一种智能信息检索系统,方便各类档案文件的全文检索。