基于Faster-RCNN网络的表格检测算法研究被引量：7

Table detection algorithm based on Faster-RCNN

在线阅读下载PDF

导出

摘要为了快速、准确地识别出文档图片中存在的表格,为表格信息提取提供表格图像数据,为表格内容的语义分割打下基础。本文首先使用OpenCV图像处理工具对包含表格的文档图片进行预处理,再采用Labelme标注工具对图片中的表格位置进行标注;其次,把图片数据集按照4:1比例分为表格识别模型训练数据集和模型验证数据集;最后,借助Tensorflow深度学习工具,采用Faster-RCNN目标检测框架对表格识别模型进行训练,并用验证数据集对训练好的模型进行验证实验。实验结果表明,基于Faster-RCNN算法的表格检测模型系统平均每张图片的处理时间为1.31s,识别准确率达到92.4%。说明Faster-RCNN目标检测算法能准确且快速地检测出文档图像中存在的表格。 In order to identify the table in the document image more quickly and accurately,make a foundation for the table information extraction.This paper using the OpenCV image processing tools to preprocess the document images containing tables,then uses the Labelme labeling tool to mark the position of the table in the picture,and the image data set is divided into training data and verification data set according to the ratio of 4:1,finally,the Tensorflow deep learning tool is used to train the table recognition model and the target detection framework of Faster-RCNN is adopted.The trained model was validated with the validation data set.The experimental results show that the processing time of the table detection algorithm system based on FasterRCNN is 1.31 s,and the recognition accuracy reaches 92.4%.It means that Faster-RCNN can accurately and quickly detect the existing table in the document.

作者马志远余粟 MA Zhiyuan;YU Su(School of Mechanical and Automotive Engineering,Shanghai University of Engineering Science,Shanghai 201620,China;Engineering Training Center,Shanghai University of Engineering Science,Shanghai201620,China)

机构地区上海工程技术大学机械与汽车工程学院上海工程技术大学工程实训中心

出处《智能计算机与应用》 2020年第12期24-27,31,共5页 Intelligent Computer and Applications

关键词图像处理表格检测深度学习 Faster-RCNN Tensorflow Image processing Table detection Deep learning Faster-RCNN TensorFlow

分类号 TP3-05 [自动化与计算机技术—计算机科学与技术]

作者简介马志远(1995-),男,硕士研究生,主要研究方向:机器视觉;通讯作者:余粟(1962-),女,硕士,教授,硕士生导师,主要研究方向:计算机科学,Email:suyu_sh@hotmail.com。

引文网络
相关文献

参考文献3

1王文华.浅谈OCR技术的发展和应用[J].福建电脑,2012,28(6):56-56. 被引量：18
2常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312. 被引量：443
3黄继鹏,史颖欢,高阳.面向小目标的多尺度Faster-RCNN检测算法[J].计算机研究与发展,2019,56(2):319-327. 被引量：101

二级参考文献3

1陈熙霖,朱志莹.手写体字符的分割与识别[J].模式识别与人工智能,1993,6(2):136-142. 被引量：9
2邢立民,陈永琴.扫描仪的OCR技术[J].实验室科学,2006,9(6):58-59. 被引量：6
3余淼,胡占义.高阶马尔科夫随机场及其在场景理解中的应用[J].自动化学报,2015,41(7):1213-1234. 被引量：23

共引文献558

1陈梦,王晓青.全卷积神经网络在建筑物震害遥感提取中的应用研究[J].震灾防御技术,2019,14(4):810-820. 被引量：9
2黄紫婷,赵歆波,王洁钊,王瑞麟.涉烟犯罪中的智能检测系统设计[J].中国体视学与图像分析,2023,28(1):86-97. 被引量：2
3陈妮亚,阮佳阳,黄金苗,杨伟.结合深度学习与生物特征识别在冷链拣选中的算法研究[J].智能科学与技术学报,2019,1(1):88-95. 被引量：1
4周纪武,于新生.基于深度学习技术的地铁车辆车号识别系统研究[J].运输经理世界,2020(13):19-22. 被引量：1
5王雷,闫红蕾,张自力.收益率曲面预测及其在信用债投资组合管理中的应用[J].统计研究,2021(4):145-160. 被引量：5
6王维波,徐西龙,盛立,高明.卷积神经网络微地震事件检测[J].石油地球物理勘探,2020(5):939-949. 被引量：12
7陈娜,蔺志刚,刘瑾程,董珊,包闯.基于智能视频监控系统的河湖四乱巡检技术研究[J].水利水电技术（中英文）,2022,53(S02):455-462. 被引量：7
8赵毅力,李禹成,陈皓.云南野生鸟类图像自动识别系统[J].计算机应用研究,2020,37(S01):423-425. 被引量：5
9华夏,王新晴,马昭烨,王东,邵发明.基于递归神经网络的视频多目标检测技术[J].计算机应用研究,2020,37(2):615-620. 被引量：8
10蒋梦莹,林小竹,柯岩,魏战红.基于权值分布的多模型分类算法研究[J].计算机应用研究,2020,37(1):313-316. 被引量：3

同被引文献63

1应自炉,赵毅鸿,宣晨,邓文博.多特征融合的文档图像版面分析[J].中国图象图形学报,2020,0(2):311-320. 被引量：7
2黄辉,肖豪,王琼瑶,吴建强,梁志龙.基于改进YOLOv5与CRNN的电表示数识别[J].电子测量技术,2023,46(1):173-180. 被引量：4
3李了了,邓善熙,丁兴号.基于大津法的图像分块二值化算法[J].微计算机信息,2005,21(08X):76-77. 被引量：114
4李艳霞,孙羽菲,张玉志.受限表格识别系统的研究[J].计算机工程与应用,2006,42(31):161-163. 被引量：6
5陈云榕,刘立柱,叶晗.PDF文档中JPEG图像的自动提取技术研究[J].信息工程大学学报,2007,8(2):213-216. 被引量：2
6赵洪,肖洪,薛德军,师庆辉.Web表格信息抽取研究综述[J].现代图书情报技术,2008(3):24-31. 被引量：11
7王行荣,应俊.手写表格识别系统研究和实现[J].计算机科学,2008,35(6):268-271. 被引量：5
8董玉德,刘孙,朱长江,杜立,王仁敏,马云峰.面向工程图纸离线式表格信息提取与识别方法研究[J].工程图学学报,2009,30(1):17-25. 被引量：5
9张秀秀,张立峰.PDF文件文本内容提取研究[J].科技情报开发与经济,2008,18(36):118-120. 被引量：16
10谢勤岚.图像降噪的自适应高斯平滑滤波器[J].计算机工程与应用,2009,45(16):182-184. 被引量：37

引证文献7

1章喻龙,罗壮强,石凌峰.基于YOLOX算法的工程图纸标题栏识别[J].数字技术与应用,2024,42(3):198-202. 被引量：2
2蔡玉宝,李德峰,王宁,杜会盈,徐聪.雷达态势图像表格检测与识别[J].指挥控制与仿真,2022,44(6):110-114.
3贾大勇,李春树,吴严.基于Faster R-CNN的贺兰山岩画目标检测研究[J].宁夏工程技术,2022,21(4):372-376. 被引量：1
4方浩东,鲍敏.工厂检测检验用手写表格的识别及数字化处理方法[J].软件工程,2023,26(5):20-23. 被引量：1
5何彦青,陈光云,兰天,李岩,郭航程.基于Rule-Faster-RCNN的多语科技论文PDF文档结构框架元素解析[J].情报科学,2023,41(4):51-61.
6梁天恺,苏新铎,黄宇恒,徐天适,张华俊,曾碧.智能化表格识别技术综述[J].计算机工程与应用,2023,59(12):62-76. 被引量：5
7郑安刚,张天宜,杨玉博,尚怀嬴,任毅.基于智慧计量实验室的多源异构检测数据智能提取技术研究[J].电测与仪表,2024,61(8):70-77. 被引量：5

二级引证文献14

1王阳,屈原骏.模式识别在贺兰山人面像岩画研究中的应用[J].甘肃开放大学学报,2024,34(1):26-30. 被引量：2
2方靖宇,韩文涛,应成才,何天祥,徐瑞吉,毛科技.基于深度学习的CAD表格识别算法设计[J].科技资讯,2024,22(16):16-20.
3陶亮晨.编辑距离优化的表格识别方法[J].福建电脑,2024,40(11):1-9.
4宋月,宋召朝,严文谨,白丽娟,王程明,谷秀锐,刘丽君.钢铁材料检测智慧实验室建设及应用前景[J].理化检验（物理分册）,2024,60(11):11-13. 被引量：1
5崔羚,董春龙,王树昂,华德帅.基于改进CRNN的管道等轴图智能识别精度纠偏研究[J].石油化工建设,2024,46(10):92-96.
6曹茂俊,李悦.改进SLANet的OCR表结构识别方法[J].吉林大学学报(信息科学版),2025,43(1):98-106.
7叶斌,殷莎,胡晓华,马小登,陈晨.电力机房监控组态软件运行异常实时性检测模型[J].自动化技术与应用,2025,44(4):138-142.
8唐龑,许靓.无损检测技术在实验室医疗器械计量检测中的应用[J].实验室检测,2025,3(5):30-32. 被引量：1
9蔡伊娜,林燕奎,何莉雯,黄锦云,郑文丽,包先雨.数据驱动下的海关智慧实验室模型构建与应用[J].实验室研究与探索,2025,44(5):206-211.
10刘明艳,张准玺,王欣桐,赵海燕,邬元月,刘永杰.基于参数提取和模拟的钻井投资估算优化方法[J].新疆石油天然气,2025,21(2):82-90.

1邝振,崔喆.社区选举系统选票中的表格识别算法[J].计算机应用,2017,37(A02):179-182. 被引量：7
2眼界·精选[J].传奇故事（百家讲坛）（红版）,2020(7):70-71.
3北京国际城市发展研究院课题组,首都科学决策研究会课题组.推动“十四五”规划落地落实的10条建议[J].领导决策信息,2021(9):26-27.
4本刊对来稿中图的要求[J].国际呼吸杂志,2021,41(4):258-258.
5中华医学会系列杂志对图的要求(摘录)[J].国际病毒学杂志,2021,28(1):41-41.
6读者调查表[J].国际展望,2003(16):96-96.
7王康维,赵磊,黄鑫炎,彭玉发,马思远,范虹伯.一种低亮度非均匀光照文档图片快速二值化方法[J].光电子．激光,2020,31(12):1333-1340. 被引量：8
8梅旭恒,马嘉辉,陈志轩,邓一星,杨荣领.卷积核初始设置对卷积神经网络表格识别的优化效果研究[J].新一代信息技术,2020,3(22):19-24.
9王庆社,姜青香.《北京市标准地名录》的设计与编制[J].中国地名,2020(11):4-6.
10李一仁,黄征,陈凯,郭捷,邱卫东.基于图卷积网络的表格结构提取[J].信息系统工程,2021,34(1):132-134. 被引量：2

智能计算机与应用

2020年第12期

浏览历史

内容加载中请稍等...

基于Faster-RCNN网络的表格检测算法研究被引量：7

参考文献3

二级参考文献3

共引文献558

同被引文献63

引证文献7

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于Faster-RCNN网络的表格检测算法研究 被引量：7

参考文献3

二级参考文献3

共引文献558

同被引文献63

引证文献7

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于Faster-RCNN网络的表格检测算法研究被引量：7