西文OCR后处理中的有限自动机模型被引量：2

The Finite Automaton Model in Western Language OCR Post-processing

在线阅读下载PDF

导出

摘要在西文OCR中,从候选结果中挑选最佳结果的后处理操作是必不可少的,并且利用单词拼写检查进行后处理是完全可行的。但是,以往的方法分别在不同程度上具有低可靠性和局限性。为此,该文提出将有限自动机模型应用于西文OCR后处理中,该方法有效地将拼写检查和识别结果信息结合起来,克服了以往方法中存在的低可靠性和局限性,并通过实验验证了该方法的有效性。以识别后处理辅助识别,错误率从0.79%降到0.59%;以识别后处理和系统后处理结合辅助识别,错误率降低到0.55%。 In western language OCR systems ,the post-processing of selecting the best result from some candidates is absolutely necessary.Spell-check can provide reliable information for this task.However,there are some limitations in previous methods in different extents.In this paper,the finite automaton model is applied to the post -processing procedure.It combines the spell -check with the character recognition results.Experiment shows the validity of the method.Using the recognition post-processing,the error rate drops to0.59%from0.79%.Using both the recognition and the system post-processing,the error rate drops to0.55%.

作者王恺靳简明王庆人

机构地区南开大学机器智能研究所

出处《计算机工程与应用》 CSCD 北大核心 2004年第23期26-29,共4页 Computer Engineering and Applications

基金国家自然科学基金天元基金项目(编号:TY10026002-04-04-01)资助

关键词字符串匹配有限自动机光学字符识别文档图像处理光学字符识别 OCR 文字信息电子化 string matching,finite automaton,optical character recognition,document image processing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1吕学强,迟呈英.英文光学字符识别的后处理[J].鞍山钢铁学院学报,2002,25(3):192-196. 被引量：7
2W J Teahan,S Inglis,J G Cleary et al.Correcting English text using PPM models[C].In:Data Compression Conference,1998:289～298
3Hauser SE,Browne AC,Thoma GR et al.Lexicon assistance reduces manual verification of OCR output[C].In:Proc 11th IEEE Symposium on Computer-Based Medical Systems,1998:90～95
4罗光春,李炯.有限自动机在BBS信息监测系统中的运用[J].电子科技大学学报,2002,31(3):262-265. 被引量：3
5James Moscola,John Lockwood,Ronald P Loui et al.Implementation of a Content-Scanning Module for an Internet Firewall[C].In:11th Annual IEEE Symposium on Field-Programmable Custom Computing Machines,2003:31～38
6Yanlei Diao,Michael J Franklin.High-Performance XML Filtering:An Overview of YFilter[J].IEEE Data Engineering Bulletin,2003;26 ( 1 ):41～48
7Gonzalo Navarro,Mathieu Raffinot.Fast and simple character classes and bounded gaps pattern matching,with applications to protein searching[C].In:Proceedings of the 5th Annual International Conference on Computational Molecular Biology,2001:231～240
8Heikki Hyyro,Gonzalo Navarro.Faster Bit-parallel Approximate String Matching[C].In:Proceedings of the 13th Annual Symposium on Combinatorial Pattern Matching,2002:203～224

二级参考文献3

1陈文宇.形式语言与自动机[M].成都:电子科技大学出版社,1991..
2Aho A V Ullman J D.形式语言及其句法分析[M].北京:科学出版社,1987..
3Hopcroft J E Ullman J D.形式语言及其与自动机的关系[M].北京:科学出版社,1979..

共引文献8

1岳思聪,方晓芙,赵荣椿.一种新型电子阅读笔系统[J].微电子学与计算机,2005,22(4):78-80.
2钟辉,高晓石,牛志成.灰度文档图像字符切分方法[J].沈阳建筑大学学报（自然科学版）,2006,22(3):483-486. 被引量：3
3郭丰.新西兰APEC TEL会议纪行[J].世界电信,2006,19(12):35-38.
4骆剑锋,谌颃.改进水印图片里文字识别效果的新方法[J].信息化纵横,2009(11):28-30. 被引量：1
5赵莉.基于OCR的拼写校正系统[J].兵工自动化,2010,29(9):92-94. 被引量：3
6刘光志.通用图灵机的一种编码方案[J].微计算机信息,2010,26(27):230-231.
7李峰松,娄渊胜.有限自动机在家用防火防盗报警器中的应用[J].哈尔滨商业大学学报（自然科学版）,2014,30(6):698-700.
8王爱爱,刘志立.基于倒数-高斯级联低通模型的光学字符识别系统[J].新一代信息技术,2019,2(7):19-30.

同被引文献18

1张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
2孙巍.一种面向中文信息检索的汉语自动分词方法[J].现代图书情报技术,2006(7):33-36. 被引量：7
3龙翀,庄丽,朱小燕,黄开竹,孙俊,堀田悦伸,直井聡.手写中文地址识别后处理方法的研究[J].中文信息学报,2006,20(6):69-74. 被引量：6
4Harriet Wittels,Joan Greisman.The Clear and Simple How to Spell It:A Handbook of Commonly Misspelled Words[M].Americian:Grosset & Dunlap,2007:5.
5龚才春,黄玉兰,许洪波.基于多重索引模型的大规模词典近似匹配算法[C].第三届全国信息检索与内容安全学术会议,2007:7.
6马金山,刘挺,李生.基于n-gram 及依存分析的中文自动查错方法[C].Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages,2003.
7王永生,李梅.英文文语转换系统中基于形态规则和机器学习的重音标注算法[J].计算机应用,2008,28(1):88-91. 被引量：2
8李晓光,王鹏,张威,王大玲.面向多领域资源的汉英双语语料库构建的研究[J].计算机应用,2008,28(1):146-148. 被引量：2
9樊娜,蔡皖东,赵煜,李慧贤.中文文本情感主题句分析与提取研究[J].计算机应用,2009,29(4):1171-1173. 被引量：10
10张宏涛,龙翀,朱小燕,孙俊.印刷体汉字识别后处理方法的研究[J].中文信息学报,2009,23(6):67-71. 被引量：4

引证文献2

1赵莉.基于OCR的拼写校正系统[J].兵工自动化,2010,29(9):92-94. 被引量：3
2肖文磊,邹捷,冯江伟,赵罡.基于贝叶斯纠错的AR辅助飞机装配数据纠错方法[J].航空制造技术,2020,63(6):14-22. 被引量：3

二级引证文献6

1黎邦群.OPAC拼写检查功能的设计与实现[J].图书馆学研究,2012(4):73-79. 被引量：6
2葛馨远,王德辉,肖青.基于OCR技术的电网设备台账标签采集功能设计与实现[J].科学技术创新,2018(3):97-98. 被引量：1
3禹涛,何勰绯.OCR组件在智能阅读器的应用[J].电脑知识与技术（过刊）,2012,18(5X):3385-3387. 被引量：1
4刘诺石,邹方,何昭岩,穆欣伟.一种智能防错的辅助人工作业系统开发与应用[J].航空制造技术,2021,64(5):89-97. 被引量：5
5陈弓.基于贝叶斯纠错的矿山地质勘测数据纠错方法[J].现代信息科技,2021,5(7):85-87. 被引量：1
6方维,陈黎茜,孙安斌,许澍虹.增强现实辅助的航空航天产品智能装配技术研究进展[J].航空制造技术,2024,67(16):94-106. 被引量：1

1孙玉强,李玉萍,王海燕,陈继光.确定有限自动机最小化算法的并行处理[J].计算机科学,2008(1):298-300. 被引量：3
2龙翀,庄丽,朱小燕,黄开竹,孙俊,堀田悦伸,直井聡.手写中文地址识别后处理方法的研究[J].中文信息学报,2006,20(6):69-74. 被引量：6
3王恺,史广顺,王庆人.欧洲文字识别方法研究[J].模式识别与人工智能,2006,19(4):491-496.
4张宏涛,龙翀,朱小燕,孙俊.印刷体汉字识别后处理方法的研究[J].中文信息学报,2009,23(6):67-71. 被引量：4
5顾李晶,赵霁.基于MODI的文档图像处理的研究[J].自动化技术与应用,2013,32(11):45-47.
6毛莉,齐德昱.分布式系统的分层形式化描述方法[J].计算机应用研究,2014,31(8):2407-2410. 被引量：1
7秦姣华,向旭宇.HMM在汉字识别技术中的应用[J].现代计算机,2000,6(97):29-31. 被引量：1
8何晓琴.基于CBS模式的档案管理数字化系统的研究[J].信息安全与技术,2011,2(2):39-41. 被引量：1
9李科,李玉萍.确定有限自动机到正则表达式转换的并行处理[J].枣庄学院学报,2011,28(2):83-86.
10朱庆生,林杰,张敏.一种优化的文档图像分割方法[J].计算机科学,2004,31(4):151-153. 被引量：1

计算机工程与应用

2004年第23期

浏览历史

内容加载中请稍等...

西文OCR后处理中的有限自动机模型被引量：2

参考文献8

二级参考文献3

共引文献8

同被引文献18

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

西文OCR后处理中的有限自动机模型 被引量：2

参考文献8

二级参考文献3

共引文献8

同被引文献18

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

西文OCR后处理中的有限自动机模型被引量：2