期刊文献+

西文OCR后处理中的有限自动机模型 被引量:2

The Finite Automaton Model in Western Language OCR Post-processing
在线阅读 下载PDF
导出
摘要 在西文OCR中,从候选结果中挑选最佳结果的后处理操作是必不可少的,并且利用单词拼写检查进行后处理是完全可行的。但是,以往的方法分别在不同程度上具有低可靠性和局限性。为此,该文提出将有限自动机模型应用于西文OCR后处理中,该方法有效地将拼写检查和识别结果信息结合起来,克服了以往方法中存在的低可靠性和局限性,并通过实验验证了该方法的有效性。以识别后处理辅助识别,错误率从0.79%降到0.59%;以识别后处理和系统后处理结合辅助识别,错误率降低到0.55%。 In western language OCR systems ,the post-processing of selecting the best result from some candidates is absolutely necessary.Spell-check can provide reliable information for this task.However,there are some limitations in previous methods in different extents.In this paper,the finite automaton model is applied to the post -processing procedure.It combines the spell -check with the character recognition results.Experiment shows the validity of the method.Using the recognition post-processing,the error rate drops to0.59%from0.79%.Using both the recognition and the system post-processing,the error rate drops to0.55%.
出处 《计算机工程与应用》 CSCD 北大核心 2004年第23期26-29,共4页 Computer Engineering and Applications
基金 国家自然科学基金天元基金项目(编号:TY10026002-04-04-01)资助
关键词 字符串匹配 有限自动机 光学字符识别 文档图像处理 光学字符识别 OCR 文字信息电子化 string matching,finite automaton,optical character recognition,document image processing
  • 相关文献

参考文献8

  • 1吕学强,迟呈英.英文光学字符识别的后处理[J].鞍山钢铁学院学报,2002,25(3):192-196. 被引量:7
  • 2W J Teahan,S Inglis,J G Cleary et al.Correcting English text using PPM models[C].In:Data Compression Conference,1998:289~298
  • 3Hauser SE,Browne AC,Thoma GR et al.Lexicon assistance reduces manual verification of OCR output[C].In:Proc 11th IEEE Symposium on Computer-Based Medical Systems,1998:90~95
  • 4罗光春,李炯.有限自动机在BBS信息监测系统中的运用[J].电子科技大学学报,2002,31(3):262-265. 被引量:3
  • 5James Moscola,John Lockwood,Ronald P Loui et al.Implementation of a Content-Scanning Module for an Internet Firewall[C].In:11th Annual IEEE Symposium on Field-Programmable Custom Computing Machines,2003:31~38
  • 6Yanlei Diao,Michael J Franklin.High-Performance XML Filtering:An Overview of YFilter[J].IEEE Data Engineering Bulletin,2003;26 ( 1 ):41~48
  • 7Gonzalo Navarro,Mathieu Raffinot.Fast and simple character classes and bounded gaps pattern matching,with applications to protein searching[C].In:Proceedings of the 5th Annual International Conference on Computational Molecular Biology,2001:231~240
  • 8Heikki Hyyro,Gonzalo Navarro.Faster Bit-parallel Approximate String Matching[C].In:Proceedings of the 13th Annual Symposium on Combinatorial Pattern Matching,2002:203~224

二级参考文献3

  • 1陈文宇.形式语言与自动机[M].成都:电子科技大学出版社,1991..
  • 2Aho A V Ullman J D.形式语言及其句法分析[M].北京:科学出版社,1987..
  • 3Hopcroft J E Ullman J D.形式语言及其与自动机的关系[M].北京:科学出版社,1979..

共引文献8

同被引文献18

引证文献2

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部