当前的OCR(optica l character recogn ition)系统对手写、打印文本都有很高的识别率,但是缺少对数学公式的结构进行分析及重组的功能.为此,将程序设计语言编译程序的基本设计方法用于数学公式的结构分析.重点介绍了上下标的定位、基于L...当前的OCR(optica l character recogn ition)系统对手写、打印文本都有很高的识别率,但是缺少对数学公式的结构进行分析及重组的功能.为此,将程序设计语言编译程序的基本设计方法用于数学公式的结构分析.重点介绍了上下标的定位、基于LL(1)文法的表达式构成规则和公式结构分析器的设计,并简略介绍了基于神经网络的数学符号识别方法.对于印刷体科学文献中的数学表达式,先通过预处理和分类过程识别每一个数学符号,得到按左边界排序的一串字符.然后通过结构分析器,进行上下标的定位以及前后关系的确定.最后把结构分析器生成的语法树转换成可编辑的L aT ex格式.实例证明得到了比较满意的结果.展开更多
文摘当前的OCR(optica l character recogn ition)系统对手写、打印文本都有很高的识别率,但是缺少对数学公式的结构进行分析及重组的功能.为此,将程序设计语言编译程序的基本设计方法用于数学公式的结构分析.重点介绍了上下标的定位、基于LL(1)文法的表达式构成规则和公式结构分析器的设计,并简略介绍了基于神经网络的数学符号识别方法.对于印刷体科学文献中的数学表达式,先通过预处理和分类过程识别每一个数学符号,得到按左边界排序的一串字符.然后通过结构分析器,进行上下标的定位以及前后关系的确定.最后把结构分析器生成的语法树转换成可编辑的L aT ex格式.实例证明得到了比较满意的结果.
基金Supported by the National Natural Science Foundation of China (10471117) ,the Henan Innovation Project for University Prominent Research Talents (2005KYCX017) and the Scientific Research Foundation for the Returned Overseas Chinese Scholars ,State Eduction Ministry