当前的OCR(optica l character recogn ition)系统对手写、打印文本都有很高的识别率,但是缺少对数学公式的结构进行分析及重组的功能.为此,将程序设计语言编译程序的基本设计方法用于数学公式的结构分析.重点介绍了上下标的定位、基于L...当前的OCR(optica l character recogn ition)系统对手写、打印文本都有很高的识别率,但是缺少对数学公式的结构进行分析及重组的功能.为此,将程序设计语言编译程序的基本设计方法用于数学公式的结构分析.重点介绍了上下标的定位、基于LL(1)文法的表达式构成规则和公式结构分析器的设计,并简略介绍了基于神经网络的数学符号识别方法.对于印刷体科学文献中的数学表达式,先通过预处理和分类过程识别每一个数学符号,得到按左边界排序的一串字符.然后通过结构分析器,进行上下标的定位以及前后关系的确定.最后把结构分析器生成的语法树转换成可编辑的L aT ex格式.实例证明得到了比较满意的结果.展开更多
为解决复杂背景中准确地进行文字分割的问题,提出了一种应用stroke滤波器进行文本分割的新方法。首先进行stroke滤波器的合理设计,并应用所设计的stroke滤波器来判别文本的彩色极性,得到初次分割的二值图。然后进行基于区域生长的文字...为解决复杂背景中准确地进行文字分割的问题,提出了一种应用stroke滤波器进行文本分割的新方法。首先进行stroke滤波器的合理设计,并应用所设计的stroke滤波器来判别文本的彩色极性,得到初次分割的二值图。然后进行基于区域生长的文字分割。最后,应用OCR(optical character recognition)模块提高文本分割的整体性能。将提出的算法与其他算法进行了比较,结果表明,所提算法更为有效。展开更多
文摘当前的OCR(optica l character recogn ition)系统对手写、打印文本都有很高的识别率,但是缺少对数学公式的结构进行分析及重组的功能.为此,将程序设计语言编译程序的基本设计方法用于数学公式的结构分析.重点介绍了上下标的定位、基于LL(1)文法的表达式构成规则和公式结构分析器的设计,并简略介绍了基于神经网络的数学符号识别方法.对于印刷体科学文献中的数学表达式,先通过预处理和分类过程识别每一个数学符号,得到按左边界排序的一串字符.然后通过结构分析器,进行上下标的定位以及前后关系的确定.最后把结构分析器生成的语法树转换成可编辑的L aT ex格式.实例证明得到了比较满意的结果.
文摘为解决复杂背景中准确地进行文字分割的问题,提出了一种应用stroke滤波器进行文本分割的新方法。首先进行stroke滤波器的合理设计,并应用所设计的stroke滤波器来判别文本的彩色极性,得到初次分割的二值图。然后进行基于区域生长的文字分割。最后,应用OCR(optical character recognition)模块提高文本分割的整体性能。将提出的算法与其他算法进行了比较,结果表明,所提算法更为有效。