期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
中文电子文档的数学公式定位研究 被引量:4
1
作者 林晓燕 高良才 汤帜 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第1期17-24,共8页
区别于传统基于图像和西文文档的公式定位方法,针对中文电子文档的特点,提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法。设计了适合中文文档的页面分行策略和词块划分规则;选择适合中文文档的公式特征和机器学习算法... 区别于传统基于图像和西文文档的公式定位方法,针对中文电子文档的特点,提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法。设计了适合中文文档的页面分行策略和词块划分规则;选择适合中文文档的公式特征和机器学习算法;针对公式定位中的过分割问题,提出行合并与词块合并等后处理手段。实验结果表明,该方法可以有效地从中文电子文档中自动定位公式区域。此外,构建了公开可用的中文数据集,以促进不同数学公式定位方法间的相互比较及性能评估。 展开更多
关键词 数学公式识别 数学公式定位 电子文档 中文文档
在线阅读 下载PDF
中文电子文档中数学公式的语义识别方法研究
2
作者 王高 王培珍 +2 位作者 杜培明 王爱芳 张自强 《小型微型计算机系统》 CSCD 北大核心 2017年第10期2379-2384,共6页
中文电子文档中数学公式结构复杂且含有大量特殊符号,针对目前OCR技术难以高效识别数学公式,提出了一种新的公式语义识别方法.首先结合字符宽度中心矩和汉字拒识法对公式进行两次定位,然后利用投影法和连通域法切分公式字符,提取字符孔... 中文电子文档中数学公式结构复杂且含有大量特殊符号,针对目前OCR技术难以高效识别数学公式,提出了一种新的公式语义识别方法.首先结合字符宽度中心矩和汉字拒识法对公式进行两次定位,然后利用投影法和连通域法切分公式字符,提取字符孔洞数、穿越线等特征构建字符模板库,利用模板匹配方法识别公式中各字符,接着基于五类特征字符的特点,建立后标型、包含型和独立型等七种字符块合并规则以分析公式结构、还原公式的语法含义,最后将公式结构分析结果以EQ域语法串的形式输出.实验结果表明,本文方法可以有效地对中文电子文档中的数学公式进行语义分析. 展开更多
关键词 数学公式定位 字符识别 结构分析 语义识别
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部