-
题名带有神经网的文字识别系统
被引量:4
- 1
-
-
作者
罗四维
-
机构
北方交通大学计算机科学技术系
-
出处
《计算机学报》
EI
CSCD
北大核心
1991年第1期79-80,F003,共3页
-
文摘
1.引言 神经计算学(Neurocomputing)是近年被神经学工作者、计算机、数学工作者极为重视的一门新兴科学,它将根据当前为止人们所了解到的生物神经的基本原理、结合电子技术和其它物理方法以及数学知识,企图解决现代计算机较难解决的一些信息处理、模式识别等问题。另外也企图通过对实际问题的模拟,反过来认识和发展神经学,解剖学。 在神经计算学中所描述的神经网包括大量的处理单元和联接这些单元的链。
-
关键词
神经网
文字识别系统
神经计算学
-
分类号
TP391.42
[自动化与计算机技术—计算机应用技术]
-
-
题名一个基于混合语言模型的日文识别后处理系统
- 2
-
-
作者
谢旭东
丁晓青
彭良瑞
刘长松
-
机构
清华大学电子工程系
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第14期68-72,共5页
-
基金
国家863高技术研究发展计划(编号:2001AA114081)
国家自然科学基金(编号:69972024)
-
文摘
在文字识别系统中,为了进一步提高文本识别率,后处理模块是很重要的环节。文章针对日文的语言特性,建立统计方法和规则相结合的混和语言模型,实现了一个日文识别后处理系统。该系统首先利用Viterbi算法得到统计模型输出的最优结果,通过与前端识别器输入的识别结果相比较,确定可疑字位置,再利用上下文词匹配方法和语法规则库的使用对可疑字进行检错和纠错处理。经实验验证,该后处理系统对识别日文印刷体文本错误率平均下降21.4%。
-
关键词
混合语言模型
日文识别后处理系统
知识库
文字识别系统
-
Keywords
Japanese OCR,post-processing,language model,statistical method,knowledge base
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于连通域的版面分割方法
被引量:7
- 3
-
-
作者
郭丽
孙兴华
王正群
杨静宇
-
机构
南京理工大学计算机科学系
清华大学计算机系人机交互与媒体集成研究所
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第5期105-107,共3页
-
文摘
版面分割是版面分析的重要组成部分,是一个受到广泛关注的研究课题。该文提出了一种基于连通域的版面分割算法,首先对文档图像进行倾斜校正,然后采用模糊处理以得到较大的连通单元,再根据区域连通的特性进行版面分割和处理。实验表明,基于连通域的算法分割版面准确,速度快,适用范围广,不仅可用于矩形版面,对于非Manhattan版面等复杂版面也能取得令人满意的效果。
-
关键词
连通域
版面分割方法
版面分析
动态聚类法
图像模糊
印刷体文字识别系统
-
Keywords
layout analysis,connective region,dynamic clustering method,image smearing,page segmentation
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名RTF文件格式在文档版面重构中的应用
被引量:9
- 4
-
-
作者
王宇
-
机构
河北大学数学与计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2002年第12期74-75,79,共3页
-
基金
河北省自然科学基金资助项目 (6 0 2 1 2 7)
-
文摘
文档版面重构是文字识别系统中的重要组成部分,它在电子出版等领域有着特殊意义。RTF格式是一种可编辑的通用文本、图像信息交换格式。本文介绍利用RTF格式实现文档版面重构,特别是表格重构的方法。
-
关键词
RTF文件格式
文档版面重构
版式识别
版面重构
文字识别系统
计算机
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名藏文识别的预处理
- 5
-
-
作者
王浩军
赵南元
邓钢轶
-
机构
清华大学自动化系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第9期93-96,共4页
-
文摘
预处理是整个文字识别系统的重要组成部分,预处理性能的优劣将直接影响整个识别系统的性能。根据藏文在字形和书写方式上的特点,实现了一种适用于藏文识别的预处理技术,整个预处理过程包括二值化、版面分析、倾斜校正、字符切分和归一化。在预处理过程中还提取了一些有关字丁的基本特征,这些特征充分反映了藏文的特点,具有良好的稳定性,可以用于识别系统的粗分类和后处理。
-
关键词
藏文识别
预处理
字符切分
文字识别系统
计算机
-
Keywords
Tibetan character recognition
Preprocessing
Skew correction
Character segmentation
Normalization
-
分类号
TP391.43
[自动化与计算机技术]
-