-
题名一个基于混合语言模型的日文识别后处理系统
- 1
-
-
作者
谢旭东
丁晓青
彭良瑞
刘长松
-
机构
清华大学电子工程系
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第14期68-72,共5页
-
基金
国家863高技术研究发展计划(编号:2001AA114081)
国家自然科学基金(编号:69972024)
-
文摘
在文字识别系统中,为了进一步提高文本识别率,后处理模块是很重要的环节。文章针对日文的语言特性,建立统计方法和规则相结合的混和语言模型,实现了一个日文识别后处理系统。该系统首先利用Viterbi算法得到统计模型输出的最优结果,通过与前端识别器输入的识别结果相比较,确定可疑字位置,再利用上下文词匹配方法和语法规则库的使用对可疑字进行检错和纠错处理。经实验验证,该后处理系统对识别日文印刷体文本错误率平均下降21.4%。
-
关键词
混合语言模型
日文识别后处理系统
知识库
文字识别系统
-
Keywords
Japanese OCR,post-processing,language model,statistical method,knowledge base
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-