期刊文献+

大型中文古籍《四库全书》自动版面分析系统 被引量:7

Automatic Document Layout Analysis System for the Large scale Chinese Antient Books“Imperial Collection of Four”
在线阅读 下载PDF
导出
摘要 《四库全书》是中文古籍的经典和代表。对《四库全书》的整理 ,可以为其它古籍的整理积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统 ,主要功能是对《四库全书》的页面图象进行分析和理解 ,分离图象中的汉字用于识别和统计 ,获取版面结构以便于重编和出版。《四库全书》属于手写木版印刷 ,版面有一定规范 ,但形式多样、结构复杂、图象质量和字体大小有差异 ,版面分析的难度很大。本系统采用了自顶向下方法与自底向上方法相结合、自动处理与人工修正相结合的设计思想。从实用情况看 ,本系统已经能够自动采用相应算法 ,处理多种规范和准规范的版面 ,并提供方便的人工辅助纠错功能 ,保障了预处理工作的顺利进行 ,也为识别系统的学习建库和识别创造了良好的条件。 Imperial Collection of Four”is a sutra and representation of Chinese antient books.So the digitalization works of this Collection will accumulate and provide experiences for other antient books.This system is the pre processing system of costumized OCR system for the digitized publication of “Imperial Collection of Four”.The main function of this system is to analysis and undterstand the page images scanned from the Collection, then to seperate the Chinese characters in them for the use of recognition and statistics,meanwhile extracting the layout structures for re building and publishing.The design of the system adoptted top down approaches with bottom up ones,and also adoptted automatic processings with manual correcting.In application, this system has been used to process a large numbers of page images,and has shown efficient and satisfiable performance.It provides a stable ground for the pre processing works,and builds up a good situation for learning and recognition procedures of the recogintion system.
出处 《中文信息学报》 CSCD 北大核心 2000年第2期14-20,共7页 Journal of Chinese Information Processing
基金 国家自然科学基金 "86 3"高技术项目资助
关键词 四库全书 版面分析 汉字识别 OCR技术 Imperial Collection of Four Chinese ancient books Document layout analysis Chinese character recognition
  • 相关文献

同被引文献67

引证文献7

二级引证文献37

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部