期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

大型中文古籍《四库全书》自动版面分析系统被引量：7

Automatic Document Layout Analysis System for the Large scale Chinese Antient Books“Imperial Collection of Four”

在线阅读下载PDF

导出

摘要《四库全书》是中文古籍的经典和代表。对《四库全书》的整理 ,可以为其它古籍的整理积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统 ,主要功能是对《四库全书》的页面图象进行分析和理解 ,分离图象中的汉字用于识别和统计 ,获取版面结构以便于重编和出版。《四库全书》属于手写木版印刷 ,版面有一定规范 ,但形式多样、结构复杂、图象质量和字体大小有差异 ,版面分析的难度很大。本系统采用了自顶向下方法与自底向上方法相结合、自动处理与人工修正相结合的设计思想。从实用情况看 ,本系统已经能够自动采用相应算法 ,处理多种规范和准规范的版面 ,并提供方便的人工辅助纠错功能 ,保障了预处理工作的顺利进行 ,也为识别系统的学习建库和识别创造了良好的条件。 Imperial Collection of Four”is a sutra and representation of Chinese antient books.So the digitalization works of this Collection will accumulate and provide experiences for other antient books.This system is the pre processing system of costumized OCR system for the digitized publication of “Imperial Collection of Four”.The main function of this system is to analysis and undterstand the page images scanned from the Collection, then to seperate the Chinese characters in them for the use of recognition and statistics,meanwhile extracting the layout structures for re building and publishing.The design of the system adoptted top down approaches with bottom up ones,and also adoptted automatic processings with manual correcting.In application, this system has been used to process a large numbers of page images,and has shown efficient and satisfiable performance.It provides a stable ground for the pre processing works,and builds up a good situation for learning and recognition procedures of the recogintion system.

作者姜哲马少平夏莹

机构地区智能技术与系统国家重点实验室清华大学计算机科学与技术系

出处《中文信息学报》 CSCD 北大核心 2000年第2期14-20,共7页 Journal of Chinese Information Processing

基金国家自然科学基金 "86 3"高技术项目资助

关键词四库全书版面分析汉字识别 OCR技术 Imperial Collection of Four Chinese ancient books Document layout analysis Chinese character recognition

分类号 H123 [语言文字—汉语] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献67

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：52
2姚松.计算机用于古籍整理研究的现状与展望[J].中国典籍与文化,1995(2):121-127. 被引量：3
3罗志欢.国外所藏中国古籍概观(下)[J].中国典籍与文化,1994(2):119-127. 被引量：2
4李璐.古籍全文数据库建设的技术与实践[J].图书馆学研究,2004(11):22-25. 被引量：23
5徐兆军,业宁,王厚立.基于神经网络的版面分析[J].计算机应用,2004,24(B12):274-275. 被引量：2
6靳简明,丁晓青,彭良瑞,王华.印刷维吾尔文本切割[J].中文信息学报,2005,19(5):76-83. 被引量：17
7王发社.古籍数字化的几点思考[J].图书馆论坛,2006,26(3):121-122. 被引量：20
8侯贺新,宋继华.近代碑刻文字识别研究[J].中国人民公安大学学报（自然科学版）,2006,12(2):80-82. 被引量：2
9徐清,王唯.近十年古籍书目数据库建设研究概述[J].图书情报知识,2006,23(5):37-41. 被引量：6
10常娥,侯汉清,曹玲.古籍自动校勘的研究和实现[J].中文信息学报,2007,21(2):83-88. 被引量：17

引证文献7

1许红健.台湾中文古籍数字化成果特色谈[J].农业图书情报学刊,2009,21(1):130-133. 被引量：1
2肖磊,陈小荷.古籍版本异文的自动发现[J].中文信息学报,2010,24(5):50-55. 被引量：11
3顾磊,赵阳.古籍全文文本化中存在的若干问题[J].图书馆学研究,2013(20):31-36. 被引量：6
4顾磊,赵阳.古籍数字化标注资源建设的意义及其现状分析[J].图书馆学研究,2016(4):49-52. 被引量：5
5张西群,马龙龙,段立娟,刘泽宇,吴健.基于卷积降噪自编码器的藏文历史文献版面分析方法[J].中文信息学报,2018,32(7):67-73. 被引量：13
6贾运,田学东,左丽娜.基于局部离群因子和波动阈值的古籍版面图像分析方法[J].科学技术与工程,2020,20(29):12021-12027. 被引量：1
7郭洪壮,金小峰.基于HRCenterNet模型改进的朝鲜语古籍文字检测方法[J].延边大学学报（自然科学版）,2022,48(3):235-241.

二级引证文献37

1张稚鲲,李文林.古籍数字化建设的文献计量学研究[J].图书馆理论与实践,2011(2):45-51. 被引量：8
2徐润华,陈小荷.一种利用注疏的《左传》分词新方法[J].中文信息学报,2012,26(2):13-17. 被引量：21
3郭华.中医药院校图书馆古籍全文数字化研究[J].甘肃科技,2015,31(3):77-79.
4陈雅.游戏校对方式在古籍数字化中的应用[J].图书馆建设,2015(11):18-20. 被引量：6
5谢靖.基于句子匹配的《黄帝内经》异文自动发现研究[J].科技视界,2015(35):53-54. 被引量：1
6顾磊,赵阳.古籍智能整理研究现状及存在的问题[J].图书馆学研究,2016(9):54-58. 被引量：5
7赵峰.史志网站方志文献数字化基本功能探讨——以13家史志网站方志文献数据库为例[J].中国地方志,2016(10):17-22. 被引量：2
8辛睿龙.汉文佛典数据库建设刍议[J].编辑之友,2017(8):61-66. 被引量：2
9王东波,黄水清,何琳.基于多特征知识的先秦典籍词性自动标注研究[J].图书情报工作,2017,61(12):64-70. 被引量：22
10王晓玉,赵家栋.佛教类书与所出原经深加工平行语料库建设与研究——以《经律异相》《法苑珠林》为样本[J].南京师范大学文学院学报,2018(2):135-142. 被引量：1

1张轴材.《四库全书》电子版工程与中文信息技术[J].电子出版,1999(5):7-10. 被引量：2
2刘保华,孟新民.二十世纪末缩微技术与光盘技术在图书馆的应用[J].缩微技术,2000(1):18-19. 被引量：3
3刘定强,张炘中.基于组件的中文版面分析[J].中文信息学报,2000,14(2):8-13. 被引量：5
4乔国祥.期刊自动版面分析系统的设计——以医学期刊为例[J].出版发行研究,2009(5):55-56.
5王晓敏.计算机辅助翻译对中医典籍翻译的促进作用——以《四库全书》为例[J].贵阳学院学报（社会科学版）,2015,10(3):85-87 95. 被引量：2
6中外携手盘点海外中文古籍换发百年史料新声[J].海外华文教育动态,2016(8):61-62.
7祁凌霄,李晓盈,冉德峰.新著《四库全书目录新编》出版[J].沧州师范学院学报,2014,30(4).
8刘春茂,刘毅.京、津、沪三地电子商务发展状况的案例分析[J].情报科学,2001,19(11):1193-1198.
9师宇腾,魏蓓,周京华.书库恒温恒湿机组远程监控系统设计[J].电气传动自动化,2016,38(4):59-61.
10蓝永.对中文古籍数字化的几点建议[J].兰台世界（下半月）,2008(8):11-12. 被引量：1

中文信息学报

2000年第2期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部