期刊文献+
共找到220篇文章
< 1 2 11 >
每页显示 20 50 100
我国民族语言文献文本数字化识别问题——基于OCR及其工具 被引量:4
1
作者 范俊军 刘贤娴 《暨南学报(哲学社会科学版)》 CSSCI 北大核心 2024年第6期31-45,共15页
我国少数民族语言文献数量庞大,文字种类繁多,内容涵盖政治、经济、法律、历史、文学、艺术、宗教、天文、地理、医药等领域,是中华民族文化知识的重要组成部分。构建各民族文献文本数据,使之应用于自然语言处理和人工智能,能有效促进... 我国少数民族语言文献数量庞大,文字种类繁多,内容涵盖政治、经济、法律、历史、文学、艺术、宗教、天文、地理、医药等领域,是中华民族文化知识的重要组成部分。构建各民族文献文本数据,使之应用于自然语言处理和人工智能,能有效促进中华优秀传统知识创新性传承,促进知识社会化,是对各民族语言古文献和现代书报刊进行文字识别和文本转换数据构建的基础。国内早期OCR技术虽然解决了几种主要少数民族文字识别的问题,但因字符为非Unicode基本集编码而弃用。当前OCR技术已能较好识别蒙、藏、维、哈、朝等文种文献,但在处理我国汉文与少数民族文字混排图像文本时仍然效果不佳。因此应推进少数民族语言文献OCR识别技术创新。我国少数民族语言文献现行活态文字有十多种,其中非拉丁字系的文字有11种,OCR技术应重点解决这类少数民族语言字系的抄本、刻版和铅字印刷文本,以及汉文与民族文字混排文本的识别问题,研发开放的多功能工具和平台。在此基础上,进一步开展少数民族语言文献文本大规模数据构建,以促进我国语言科学研究和自然语言处理的创新发展。 展开更多
关键词 少数民族语言 民族文献 文本识别 ocr 数据构建 数字人文
在线阅读 下载PDF
基于深度学习的指针式仪表自动读数与读数校正方法
2
作者 朱均超 张明惠 +2 位作者 韩芳芳 王玉军 宋思源 《仪表技术与传感器》 北大核心 2025年第7期50-56,共7页
为了实现不同量程指针式仪表的自动精准读数,文中提出了一种基于深度学习的指针式仪表自动读数与读数校正的方法。针对不同量程指针式仪表的自动读数,首先,采用YOLOv5模型和U-Net模型进行仪表的检测及指针与刻度线信息的分割;随后利用PP... 为了实现不同量程指针式仪表的自动精准读数,文中提出了一种基于深度学习的指针式仪表自动读数与读数校正的方法。针对不同量程指针式仪表的自动读数,首先,采用YOLOv5模型和U-Net模型进行仪表的检测及指针与刻度线信息的分割;随后利用PP-OCRv3模型读取量程信息,实现对不同量程的仪表信息提取;最后将读取的量程信息代入夹角占比公式计算出仪表读数。针对倾斜仪表读数不准确的问题,构建BP神经网络拟合出检测读数与实际读数的非线性映射关系,实现对不同倾斜角度的指针式仪表检测读数的校正。实验表明:该方法能够得出不同量程的精准读数,平均绝对百分比误差MAPE为2.6845%。 展开更多
关键词 指针式仪表 深度学习 BP神经网络 读数校正 自动读数 ocr模型
在线阅读 下载PDF
绿色食品业务档案数字化管理系统研究和展望
3
作者 王鸑飞 吴定峰 +1 位作者 孙辉 刘娴 《农业展望》 2025年第6期92-100,共9页
随着中国农业现代化的推进,绿色食品业务档案管理的重要性日益凸显。传统的纸质档案管理模式存在检索困难、存储分散、共享性差等问题,影响了绿色食品质量认证及市场监管的效率。本研究基于光学字符识别(OCR)、深度学习和自然语言处理技... 随着中国农业现代化的推进,绿色食品业务档案管理的重要性日益凸显。传统的纸质档案管理模式存在检索困难、存储分散、共享性差等问题,影响了绿色食品质量认证及市场监管的效率。本研究基于光学字符识别(OCR)、深度学习和自然语言处理技术,研发了一套智能化的绿色食品业务档案数字化管理系统。系统包括后台业务档案数字化加工生产线和前台档案管理平台,实现了高精度OCR识别、版式解析、结构化存储、多维智能检索、在线预览与权限管理等功能,已在中国绿色食品发展中心试点应用,完成了2020年前数万份业务档案的数字化处理,显著提升了档案的可访问性和利用效率。展望未来,该系统将在智能化管理、跨区域数据互联互通、全生命周期档案建设及多元化应用场景拓展等方面进一步优化,推动农业数字化转型,提高绿色食品的监管水平。 展开更多
关键词 绿色食品 业务档案数字化 ocr识别 业务档案管理系统 农业数字化转型
在线阅读 下载PDF
基于DSP的版面分析和OCR识别的原理及实现 被引量:5
4
作者 刘建胜 汪同庆 +1 位作者 王贵新 居琰 《仪器仪表学报》 EI CAS CSCD 北大核心 2003年第6期577-580,共4页
随着光学字符识别 (OCR)技术广泛应用于人口普查、银行票据、各类报表等表格文档自动处理中 ,大大提高了表格文档的处理效率和精度 ,节省了人力物力和财力。 OCR识别系统通常采用扫描仪获取表格文档的原始图像 ,由计算机进行版面分析和... 随着光学字符识别 (OCR)技术广泛应用于人口普查、银行票据、各类报表等表格文档自动处理中 ,大大提高了表格文档的处理效率和精度 ,节省了人力物力和财力。 OCR识别系统通常采用扫描仪获取表格文档的原始图像 ,由计算机进行版面分析和字符识别。这里提出了基于 DSP的 OCR识别仪 ,采用接触式图像传感器摄取文档的原始图像 ,数字信号处理器(DSP)实现版面分析和字符识别。将识别结果输入到计算机中进行后处理。这样一台计算机可以联结多台识别仪 ,大大降低了 OCR识别系统的成本 。 展开更多
关键词 光学字符识别 DSP 版面分析 ocr 表格文档自动处理
在线阅读 下载PDF
基于人工智能的齿轮测量数据数字化提取技术
5
作者 卢粲 林虎 +1 位作者 张勇 杨国梁 《计量学报》 北大核心 2025年第9期1395-1402,共8页
数据的获取和应用是数字化转型的基础,深入探讨了从齿轮测量报告图像文件中提取测量数据所面临的挑战。此类文件数据无法直接编辑和复制,只能人工识别和记录,效率低且易出错,难以满足数据可访问、可互操作和可重用的要求。基于人工智能... 数据的获取和应用是数字化转型的基础,深入探讨了从齿轮测量报告图像文件中提取测量数据所面临的挑战。此类文件数据无法直接编辑和复制,只能人工识别和记录,效率低且易出错,难以满足数据可访问、可互操作和可重用的要求。基于人工智能技术,提出了GearOCR数据识别提取模型,通过优化前处理、数据集扩充、网络模型和校验规则,将封闭式图像中的齿轮测量数据内容提取为机器可读取的数据。经过对50份数据报告进行测试,GearOCR模型总体识别准确率达到100%,显著提高了数据提取的效率和准确性,为后续大数据的机器交互和应用提供技术支撑。 展开更多
关键词 齿轮测量 数据提取 数字化转型 人工智能 ocr技术
在线阅读 下载PDF
一种基于Google的OCR结果校对新方法 被引量:8
6
作者 颜建强 高新波 《计算机学报》 EI CSCD 北大核心 2014年第6期1261-1267,共7页
为了提高OCR识别率,许多校对算法被提出用作后处理.这些方法利用自然语言规律统计大量的语料库进行语法判断.由于语料库规模有限且无法及时更新,导致一些网络新词、专用名词等常被错误处理.为此,文中将传统的语料库和Google知识库相结合... 为了提高OCR识别率,许多校对算法被提出用作后处理.这些方法利用自然语言规律统计大量的语料库进行语法判断.由于语料库规模有限且无法及时更新,导致一些网络新词、专用名词等常被错误处理.为此,文中将传统的语料库和Google知识库相结合,利用Google知识库获得网络新词等出现的频率,建立N-Gram模型,利用词语间的接续关系进行查错,再借助Google的拼写校对功能和词语之间的可信度进行改错.相比传统的方法,该方法的语料库源于互联网,对一些新词有更好的校对效果,更适合图像中嵌入的文字信息识别结果的校正. 展开更多
关键词 ocr 校对 语料库 GOOGLE 纠错
在线阅读 下载PDF
利用OCR识别技术实现视频中文字的提取 被引量:22
7
作者 陈义 李言俊 孙小炜 《计算机工程与应用》 CSCD 北大核心 2010年第10期180-183,共4页
为了在视频图像中进行字幕信息的实时提取,提出了一套简捷而有效的方法。首先进行文字事件检测,然后进行边缘检测、阈值计算和边缘尺寸限制,最后依据文字像素密度范围进一步滤去非文字区域的视频字幕,提出的叠加水平和垂直方向边缘的方... 为了在视频图像中进行字幕信息的实时提取,提出了一套简捷而有效的方法。首先进行文字事件检测,然后进行边缘检测、阈值计算和边缘尺寸限制,最后依据文字像素密度范围进一步滤去非文字区域的视频字幕,提出的叠加水平和垂直方向边缘的方法,加强了检测到的文字的边缘;对边缘进行尺寸限制过滤掉了不符合文字尺寸的边缘。应用投影法最终确定视频字幕所在区域。最后,利用OCR识别技术对提取出来的文字区域进行识别,完成视频中文字的提取。以上方法的结合保证了提出算法的正确率和鲁棒性。 展开更多
关键词 光学文字识别 文字事件检测 数字视频
在线阅读 下载PDF
OCR性能测试的分布式软件测试系统 被引量:2
8
作者 许静 刘杰 +1 位作者 庞博 王庆人 《计算机工程》 CAS CSCD 北大核心 2006年第8期79-81,共3页
系统的性能测试需要进行全数据集合的回归测试,才能得到准确的性能指标。测试过程需要大数据量、长时间,所以自动测试成为必然的选择。该文设计了网络环境下的分布式自动测试系统,应用于软件系统的性能测试。并以OCR软件的测试为例,介... 系统的性能测试需要进行全数据集合的回归测试,才能得到准确的性能指标。测试过程需要大数据量、长时间,所以自动测试成为必然的选择。该文设计了网络环境下的分布式自动测试系统,应用于软件系统的性能测试。并以OCR软件的测试为例,介绍了该系统的具体功能实现。 展开更多
关键词 性能测试 分布式系统 ocr
在线阅读 下载PDF
人民币OCR中的号码区域快速定位新方法 被引量:4
9
作者 李昌海 叶玉堂 +3 位作者 刘霖 罗颖 叶涵 徐伟 《光电工程》 CAS CSCD 北大核心 2012年第9期145-150,共6页
提出了一种人民币光学字符识别(OCR)过程中号码区域快速定位的新方法。算法首先利用固定阈值法对纸币图像进行二值化,然后从二值纸币图像的左边缘和下边缘选取一定数目的样本点,根据非磨损残缺区域两边缘上向量内积为零的特性,筛选出位... 提出了一种人民币光学字符识别(OCR)过程中号码区域快速定位的新方法。算法首先利用固定阈值法对纸币图像进行二值化,然后从二值纸币图像的左边缘和下边缘选取一定数目的样本点,根据非磨损残缺区域两边缘上向量内积为零的特性,筛选出位于边缘非残缺区域内的样本点,从而排除边缘磨损残缺的干扰。再根据这些样本点用最小二乘法拟合直线,以确定纸币的倾斜角和左下角点坐标。最后对图像做旋转变换,同时根据旋转公式得到纸币图像矫正后左下角点的坐标,并以角点为起点偏移固定距离提取出号码区域,这使得提取号码区域时间开销在微秒级,图像矫正与号码定位几近同时完成。实验结果表明,该方法具有较好的鲁棒性和较高的时间效率,在纸币号码识别系统中具有很好的应用前景。 展开更多
关键词 光学字符识别 最小二乘法 区域定位 图像矫正
在线阅读 下载PDF
新的基于统计熵功率的OCR算法及其DMCU实现 被引量:4
10
作者 吴永亮 万旺根 +1 位作者 钱锋 徐鸿玮 《计算机工程与应用》 CSCD 北大核心 2009年第1期195-197,共3页
使用摄像头进行文字识别最大的问题在于图像抖动。为了有效地消除图像抖动并正确实现文字识别,提出了一种基于统计熵功率的新的识别算法。这种方法将采集到的数据作为随机信号处理。实验证明,此算法计算复杂度低,识别率高,适用于低成本... 使用摄像头进行文字识别最大的问题在于图像抖动。为了有效地消除图像抖动并正确实现文字识别,提出了一种基于统计熵功率的新的识别算法。这种方法将采集到的数据作为随机信号处理。实验证明,此算法计算复杂度低,识别率高,适用于低成本嵌入式系统,在中国台湾俊亿公司24MHZ16位DMCU嵌入式系统上,获得了94%以上的正确识别率。 展开更多
关键词 统计 熵功率 文字识别
在线阅读 下载PDF
基于霍夫变换的铭牌OCR图像旋转矫正方法 被引量:14
11
作者 张勇红 《电测与仪表》 北大核心 2015年第8期125-128,共4页
在对互感器铭牌图像进行扫描输入时,铭牌图像或多或少会出现一定程度的倾斜,这种图像的倾斜最终会导致其字符识别准确率下降。针对此问题提出一种基于霍夫变换获取图像倾斜角度,进而通过图像旋转矫正提高光学字符识别(Optical Character... 在对互感器铭牌图像进行扫描输入时,铭牌图像或多或少会出现一定程度的倾斜,这种图像的倾斜最终会导致其字符识别准确率下降。针对此问题提出一种基于霍夫变换获取图像倾斜角度,进而通过图像旋转矫正提高光学字符识别(Optical Character Recognition,OCR)准确率的方法:首先对原始图像进行二值化,进而获得铭牌的轮廓,再采用基于霍夫变换的方法获得铭牌中的水平线段,通过计算得到线段的水平倾斜角,利用此倾角对图像进行还原。实验结果表明,该方法能快速地计算图像的倾斜角度,提高了OCR识别准确率且准确率可达95%以上。 展开更多
关键词 ocr 字符识别 霍夫变换 旋转矫正
在线阅读 下载PDF
基于神经网络和学习子空间的OCR识别方法在选票处理中的应用 被引量:1
12
作者 刘建胜 汪同庆 +2 位作者 居琰 王贵新 任莉 《计算机工程》 CAS CSCD 北大核心 2002年第11期36-38,共3页
选票信息的自动处理能提高录入速度、保证选举的公正性。绝大多数的选票信息自动处理系统都是采用光学标记识别的方法,该方法对于选票纸张和填写要求较高,而且误识率较高。该文提出了一种基于神经网络和学习子空间光学字符识别(OCR)... 选票信息的自动处理能提高录入速度、保证选举的公正性。绝大多数的选票信息自动处理系统都是采用光学标记识别的方法,该方法对于选票纸张和填写要求较高,而且误识率较高。该文提出了一种基于神经网络和学习子空间光学字符识别(OCR)方法。该识别方法具有对纸张和填写的要求低,精度高、通用性好的特点。 展开更多
关键词 神经网络 学习子空间 选票处理 光学字符识别 计算机 信息处理
在线阅读 下载PDF
文本数字化图像OCR识别的准确度测度实验与提高 被引量:11
13
作者 臧国全 《图书情报知识》 CSSCI 北大核心 2010年第3期62-67,共6页
基于英国国家图书馆的Reshelp和Burney两个古旧英文报纸数字化项目,作者对文本型数字图像的OCR识别的准确度进行测试实验,结果显示整体准确度不高,且从高到低依次为字符、单词、重要单词、大写字母开头的重要单词。然后,将OCR识别周期... 基于英国国家图书馆的Reshelp和Burney两个古旧英文报纸数字化项目,作者对文本型数字图像的OCR识别的准确度进行测试实验,结果显示整体准确度不高,且从高到低依次为字符、单词、重要单词、大写字母开头的重要单词。然后,将OCR识别周期划分为数字扫描对象的获取、数字图像的生产、数字图像的处理和文本识别等四个阶段,分析每个阶段影响准确度的因素,探讨提高准确度的具体措施。 展开更多
关键词 ocr识别 准确度测试 信息资源数字化
在线阅读 下载PDF
基于OCR光学字符识别的翻译优化方法 被引量:10
14
作者 王晓艺 高挺挺 《激光杂志》 北大核心 2020年第12期156-160,共5页
以转化并翻译纸张等载体上文本资料为数字化信息为目标,提出一种基于OCR光学字符识别的翻译优化方法。利用具备摄像功能的设备拍摄含待翻译字符的图像,图像预处理时采用区域灰度差生长算法和叠加灰度值方式判断原始图像中背景信息和表... 以转化并翻译纸张等载体上文本资料为数字化信息为目标,提出一种基于OCR光学字符识别的翻译优化方法。利用具备摄像功能的设备拍摄含待翻译字符的图像,图像预处理时采用区域灰度差生长算法和叠加灰度值方式判断原始图像中背景信息和表格线条,去除原始图像中非字符像素干扰,得到二值化文本图像;图像分割时采用基于改进FCM聚类算法的图像分割方法,利用小波多尺度图像框架,引入时效性函数,降低二值化文本图像分割计算量,充分考虑相邻域信息,解决图像分割缺陷及干扰,获取二值化文本图像单个字符或单词;依据一阶Minkowski距离实现分割后的图像特征分类后,利用后处理方式结合上下文信息展开特征分类结果的进一步处理,提升翻译准确度。实验结果表明:所提方法可实现文字的精准翻译,应用效果较好。 展开更多
关键词 ocr 光学字符 识别 翻译 优化 图像
在线阅读 下载PDF
基于OCR的纵向文字校对的研究与实现 被引量:1
15
作者 李成城 白涛 +1 位作者 赵述芳 钟义信 《计算机应用研究》 CSCD 北大核心 2006年第4期234-236,共3页
提出一种基于OCR识别的文字纵向校对的实现方法,在文字信息处理、图像显示和校对过程中提出了自己的算法和策略,对数组结构及其读写方法进行了较细致的分析。以汉字的纵向校对为例,实验表明该方法具有很快的计算速度,对一个有经验的校... 提出一种基于OCR识别的文字纵向校对的实现方法,在文字信息处理、图像显示和校对过程中提出了自己的算法和策略,对数组结构及其读写方法进行了较细致的分析。以汉字的纵向校对为例,实验表明该方法具有很快的计算速度,对一个有经验的校对人员而言,通过纵校和横校的结合可以使差错率控制在万分之三以内。 展开更多
关键词 ocr 文字处理 纵向校对
在线阅读 下载PDF
西文OCR后处理中的有限自动机模型 被引量:2
16
作者 王恺 靳简明 王庆人 《计算机工程与应用》 CSCD 北大核心 2004年第23期26-29,共4页
在西文OCR中,从候选结果中挑选最佳结果的后处理操作是必不可少的,并且利用单词拼写检查进行后处理是完全可行的。但是,以往的方法分别在不同程度上具有低可靠性和局限性。为此,该文提出将有限自动机模型应用于西文OCR后处理中,该方法... 在西文OCR中,从候选结果中挑选最佳结果的后处理操作是必不可少的,并且利用单词拼写检查进行后处理是完全可行的。但是,以往的方法分别在不同程度上具有低可靠性和局限性。为此,该文提出将有限自动机模型应用于西文OCR后处理中,该方法有效地将拼写检查和识别结果信息结合起来,克服了以往方法中存在的低可靠性和局限性,并通过实验验证了该方法的有效性。以识别后处理辅助识别,错误率从0.79%降到0.59%;以识别后处理和系统后处理结合辅助识别,错误率降低到0.55%。 展开更多
关键词 字符串匹配 有限自动机 光学字符识别 文档图像处理 光学字符识别 ocr 文字信息电子化
在线阅读 下载PDF
OCR下的改进SIFT人脸识别算法 被引量:5
17
作者 霍春宝 杨闯 +2 位作者 佟智波 杨红喆 王丹丹 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2021年第4期378-382,共5页
针对传统的SIFT人脸识别算法存在特征维数高、匹配计算量和难度大的问题,采用OCR技术中的非均匀网格的方式对人脸图像进行区域划分,引入旋转无关的等价模式的LTP特征对SIFT关键点进行描述并对比实验.研究结果表明:改进后的SIFT人脸识别... 针对传统的SIFT人脸识别算法存在特征维数高、匹配计算量和难度大的问题,采用OCR技术中的非均匀网格的方式对人脸图像进行区域划分,引入旋转无关的等价模式的LTP特征对SIFT关键点进行描述并对比实验.研究结果表明:改进后的SIFT人脸识别算法降低了特征的维数,增加了对旋转、光照变化、噪声干扰等影响因素的鲁棒性.研究结论初步突破了传统SIFT人脸识别算法,有助于从OCR技术中寻求提高识别率,降低匹配计算的复杂程度的方法. 展开更多
关键词 ocr技术 均匀网格 人脸识别技术 LTP算法 SIFT算法
在线阅读 下载PDF
OCR技术在会计信息系统中的应用流程 被引量:6
18
作者 王光明 严红艳 《财会通讯(上)》 北大核心 2005年第1期65-66,共2页
关键词 ocr技术 会计信息系统 应用流程 光学字符识别
在线阅读 下载PDF
基于OCR的拼写校正系统 被引量:3
19
作者 赵莉 《兵工自动化》 2010年第9期92-94,共3页
针对光学字符识别(Optical Character Recognition,OCR)过程中出现的英文字母识别错误问题,通过分析其出错原因,提出一种将拼写错误、OCR错误规则和编辑距离法相结合的校正算法,并实现了拼写校正系统最重要的2项功能:拼写检查和拼写校... 针对光学字符识别(Optical Character Recognition,OCR)过程中出现的英文字母识别错误问题,通过分析其出错原因,提出一种将拼写错误、OCR错误规则和编辑距离法相结合的校正算法,并实现了拼写校正系统最重要的2项功能:拼写检查和拼写校正。其中,拼写检查模块采用了查字典技术;校正过程中则采用了编辑距离法。通过选取5种常用字体的打印档的辨识情况,测试了算法的有效性。实例证明,校正后的识别率都提高了2%~4%。 展开更多
关键词 拼写校正 光学字符识别 编辑距离 ocr距离
在线阅读 下载PDF
档案数字化过程中OCR技术的应用 被引量:23
20
作者 许呈辰 《档案管理》 北大核心 2011年第1期38-40,共3页
简单介绍档案数字化过程中的OCR技术,分析该技术的优势和在档案数字化工作中的独特应用,如,创新著录标引方式;实现真正的全文检索;支持双层PDF技术;拓宽档案用户利用面等。在此基础上,从OCR软件选择、参数设置、图像处理、人工校对等方... 简单介绍档案数字化过程中的OCR技术,分析该技术的优势和在档案数字化工作中的独特应用,如,创新著录标引方式;实现真正的全文检索;支持双层PDF技术;拓宽档案用户利用面等。在此基础上,从OCR软件选择、参数设置、图像处理、人工校对等方面探讨提高OCR识别率的各种方法,以期使从事档案数字化工作的人员有所借鉴,提高档案数字化工作的效率。 展开更多
关键词 档案 数字化 ocr
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部