期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
基于结构理解的手绘草图表格识别
1
作者 盖鑫 黄进 +3 位作者 王丹琳 刘杰 田丰 戴国忠 《计算机辅助设计与图形学学报》 CSCD 北大核心 2024年第12期2051-2068,共18页
基于笔交互的手绘草图表格比基于WIMP界面范式的传统电子表格更易于促进用户思维交流和创造性交互工作,同时可以避免用户学习成本高和交互界面烦琐等问题.然而,由于缺乏专门用于手绘草图表格识别的开源数据集,以及草图本身具有的模糊性... 基于笔交互的手绘草图表格比基于WIMP界面范式的传统电子表格更易于促进用户思维交流和创造性交互工作,同时可以避免用户学习成本高和交互界面烦琐等问题.然而,由于缺乏专门用于手绘草图表格识别的开源数据集,以及草图本身具有的模糊性、抽象性和用户在绘制草图时的随意性,手绘草图表格的识别仍然面临着巨大的挑战.为了解决存在复杂单元格、结构框线与内容重叠、笔迹重描补笔等具体挑战,提出了一种基于结构理解的手绘草图表格识别算法,通过一个支持向量机(support vector machines,SVM)对笔划信息进行划分,再使用多峰值检测算法与真实交点找寻和单元格特征属性检测结合,实现复杂草图表格结构的识别.客观评估结果显示,与光学字符识别(optical character recognition,OCR)基线算法相比,基于结构理解的手绘草图表格识别算法在面向草图表格结构识别任务中的树编辑距离相似度(tree-edit-distance-based similarity,TEDS)指标提升了13%以上;专家评估结果显示,基于结构理解的手绘草图表格识别算法在表格结构识别和将内容匹配到对应单元格2个评价维度中的识别效果均优于OCR基线算法的识别效果. 展开更多
关键词 手绘草图 草图结构理解 表格识别算法 人机交互
在线阅读 下载PDF
手写表格识别系统研究和实现 被引量:5
2
作者 王行荣 应俊 《计算机科学》 CSCD 北大核心 2008年第6期268-271,共4页
对手写表格数字识别系统进行研究,提出了输出规则的概念,解决了常用表格数据识别处理的输出描述问题。用此方法已成功地开发出手写数字表格识别处理系统,该系统具有运算量小、抗干扰性强、通用性好、识别率高等特点。
关键词 手写数字识别 表格识别 输出规则 识别系统
在线阅读 下载PDF
一种复杂表格识别和处理方法 被引量:2
3
作者 张平 黄尚康 潘保昌 《电子科学学刊》 CSCD 1994年第3期321-326,共6页
本文提出了一种复杂表格识别和处理方法。该方法首先输入一张未填有用信息的空表格作背景信息表格,然后输入已填有用信息的同类表格作有用信息表格。对有用信息表格图象采用几何位置配准使两幅表格的背景信息重合,然后利用数字逻辑运算... 本文提出了一种复杂表格识别和处理方法。该方法首先输入一张未填有用信息的空表格作背景信息表格,然后输入已填有用信息的同类表格作有用信息表格。对有用信息表格图象采用几何位置配准使两幅表格的背景信息重合,然后利用数字逻辑运算和智能相关处理技术以达到对残留背景信息的彻底清除,保留后填入的有用信息供识别处理。此方法对表格形式不限,适用于背景信息和有用信息采用同色或异色笔填写。方法仅需第一次输入一张空表格后,就可连续处理同类型表格。文中给出了表格处理结果。 展开更多
关键词 表格处理 文件识别 表格识别
在线阅读 下载PDF
受限表格识别系统的研究 被引量:6
4
作者 李艳霞 孙羽菲 张玉志 《计算机工程与应用》 CSCD 北大核心 2006年第31期161-163,202,共4页
表格的自动输入、存储、管理已经成为文档智能处理领域的一个重要组成部分。一方面,表格结构复杂多样,使得很难找到一种能良好识别任何表格的通用方法;另一方面,很多领域里使用的表格,需要识别的通常是固定的某些表格单元。因此,设计并... 表格的自动输入、存储、管理已经成为文档智能处理领域的一个重要组成部分。一方面,表格结构复杂多样,使得很难找到一种能良好识别任何表格的通用方法;另一方面,很多领域里使用的表格,需要识别的通常是固定的某些表格单元。因此,设计并实现了一个受限表格识别系统,实验结果表明,该系统提高了表格识别的适应性和正确率。 展开更多
关键词 受限表格识别 HOUGH变换 二值化 连通域
在线阅读 下载PDF
基于字线分离的表格识别预处理算法 被引量:5
5
作者 刘为 平西建 郭戈 《计算机工程与设计》 CSCD 北大核心 2008年第19期5066-5068,共3页
表格文本图像版面中存在的大量的非表格框线对象,干扰正确提取表格框架结构。提出了一种基于字线分离的预处理算法。该算法在不提取表格框线的前提下,采用图像分块和连通域分析,实现字线分离。实验结果表明,该算法能够滤除大部分文字像... 表格文本图像版面中存在的大量的非表格框线对象,干扰正确提取表格框架结构。提出了一种基于字线分离的预处理算法。该算法在不提取表格框线的前提下,采用图像分块和连通域分析,实现字线分离。实验结果表明,该算法能够滤除大部分文字像素、准确有效突出表格文本图像中的框线信息,达到了预处理目的,是后续表格特征提取和识别的有效预备步骤。 展开更多
关键词 文本图像 表格图像 表格识别 预处理 连通域
在线阅读 下载PDF
一种新的表格识别特征提取方法 被引量:2
6
作者 黄锦德 郝红卫 张冬霞 《计算机工程》 EI CAS CSCD 北大核心 2006年第6期215-217,共3页
采用一种表格识别方法实现对多种类型表格的识别,系统利用表格投影轮廓的功率谱密度作为表格的不变性特征向量。为了解决具有相互对称结构表格的识别问题,提出一种新的特征提取方法:采用区域划分的策略,综合考虑表格图像在水平方向及垂... 采用一种表格识别方法实现对多种类型表格的识别,系统利用表格投影轮廓的功率谱密度作为表格的不变性特征向量。为了解决具有相互对称结构表格的识别问题,提出一种新的特征提取方法:采用区域划分的策略,综合考虑表格图像在水平方向及垂直方向上的特征,以分区投影轮廓的功率谱密度作为表格图像的特征向量。实验表明,这种方法能够有效解决具有对称结构表格的识别问题。 展开更多
关键词 特征提取 区域划分 表格识别 功率谱密度
在线阅读 下载PDF
社区选举系统选票中的表格识别算法 被引量:7
7
作者 邝振 崔喆 《计算机应用》 CSCD 北大核心 2017年第A02期179-182,共4页
针对社区选举系统识别选票图像中的表格采用的同步道方法,造成选票设计复杂,需在系统中定义较多关于信息块位置信息的参数,和在印刷过程中出现表格位置偏差无法识别选票的问题,提出了先利用投影法确定表格中横纵直线的坐标,然后构造表... 针对社区选举系统识别选票图像中的表格采用的同步道方法,造成选票设计复杂,需在系统中定义较多关于信息块位置信息的参数,和在印刷过程中出现表格位置偏差无法识别选票的问题,提出了先利用投影法确定表格中横纵直线的坐标,然后构造表格特征点矩阵来描述表格结构的表格识别算法。实验结果表明,与采用同步道识别表格的方法相比,只需要在系统中指定信息块的相对位置信息,该算法即可通过识别出的选票表格中横纵直线坐标和构造的表格特征点矩阵准确并方便地提取出信息块的图像进行下一步的识别,简化了选票设计,降低了对选票印刷的要求,对表格位置出现偏差的选票也能够进行正常识别,进一步提升了选举系统的可操作性和容错性。 展开更多
关键词 表格识别 选举系统 投影法 表格结构 表格特征点矩阵
在线阅读 下载PDF
智能化表格识别技术综述 被引量:4
8
作者 梁天恺 苏新铎 +3 位作者 黄宇恒 徐天适 张华俊 曾碧 《计算机工程与应用》 CSCD 北大核心 2023年第12期62-76,共15页
在大数据和互联网的历史背景下,信息技术的发展伴随着大量文档的产生。作为数据关系直观体现的表格常见于文档中,表格的归档也是文档处理的重要任务之一。如何在海量的文档中快速地对表格进行自动化识别成为妨碍文档处理迈向智能化的关... 在大数据和互联网的历史背景下,信息技术的发展伴随着大量文档的产生。作为数据关系直观体现的表格常见于文档中,表格的归档也是文档处理的重要任务之一。如何在海量的文档中快速地对表格进行自动化识别成为妨碍文档处理迈向智能化的关键因素。作为人工智能研究领域重要分支之一的表格识别,能实现表格对象和结构的自动化检测与识别,被广泛应用在文档智能化处理等场景。因此总结与综述表格识别领域的概念、技术、应用与挑战显得尤为重要。阐述表格识别的概念,指出表格识别任务可被分为表格检测和表格结构识别两大子任务。针对表格检测研究方向主流的anchor-based和anchor-free算法进行介绍和分析,总结不同算法的优缺点。分别阐述基于语义分割、基于双向割并、融合神经网络以及端到端等四大类别的主流的表格结构识别算法的原理和优缺点。同时分析并讨论目前常见的有机融合表格检测和表格结构识别的非端到端与端到端的表格识别算法。最后总结并指出表格识别的应用、挑战与展望。 展开更多
关键词 表格识别 表格检测 表格结构识别 人工智能 大数据
在线阅读 下载PDF
融合图卷积网络的表格图像结构识别模型
9
作者 孙俊 苟刚 《计算机工程与设计》 北大核心 2024年第10期3066-3073,共8页
针对表格图像很难精确从文档中提取出表格结构的问题,提出一种融合图卷积网络的双分支识别网络模型。以ResNet+FPN为主干网络,引入矩阵分解头代替注意力机制重整全局特征。设计一个双分支网络以获取表格单元格间空间位置和逻辑邻接信息... 针对表格图像很难精确从文档中提取出表格结构的问题,提出一种融合图卷积网络的双分支识别网络模型。以ResNet+FPN为主干网络,引入矩阵分解头代替注意力机制重整全局特征。设计一个双分支网络以获取表格单元格间空间位置和逻辑邻接信息。以GCN感知单元格间连接关系辅助输出位置信息和逻辑邻接关系。实验结果表明,在多个数据集上相比基线模型F1指标平均提升10.6%,F(beta=0.5)指标提升18.6%。在TableGraph-24K数据集上,相比最近的TGRNet模型在F1指标上提升3.1%,F(beta=0.5)指标平均提升2.9%。 展开更多
关键词 图像处理 表格图像结构识别 图卷积网络 特征融合 注意力机制 矩阵分解 双分支网络
在线阅读 下载PDF
一种新的表格单元格矩形识别算法 被引量:3
10
作者 陈优广 顾国庆 +1 位作者 张薇 许彦冰 《计算机工程》 EI CAS CSCD 北大核心 2006年第13期9-11,14,共4页
现有的表格识别算法速度较慢,且仅能容忍表格线的微小断线,文章给出了基于顶点链编码的表格单元格矩形识别算法,利用边界标定自动机,标定表格单元格内环边界并生成顶点链编码,利用顶点链编码特性,有效地去除表格框线上的锯齿,修复断裂... 现有的表格识别算法速度较慢,且仅能容忍表格线的微小断线,文章给出了基于顶点链编码的表格单元格矩形识别算法,利用边界标定自动机,标定表格单元格内环边界并生成顶点链编码,利用顶点链编码特性,有效地去除表格框线上的锯齿,修复断裂的框线,通过搜索单元格矩形4个角的顶点链编码来获得表格单元格的矩形区域。实验证明本算法具有速度快、鲁棒性高、抗表格框线断裂等优点。 展开更多
关键词 顶点链编码 表格识别 边界标定自动机
在线阅读 下载PDF
基于投影特征与结构特征的表格图像识别 被引量:4
11
作者 王绪 平西建 +1 位作者 周林 王会鹏 《计算机工程》 CAS CSCD 北大核心 2011年第1期210-212,共3页
通过分析表格的框线特征与结构特征,提出一种基于投影特征与结构特征的表格文本图像识别算法。该方法通过投影计算提取表格的框线特征,通过击中或击不中变换提取表格的结构特征,根据所提特征重要性的不同,设定分类判决阈值。实验结果表... 通过分析表格的框线特征与结构特征,提出一种基于投影特征与结构特征的表格文本图像识别算法。该方法通过投影计算提取表格的框线特征,通过击中或击不中变换提取表格的结构特征,根据所提特征重要性的不同,设定分类判决阈值。实验结果表明,该方法能准确高效地区分表格文本图像与非表格文本图像,具有很强的实用性。 展开更多
关键词 投影特征 结构特征 表格识别
在线阅读 下载PDF
机械工艺卡非规则表格元素识别算法 被引量:3
12
作者 吕志刚 王洪喜 +3 位作者 李亮亮 王鹏 李晓艳 邸若海 《计算机集成制造系统》 EI CSCD 北大核心 2022年第7期2179-2187,共9页
在现有纸质机械工艺卡中,表格元素存在纵向线段不连续、框线错位、跨页等不规则现象,导致传统的光学字符识别(OCR)算法无法准确定位识别表格元素,由此提出一种融合局部特征的非规则表格识别算法。首先,进行区域分块阈值求解,包括分块提... 在现有纸质机械工艺卡中,表格元素存在纵向线段不连续、框线错位、跨页等不规则现象,导致传统的光学字符识别(OCR)算法无法准确定位识别表格元素,由此提出一种融合局部特征的非规则表格识别算法。首先,进行区域分块阈值求解,包括分块提取、局部横向线段检测、行距均值聚类求解,以及基于行距阈值的分块区域纵向线段检测;其次,进行表格区域预定位识别,包括源文件腐蚀、灰度二值化、自适应基础阈值的横向线段提取、基于行距阈值的纵向线段预提取、纵向分块图像特征融合、自定义掩膜处理,以及轮廓预提取;最后,使用区域重检测的方法,对预提取表格区域进行精准判别。经实验验证,该方法可以有效地解决未校正、纵向线段不连续、表格跨页等复杂表格难以准确定位提取的问题。在12840张表格图像构成的测试集样本中进行了测试,平均识别准确率可达98.03%以上。该算法简洁有效,并在QT集成开发环境上得到了实现,该OCR软件已在某研究所信息化中心得到了成功应用。 展开更多
关键词 非规则表格识别 特征融合 统计聚类 图像处理
在线阅读 下载PDF
融合边特征与注意力的表格结构识别模型 被引量:3
13
作者 吕学强 张煜楠 +2 位作者 韩晶 崔运鹏 李欢 《计算机应用》 CSCD 北大核心 2023年第3期752-758,共7页
针对现有方法在表格结构识别问题中存在的先验知识依赖、鲁棒性不足、表达能力不足等问题,提出一种新的融合边特征与注意力的表格结构识别模型——GEAN-TSR。首先,提出图边注意力网络(GEAN)并作为模型的主干网络,在边卷积结构的基础上... 针对现有方法在表格结构识别问题中存在的先验知识依赖、鲁棒性不足、表达能力不足等问题,提出一种新的融合边特征与注意力的表格结构识别模型——GEAN-TSR。首先,提出图边注意力网络(GEAN)并作为模型的主干网络,在边卷积结构的基础上引入并改进图注意力机制聚合图节点特征,解决图网络在特征提取过程中的信息损失的问题,提高图网络的表达能力;然后,引入边特征融合模块融合浅层图节点信息与图网络输出,增强图网络的局部信息提取能力与表达能力;最后,将门控循环单元(GRU)提取的图节点文本特征融入文本特征融合模块对边进行分类预测。在SciTSR-COMP数据集上的对比实验中,相较于目前最优的模型SEM,GEAN-TSR的召回率与F1值分别提升2.5与1.4个百分点。在消融实验中,GEAN-TSR采用特征融合模块后,所有指标都取得了最优值,验证了模块的有效性。实验结果表明,GEAN-TSR能够有效提升网络性能,更好地完成表格结构识别任务。 展开更多
关键词 图神经网络 图注意力网络 特征融合 表格结构识别 表格解析
在线阅读 下载PDF
表格结构识别的自动性能评估
14
作者 靳简明 史广顺 +3 位作者 张伟鹏 韩智 潘武模 王庆人 《计算机工程与应用》 CSCD 北大核心 2003年第6期82-84,91,共4页
评估算法的性能需要反复大量的测试。人工评估既难以保证评价标准的一致,又无法保证测试的速度和规模,只有自动的性能评估才能解决上述问题。表格结构识别是进一步理解表格内容的前提。在定义通用表格结构描述的基础上,提出了基于表格... 评估算法的性能需要反复大量的测试。人工评估既难以保证评价标准的一致,又无法保证测试的速度和规模,只有自动的性能评估才能解决上述问题。表格结构识别是进一步理解表格内容的前提。在定义通用表格结构描述的基础上,提出了基于表格线的表格结构识别的性能评估方法。自动评估系统能够指出识别结果与基准数据的区别,平均每秒比较38.6个表格,远超过人工评估的效率。 展开更多
关键词 表格结构识别 自动性能评估 文档图像处理系统 字符识别
在线阅读 下载PDF
基于有向单连通链的表格框线检测算法 被引量:24
15
作者 郑冶枫 刘长松 +1 位作者 丁晓青 潘世言 《软件学报》 EI CSCD 北大核心 2002年第4期790-796,共7页
表格框线检测是表格识别的基础.现有的表格框线检测算法或者速度慢,或者鲁棒性差,而且没有充分利用表格框线之间的约束信息提出了一种基于所定义的图像结构基元“有向单连通链”的自底向上表格框线检测算法.在此算法中,有向单连通链是... 表格框线检测是表格识别的基础.现有的表格框线检测算法或者速度慢,或者鲁棒性差,而且没有充分利用表格框线之间的约束信息提出了一种基于所定义的图像结构基元“有向单连通链”的自底向上表格框线检测算法.在此算法中,有向单连通链是一种黑像素游程序列,作为非常合适的矢量基元,在引入一定表格框线约束信息的条件下合并单连通链,有效地去除伪框线,补全断裂的框线,提高了算法的鲁棒性,可以准确而快速地提取表格框线.通过滤除噪声单连通链,加快单连通链的合并速度,算法速度提高了3~10倍,满足了实用要求、实验证明,该算法具有速度较快、鲁棒性高、抗任意角度的倾斜、抗断裂等优点. 展开更多
关键词 表格识别 图像分析 光学字符识别 智能文档处理 表格框线检测算法 有向单连通链
在线阅读 下载PDF
一种表格框线检测和字线分离算法 被引量:11
16
作者 刘长松 潘世言 +1 位作者 郑冶枫 丁晓青 《电子与信息学报》 EI CSCD 北大核心 2002年第9期1190-1196,共7页
该文提出了一种基于有向单连通链的表格框线检测算法,能够合理地利用单连通链边沿的全局统计特性和单连通链之间的局部位置关系,精确地提取表格框线,具有抗倾斜,抗断裂,抗字线交叠等优点。在此基础上,提出了一种能够分离交叠字线的表格... 该文提出了一种基于有向单连通链的表格框线检测算法,能够合理地利用单连通链边沿的全局统计特性和单连通链之间的局部位置关系,精确地提取表格框线,具有抗倾斜,抗断裂,抗字线交叠等优点。在此基础上,提出了一种能够分离交叠字线的表格框线去除算法,并成功应用于实际的表格识别系统中。 展开更多
关键词 字线分离算法 表格识别 图像分析 直线检测 字符识别 有向单连通链
在线阅读 下载PDF
表格型票据中框线检测与去除算法 被引量:5
17
作者 张艳 郁生阳 +1 位作者 张重阳 杨静宇 《计算机研究与发展》 EI CSCD 北大核心 2008年第5期909-914,共6页
字符笔画与表格线的粘连或交叠是表格型票据中普遍存在的现象,严重影响了后期票据自动识别处理的性能.现有方法大多基于二值图像,未能充分利用灰度图中的框线特征.基于票据图像中的框线特征,提出一种表格型票据预处理中的框线检测与去... 字符笔画与表格线的粘连或交叠是表格型票据中普遍存在的现象,严重影响了后期票据自动识别处理的性能.现有方法大多基于二值图像,未能充分利用灰度图中的框线特征.基于票据图像中的框线特征,提出一种表格型票据预处理中的框线检测与去除算法,首先充分利用票据灰度图像的特点准确地检测出框线,再采用一种连通链结构描述叠加后的框线区域,然后对交叠进行判断和标记,根据标记保留字符笔划去除框线干扰.经过实际银行支票图像测试证明了算法的有效性和鲁棒性. 展开更多
关键词 文档分析 表格识别 直线检测 连通链结构 框线去除
在线阅读 下载PDF
一种单色表格快速版面分析方法 被引量:3
18
作者 彭健 汪同庆 +3 位作者 居琰 叶俊勇 杨波 任莉 《计算机工程》 CAS CSCD 北大核心 2002年第11期212-214,共3页
结合某铁路分局车辆段列车轮轴卡片自动录入及管理系统开发的实际,提出了一种单色表格的快速分析方法。其主要内容是:利用Radon变换检测表格的歪斜角度将其校正,用投影法找出表格线的位置,根据表格线的位置将待分割的栏目的图像提... 结合某铁路分局车辆段列车轮轴卡片自动录入及管理系统开发的实际,提出了一种单色表格的快速分析方法。其主要内容是:利用Radon变换检测表格的歪斜角度将其校正,用投影法找出表格线的位置,根据表格线的位置将待分割的栏目的图像提取出来。该方法具有实用性较强、对表格设计和印刷的要求较低的特点。 展开更多
关键词 单色表格 快速版面分析方法 表格识别 RADON变换 字符识别 文字录入
在线阅读 下载PDF
一种单色表格的快速分析方法 被引量:1
19
作者 彭健 汪同庆 +3 位作者 杨波 叶俊勇 居琰 任莉 《计算机工程与应用》 CSCD 北大核心 2003年第1期96-98,共3页
提出了一种单色表格的快速分析方法。其主要内容是:利用Radon变换检测表格的歪斜角度将其校正,用投影法找出表格线的位置,根据表格线的位置将待分割的栏目的图象提取出来。该方法具有较强的实用性,对表格设计和印刷的要求较低。
关键词 单色表格 快速分析方法 表格处理 表格识别 版面分析 图象分割 RADON变换 直线检测
在线阅读 下载PDF
非限定表格信息提取系统的研究 被引量:3
20
作者 刘真 吴泉源 《计算机学报》 EI CSCD 北大核心 1995年第11期808-813,共6页
本文概要讨论了非限定表格信息提取系统的结构和技术难点,提出了一种既有利于表格识别,又能进行表格定位的方法──四角定位点法,介绍了利用四角定位点法实现的非限定表格信息提取系统.实验结果表明,该系统具有通用、快速、准确的... 本文概要讨论了非限定表格信息提取系统的结构和技术难点,提出了一种既有利于表格识别,又能进行表格定位的方法──四角定位点法,介绍了利用四角定位点法实现的非限定表格信息提取系统.实验结果表明,该系统具有通用、快速、准确的特点. 展开更多
关键词 信息提取 表格识别 表格定位
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部