-
题名基于特征提取和机器学习的文档区块图像分类算法
被引量:17
- 1
-
-
作者
李翌昕
邹亚君
马尽文
-
机构
北京大学数学科学学院信息科学系和数学及其应用教育部重点实验室
-
出处
《信号处理》
CSCD
北大核心
2019年第5期747-757,共11页
-
基金
国家自然科学基金(U1604153)资助
-
文摘
文档区块图像分类对于文档版面图像的理解和分析至关重要。在传统机器学习分类模型中,直接使用图像作为输入会导致学习模型参数量过大而无法进行有效的训练。为了克服这个困难,我们针对文档区块图像设计了一组有效的特征,并提出了基于这些特征和机器学习的文档区块分类算法。在特征设计上,我们提取了几何、灰度、区域、纹理和内容五方面在内的32种特征,以增强特征针对区块类别的分辨能力。在分类器方面,我们在所提出的特征上对传统机器学习分类模型、自动机器学习方法以及深度学习均进行了实验。在公开数据集上的实验结果表明,我们提出的文档版面区块分类算法具有很高的分类准确率,并且效率很高。另外,我们实现了一个简单的分步文档版面分析算法,以展示所提出的区块分类算法的推广能力。
-
关键词
文档版面分析
文档区块分类
特征提取
机器学习
图像分类
-
Keywords
page layout analysis
document region classification
feature extraction
machine learning
image classification
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名文本检测算法的发展与挑战
被引量:8
- 2
-
-
作者
李翌昕
马尽文
-
机构
北京大学数学科学学院
-
出处
《信号处理》
CSCD
北大核心
2017年第4期558-571,共14页
-
基金
国家自然科学基金(61171138)资助
-
文摘
对自然场景中的文字进行识别和理解是大量计算机视觉应用的基础。自然场景下的文本检测算法旨在检测出自然图像中的文字区域,现已经成为计算机视觉和智能信息处理领域研究的一个热点。本文首先对文本检测算法的目标、技术路线及其所面对的挑战进行了分析与介绍。然后回顾了几种经典的文本检测算法,并介绍了两种代表最新研究趋势的深度学习型文本检测算法。进一步,本文阐述了几个主流的文本检测数据集并总结了一些代表性文本检测算法在这些数据集上的检测结果。最后,本文讨论了文本检测的研究现状、面临的挑战和发展的趋势。
-
关键词
文本检测
文本定位
文字识别
计算机视觉
机器学习
-
Keywords
text detection
text localization
text recognition
computer vision
machine learning
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于深度学习的酒标分割研究
被引量:5
- 3
-
-
作者
邹亚君
李翌昕
马尽文
-
机构
北京大学数学科学学院信息科学系和数学及其应用教育部重点实验室
-
出处
《信号处理》
CSCD
北大核心
2019年第4期623-630,共8页
-
基金
国家自然科学基金(U1604153)资助
-
文摘
红酒图像中的酒标区域含有重要的红酒品类信息,而对酒标区域的定位与分割可以有效去除背景区域对图像匹配算法的干扰。传统图像分割算法大多基于局部图像特征和人工设计规则,对噪声较为敏感,并且难以应对大规模数据的处理。针对传统算法的不足,本文首先构造了一个大规模酒标分割数据集,然后提出了一种基于深度学习的酒标分割方法。我们构造了一个基于残差网络的语义分割模型,并且在模型中加入跨层连接,实现低层特征和高层特征的有效融合,使得分割的边缘细节更加清晰和准确。另外,我们采用了带孔卷积金字塔池化结构整合多尺度信息,在增大模型感受野的同时使得模型适应不同尺度的酒标区域。在我们构造的酒标数据集上的实验结果表明,本文提出的酒标分割网络能够进行实时的酒标图像分割,并且达到了相当高的分割准确率。
-
关键词
酒标分割
深度学习
语义分割
特征融合
带孔卷积金字塔池化
-
Keywords
wine label segmentation
deep learning
semantic segmentation
feature fusion
atrous spatial pyramid pooling
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-