-
题名自然场景文本检测中可微分二值化技术综述
被引量:2
- 1
-
-
作者
连哲
殷雁君
智敏
徐巧枝
-
机构
内蒙古师范大学计算机科学技术学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2024年第9期2239-2260,共22页
-
基金
内蒙古师范大学研究生科研创新基金项目(TY20240031)
内蒙古自治区自然科学基金(2021LHMS06009,2023MS06009,NJZZ21004)。
-
文摘
自然场景中包含的丰富文本对理解现实世界具有重要意义,但由于自然场景文本的多样性和复杂性,检测任务变得困难。随着智能时代的兴起,深度学习技术为自然场景文本检测带来突破性进展,可微分二值化网络DBNet的提出,更是推动了文本检测实时性需求的研究进步,许多研究者基于可微分二值化技术,进行了具有创新性和实用性的研究,并取得丰硕成果。对近年来基于可微分二值化技术的文本检测算法研究进行了深入的分析和总结。简要介绍DBNet模型的背景、工作原理、优势与劣势,根据技术差异将基于微分二值化技术的算法分为特征提取、特征融合、后处理、整体架构以及训练策略五类,对每类方法的改进方式进行详细的图示说明,并对各类技术方法的机制进行详细阐述,对所有方法进行分析总结。介绍了常用公开数据集和文本检测性能评估指标,汇总不同方法的仿真实验结果,列举几个具有实际意义的应用场景。对自然场景文本检测领域的未来发展方向进行了思考,并梳理面对的挑战和亟待解决的问题。
-
关键词
文本检测
深度学习
计算机视觉
可微分二值化
-
Keywords
text detection
deep learning
computer vision
differentiable binarization
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名用于场景文本检测的非对称迭代细化预测网络
- 2
-
-
作者
连哲
殷雁君
米增
智敏
徐巧枝
-
机构
内蒙古师范大学计算机科学技术学院
-
出处
《计算机工程与应用》
北大核心
2025年第5期250-260,共11页
-
基金
内蒙古自治区自然科学基金(2021LHMS06009,2021MS06031)
内蒙古自治区高等学校科学研究项目(NJZZ21004)
内蒙古师范大学基本科研业务费专项资金项目(2022JBZHO13)。
-
文摘
场景文本检测是图像处理领域的基础性研究工作,具有广泛的应用价值。DBNet作为该领域具有代表性的算法,重构文本实例的后处理过程过于简单,对纵横比显著变化的文本容易误检以及对小文本容易漏检。为解决以上问题,设计并提出用于场景文本检测的非对称迭代细化预测网络AIRPNet。模型基于ResNet50特征提取网络,将常规卷积替换为可变形卷积以适应不规则文本特征,并调整block堆叠数使得各层携带的特征更加合理。采用RFP的递归思想更充分地融合多层特征,设计非对称迭代细化预测模块构建更为准确的概率图,可微分二值化后处理重构文本实例边界。针对非对称迭代细化预测模块,设计多种结构进行探究。为评估提出模型的有效性,在三个数据集上与最先进的主流模型进行对比,在ICDAR2015、MSRA-TD500和CTW1500数据集中,分别取得88.7%、88.4%和84.9%的F-measure,实现或接近SOTA性能。实验结果表明,提出模型能够捕获较为准确的概率图,从而构建较为完整的文本边界框。
-
关键词
文本检测
递归金字塔
非对称卷积
迭代细化预测
可微分二值化
-
Keywords
text detection
recursive pyramid
asymmetric convolution
iterative refinement prediction
differentiable binarization
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名双分支跨级特征融合的自然场景文本检测
被引量:1
- 3
-
-
作者
刘光辉
张钰敏
孟月波
占华
-
机构
西安建筑科技大学信息与控制工程学院
-
出处
《智能系统学报》
CSCD
北大核心
2023年第5期1079-1089,共11页
-
基金
国家自然科学基金项目(52278125)
陕西省重点研发计划(2021SF-429)。
-
文摘
现有的场景文本检测方法在处理任意形状文本时,由于复杂背景的影响会造成文本区域定位不准确、相邻文本漏检误检的问题,基于此提出一种双分支跨级特征融合的自然场景文本检测方法。首先,以Resnet50为主干网络提取初始特征,设计跨级特征分布增强模块(cross-level feature distribution enhancement module,CFDEM),增强跨级特征文本信息的交互性,提高特征的表达能力;然后,为自适应地选择过滤非文本或冗余特征,降低误检率和漏检率,提出自适应融合策略(adaptive fusion strategy,AFS),利用双分支结构加强不同维度特征之间的联系,优化融合过程;最后,预测阶段采用可微分二值化的方法来生成文本检测结果。所提方法在ICDAR2015、ICDAR2017、Total-Text、CTW1500数据集上进行消融实验,实验结果表明该方法能准确定位文本区域,克服文本漏检误检影响。
-
关键词
文本检测
任意形状
跨级特征分布增强
自适应融合
双分支
空间维度
通道维度
可微分二值化
-
Keywords
text detection
arbitrarily shaped
cross-level feature distribution enhancement
adaptive fusion
double branch
spatial dimension
channel dimension
differentiable binarization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-