-
题名基于高分辨扩展金字塔的场景文本检测
- 1
-
-
作者
王满利
窦泽亚
蔡明哲
刘群坡
史艳楠
-
机构
河南理工大学物理与电子信息学院
河南理工大学电气工程与自动化学院
-
出处
《电子与信息学报》
北大核心
2025年第7期2334-2346,共13页
-
基金
国家自然科学基金(52074305)
河南省科技攻关(242102221006)。
-
文摘
文本检测作为计算机视觉领域一项重要分支,在文字翻译、自动驾驶和票据信息处理等方面具有重要的应用价值。当前文本检测算法仍无法解决实际拍摄图像的部分文本分辨率低、尺度变化大和有效特征不足的问题。针对上述待解决的问题,该文提出一种基于高分辨扩展金字塔的场景文本检测方法(HREPNet)。首先,构造一种改进型特征金字塔,引入高分辨扩展层和超分辨特征模块,有效增强文本分辨率特征,解决部分文本分辨率低的问题;同时,在主干网络传递特征过程中引入多尺度特征提取模块,通过多分支空洞卷积结构与注意力机制,充分获取文本多尺度特征,解决文本尺度变化大的问题;最后,提出高效特征融合模块,选择性融合高分辨特征和多尺度特征,从而减少模型的空间信息的丢失,解决有效特征不足的问题。实验结果表明,HREPNet在公开数据集ICDAR2015,CTW1500和Total-Text上综合指标F值分别提高了7.6%,5.5%和3.0%,在准确率召回率上都得到显著提升;此外,HREPNet对不同尺度和分辨率的文本检测效果均有明显提升,对小尺度和低分辨率文本提升尤为显著。
-
关键词
文本检测
高分辨扩展金字塔
多尺度特征提取模块
高效特征融合模块
-
Keywords
Text detection
high resolution extended pyramid(hrep)
Multi-scale Feature Extraction Module(MFEM)
Efficient Feature Fusion Module(EFFM)
-
分类号
TN911.7
[电子电信—通信与信息系统]
TP391.41
[自动化与计算机技术—计算机应用技术]
-