期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
基于特征过滤和自适应融合机制的不规则场景文本检测算法
1
作者 杨帅磊 李岐龙 +2 位作者 陈杰 凡高娟 张重生 《哈尔滨工业大学学报》 北大核心 2025年第10期165-170,共6页
自然场景图像中的文本存在背景复杂、形状各异、方向多样、光线多变等特点,为提升场景文本尤其是不规则场景文本的检测性能,提出一种基于特征过滤和自适应特征融合机制的不规则场景文本检测网络FGANet(feature guided adaptive network)... 自然场景图像中的文本存在背景复杂、形状各异、方向多样、光线多变等特点,为提升场景文本尤其是不规则场景文本的检测性能,提出一种基于特征过滤和自适应特征融合机制的不规则场景文本检测网络FGANet(feature guided adaptive network),其特征聚合引导模块通过空洞卷积扩大感受野、提升网络的特征表达能力,其自适应特征融合模块能够将深层的语义信息与浅层的细节信息进行综合利用,使算法获得更强的文本感知能力。结果表明,在场景文本检测方面,FGANet相较于对比算法,在ICDAR2015、CTW1500、MSRA-TD500和Total Text 4个基准数据集上的F值分别提升了2.4%、1.3%、1.8%和1.4%,性能提升较为显著。 展开更多
关键词 自然场景图像 场景文本检测 特征过滤 自适应特征融合 文本感知能力
在线阅读 下载PDF
基于多尺度注意力特征融合的场景文本检测 被引量:2
2
作者 厍向阳 刘哲 董立红 《计算机工程与应用》 CSCD 北大核心 2024年第1期198-206,共9页
针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networ... 针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networks,FPN)中,通过将多尺度注意力热图与底层特征通过横向连接相融合,使检测器的不同层级专注于特定尺度的目标,并利用相邻层注意力热图之间的关系实现了FPN结构中的纵向特征共享,避免了不同层之间梯度计算的不一致性问题。实验结果表明:在ICDAR2015数据集上,该方法的准确率、召回率和F值分别达到了88.3%、83.07%和85.61%,在CTW1500和Total-Text弯曲文本数据集上相较现有方法均有良好表现。 展开更多
关键词 场景文本检测 Mask R-CNN Swin Transformer 注意力机制 多尺度特征融合
在线阅读 下载PDF
一种基于特征增强的场景文本检测算法 被引量:1
3
作者 高楠 张雷 +2 位作者 梁荣华 陈朋 付政 《计算机科学》 CSCD 北大核心 2024年第6期256-263,共8页
针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能... 针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能够更好地融合不同语义和尺度的特征图信息,从而提高文本信息的表征能力。同时,考虑到网络深层特征图在上采样融合过程中出现语义信息损失的问题,提出了多尺度空间感知模块(Multi-scale Spatial Perception Module,MSPM),通过扩大感受野来获取更大感受野的上下文信息,增强深层特征图的文本语义信息特征,从而有效地减少文本漏检、误检。为了评估所提算法的有效性,在公开数据集ICDAR2015,CTW1500以及MSRA-TD500上进行实验,所提方法综合指标F值分别达到了82.8%,83.4%和85.3%。实验结果表明,该算法在不同数据集上都具有良好的检测能力。 展开更多
关键词 深度学习 场景文本检测 注意力机制 多尺度特征融合 空洞卷积
在线阅读 下载PDF
改进FCENet的自然场景文本检测算法
4
作者 周燕 廖俊玮 +2 位作者 刘翔宇 周月霞 曾凡智 《计算机工程与应用》 CSCD 北大核心 2024年第3期228-236,共9页
针对自然场景文本检测中由于背景复杂、尺度多变、形状弯曲等造成的检测难题,提出了一种改进FCENet(Fourier contour embedding network)的场景文本检测算法。该算法基于FCENet并引入了多尺度残差特征增强模块和多尺度注意力特征融合模... 针对自然场景文本检测中由于背景复杂、尺度多变、形状弯曲等造成的检测难题,提出了一种改进FCENet(Fourier contour embedding network)的场景文本检测算法。该算法基于FCENet并引入了多尺度残差特征增强模块和多尺度注意力特征融合模块。多尺度残差特征增强模块作为骨干网络顶层的残差分支,增强了特征金字塔结构自上而下的高层语义信息流动,提高了文本像素分类能力,有效减少误检现象。多尺度注意力特征融合模块使不同语义和尺度的特征能够更好地融合,结合自底向上的特征融合网络,有效避免文本过度分割并提高了弯曲文本的检测能力。实验结果表明,该方法在弯曲文本数据集CTW1500和Total-Text上的综合指标F值分别达到了86.2%和86.5%,相比原算法FCENet分别提升了1.1和0.7个百分点。 展开更多
关键词 自然场景文本检测 特征融合 特征增强 注意力机制 FCENet
在线阅读 下载PDF
多层次MSER自然场景文本检测 被引量:11
5
作者 唐有宝 卜巍 邬向前 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2016年第6期1134-1140,共7页
提出一种新的基于多层次最大稳定极值区域(MSER)的自然场景文本检测方法,其由候选区域的提取和文本检测组成.在候选区域提取过程中,采用多层次MSER区域提取方法:通过对原始图像进行多个颜色空间变换和多尺度放缩得到多个变换后的图像,... 提出一种新的基于多层次最大稳定极值区域(MSER)的自然场景文本检测方法,其由候选区域的提取和文本检测组成.在候选区域提取过程中,采用多层次MSER区域提取方法:通过对原始图像进行多个颜色空间变换和多尺度放缩得到多个变换后的图像,采用多个阈值对其进行MSER区域检测,并将检测到的区域作为候选区域用于文本检测.检测过程中,对候选区域提取手工设计的底层特征和基于卷积神经网络(CNN)的深层特征,训练一个随机森林回归器对特征进行分类得到字符区域,再将其合并成单词区域,并进行相似的特征提取和分类,从而得到最终的文本检测结果.使用2个标准的数据库(ICDAR2011和ICDAR2013)对提出的方法进行性能评价,F指标在ICDAR2011和ICDAR2013上均为0.79,表明了所提出的自然场景文本检测方法的有效性. 展开更多
关键词 自然场景文本检测 多层次最大稳定极值区域(MSER) 卷积神经网络(CNN) 随机森林回归器
在线阅读 下载PDF
基于自适应色彩聚类和上下文信息的自然场景文本检测 被引量:3
6
作者 邹北骥 郭建京 +2 位作者 朱承璋 杨文君 徐子雯 《电子学报》 EI CAS CSCD 北大核心 2018年第6期1436-1444,共9页
自然场景文本检测是图像内容分析和理解的重要前提.本文提出一种基于自适应色彩聚类和上下文信息分析的方法,用于检测自然场景图像文本.首先,将层次聚类和参数自学习策略结合,设计一种自适应色彩聚类方法,提取图像中的候选字符.该自适... 自然场景文本检测是图像内容分析和理解的重要前提.本文提出一种基于自适应色彩聚类和上下文信息分析的方法,用于检测自然场景图像文本.首先,将层次聚类和参数自学习策略结合,设计一种自适应色彩聚类方法,提取图像中的候选字符.该自适应色彩聚类方法能针对不同图像自动学习权重阈值,有较好的字符召回率.然后,利用文本中字符成行出现的性质,设计一种基于上下文信息的字符验证策略,既能保证较高字符召回率,也能有效移除非文本字符.最后,合并字符构建文本行,并通过后处理得到文本检测结果.在ICDAR2013公共数据集上的实验结果表明:本文分别获得74.17%的召回率,83.40%的准确率和78.52%的F得分.与其他文本检测方法相比,本文获得了较好的文本检测性能,说明本文方法的优越性. 展开更多
关键词 自然场景文本检测 自适应色彩聚类 上下文信息 自学习策略
在线阅读 下载PDF
基于学习主动中心轮廓模型的场景文本检测 被引量:6
7
作者 谢斌红 秦耀龙 张英俊 《计算机工程》 CAS CSCD 北大核心 2022年第3期244-252,262,共10页
在场景文本检测领域,存在由于文本尺寸波动较大导致的小文本漏检、大文本欠检测和多尺度文本边界检测错误的情况。针对上述问题,提出一种基于学习主动中心轮廓模型的场景文本检测网络。在残差网络ResNet的基础上构建多尺度特征权重融合... 在场景文本检测领域,存在由于文本尺寸波动较大导致的小文本漏检、大文本欠检测和多尺度文本边界检测错误的情况。针对上述问题,提出一种基于学习主动中心轮廓模型的场景文本检测网络。在残差网络ResNet的基础上构建多尺度特征权重融合模型,对输入的场景文本图片进行多尺度特征提取和权重融合,并计算出最终的特征融合图,适应场景文本长宽比变化较大的情况。在此基础上,将融合后的特征图输入到学习主动中心轮廓模型预测文本框的中心点和边界,该模型为场景文本检测提供丰富先验知识,以解决多尺度文本检测框包含过多背景或部分包围文本造成的边界检测错误问题。在MSRA-TD500、IC13、IC15和IC17MLT数据集上的实验结果表明,该网络能够提高多尺度场景文本检测的准确率,其中在MSRA-TD50数据集上F-measure为0.83,相较于MSR方法提升1%,在IC13数据集上F-measure为0.91,相较于PixelLink网络提升2%,在IC15数据集上F-measure值为0.87,相较于PSENet网络提升1%,在IC17MLT数据集上F-measure值为0.74,相较于TridentNet网络提升1%。 展开更多
关键词 场景文本检测 多尺度特征提取 权重融合 主动轮廓模型 学习主动中心轮廓模型
在线阅读 下载PDF
基于双重注意力融合和空洞残差特征增强的场景文本检测 被引量:1
8
作者 李利荣 张开 +4 位作者 陈鹏 周蕾 乐玲 熊炜 巩朋成 《激光杂志》 CAS 北大核心 2022年第1期45-51,共7页
针对自然场景中任意形状文本容易漏检、错检的问题,提出了一种基于双重注意力融合和空洞残差特征增强的场景文本检测方法。为了增强文本特征通道之间的潜在联系,提出了双重注意力融合(DAF)模块,采用双向特征金字塔与双重注意力融合模块... 针对自然场景中任意形状文本容易漏检、错检的问题,提出了一种基于双重注意力融合和空洞残差特征增强的场景文本检测方法。为了增强文本特征通道之间的潜在联系,提出了双重注意力融合(DAF)模块,采用双向特征金字塔与双重注意力融合模块相结合的方式进行多层的特征融合;另外针对深层特征图在降维的过程中可能造成语义丢失的现象,提出了空洞残差特征增强(D-RFA)模块。通过在弯曲文本数据集CTW1500上的测试表明,该方法的准确率、召回率和F值分别达到了87.8%、84.2%和86.0%,同时在多方向文本数据集ICDAR2015上也有良好的表现,证明了该方法在各种形状文本检测上的有效性。 展开更多
关键词 场景文本检测 双向特征金字塔 双重注意力融合 空洞残差特征增强
在线阅读 下载PDF
基于多边形偏移蒙版和边界增强的场景文本检测
9
作者 张智 秦瑶 顾进广 《计算机应用研究》 CSCD 北大核心 2021年第8期2474-2478,2484,共6页
目前,多方向文本检测方法已经在各种数据集上取得了不错的性能,但是任意形状文本检测仍然存在一些困难,尤其是具有不同大小、形状、方向、颜色和样式的文本实例。为了更好地区分连续任意形状的文本实例和周边非文本区域,提出了一种基于... 目前,多方向文本检测方法已经在各种数据集上取得了不错的性能,但是任意形状文本检测仍然存在一些困难,尤其是具有不同大小、形状、方向、颜色和样式的文本实例。为了更好地区分连续任意形状的文本实例和周边非文本区域,提出了一种基于分段的文本检测器,通过使用多边形偏移蒙版和边界增强来检测任意形状的场景文本。为了评估该方法的有效性,在ICDAR2015和Total-Text等公开数据集上进行了多组对比实验,实验结果证明该方法有着更卓越的性能。 展开更多
关键词 场景文本检测 弯曲文本检测 多边形偏移蒙版 边界增强
在线阅读 下载PDF
基于增强特征金字塔网络的场景文本检测算法 被引量:12
10
作者 邵海琳 季怡 +1 位作者 刘纯平 徐云龙 《计算机科学》 CSCD 北大核心 2022年第2期248-255,共8页
场景文本检测有助于机器理解图像内容,在智能交通、场景理解和智能导航等领域应用广泛。现有的场景文本检测算法未充分利用高层语义信息和空间信息,限制了模型对复杂背景像素的分类能力和对不同尺度的文本实例的检测和定位能力。为解决... 场景文本检测有助于机器理解图像内容,在智能交通、场景理解和智能导航等领域应用广泛。现有的场景文本检测算法未充分利用高层语义信息和空间信息,限制了模型对复杂背景像素的分类能力和对不同尺度的文本实例的检测和定位能力。为解决上述问题,提出了一种基于增强特征金字塔网络的场景文本检测算法。该算法包括比率不变特征增强(Ratio Invariant Feature Enhanced,RIFE)模块和重建空间分辨率(Rebuild Spatial Resolution,RSR)模块。RIFE模块作为残差分支,增强了网络的高层语义信息传递,提高了分类能力,降低了误报率和漏捡率。RSR模块重建多层特征分辨率,利用丰富的空间信息改进边界位置。实验结果表明,所提算法提升了在多方向文本数据集ICDAR2015、弯曲文本数据集Totaltext以及长文本数据集MSRA-TD500上的检测能力。 展开更多
关键词 场景文本检测 特征金字塔网络 语义信息 空间信息 边界位置
在线阅读 下载PDF
基于色彩聚类的自然场景文本检测 被引量:3
11
作者 吴慧 赵于前 +2 位作者 李香花 邹北骥 邹润民 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第6期2098-2103,共6页
基于场景图像背景复杂,图像中的文本变化多样,提出一种基于色彩聚类的自然场景文本检测算法。其步骤为:首先,用K-均值聚类算法将彩色图像聚成5种色彩层,分析各色彩层中连通域外接矩形的几何特性,去掉离散的非文本连通域;然后,根据相邻... 基于场景图像背景复杂,图像中的文本变化多样,提出一种基于色彩聚类的自然场景文本检测算法。其步骤为:首先,用K-均值聚类算法将彩色图像聚成5种色彩层,分析各色彩层中连通域外接矩形的几何特性,去掉离散的非文本连通域;然后,根据相邻连通域外接矩形的几何性质和空间位置关系,将离散的连通域连接形成候选文本块;最后,通过分析候选文本块的几何特性和边缘密度验证文本,得到最终文本检测结果。实验结果证明了本文算法的有效性和可行性。 展开更多
关键词 场景文本检测 色彩聚类 文本验证
在线阅读 下载PDF
基于对象建议算法的自然场景文本检测 被引量:6
12
作者 哈恩楠 吉立新 高超 《计算机应用研究》 CSCD 北大核心 2018年第2期624-627,636,共5页
对象建议算法(object proposals)是对象检测中的常用算法,用于快速定位物体区域。根据自然场景文本的特点,将对象建议算法应用到文本检测中,并与经典的最稳定极值区域算法相结合;然后,通过贝叶斯模型融合了笔画宽度特征、视觉散度特征... 对象建议算法(object proposals)是对象检测中的常用算法,用于快速定位物体区域。根据自然场景文本的特点,将对象建议算法应用到文本检测中,并与经典的最稳定极值区域算法相结合;然后,通过贝叶斯模型融合了笔画宽度特征、视觉散度特征和边缘梯度特征,并将文本和非文本区域的区分问题转换成一个二值标记问题,通过最小化能量函数寻找最佳标记;最后,通过均值漂移聚类寻找文本区域的中心生成文本行。经实验证明,本算法在常用的自然场景文本检测数据集上速度得到了提高,并且一定程度上解决了传统最稳定极值区域算法对光照敏感的问题,获得了较高的查全率。 展开更多
关键词 对象建议算法 最稳定极值区域 贝叶斯分类器 自然场景文本检测
在线阅读 下载PDF
面向自然场景文本检测的改进NMS算法 被引量:10
13
作者 杨有为 周刚 《计算机工程与应用》 CSCD 北大核心 2022年第1期204-208,共5页
近些年来,卷积神经网络算法在自然场景文本检测效果上较传统算法已经有了很大提升,但如何有效处理神经网络输出层候选框仍然值得研究。非极大值抑制算法(non-maximum suppression,NMS)通过选择最高置信度候选框作为检测结果,往往容易对... 近些年来,卷积神经网络算法在自然场景文本检测效果上较传统算法已经有了很大提升,但如何有效处理神经网络输出层候选框仍然值得研究。非极大值抑制算法(non-maximum suppression,NMS)通过选择最高置信度候选框作为检测结果,往往容易对较长文本以及混叠文本区域检测失效。考虑到该问题,可以将候选框集合进行排序滤波与融合计算,得到更准确的候选框,有效减少上述检测失效的情况。这种方法,可以直接嵌入原有方法中,而不需要改变网络结构或者增加任何训练量。通过在公开数据集上进行实验,对比其他方法,该方法有较大优势。 展开更多
关键词 自然场景文本检测 卷积神经网络 非极大值抑制 排序滤波 融合计算
在线阅读 下载PDF
嵌入注意力机制的自然场景文本检测方法 被引量:8
14
作者 杨锶齐 易尧华 +1 位作者 汤梓伟 王新宇 《计算机工程与应用》 CSCD 北大核心 2021年第24期185-191,共7页
针对自然场景文本检测中存在的文本检测信息缺失、漏检的问题,提出了嵌入注意力机制的自然场景文本检测方法。利用Faster-RCNN目标检测网络和特征金字塔网络(FPN)作为基本框架;在区域建议网络(RPN)中嵌入注意力机制并依据文本的特点改... 针对自然场景文本检测中存在的文本检测信息缺失、漏检的问题,提出了嵌入注意力机制的自然场景文本检测方法。利用Faster-RCNN目标检测网络和特征金字塔网络(FPN)作为基本框架;在区域建议网络(RPN)中嵌入注意力机制并依据文本的特点改进锚点(anchor)的设置,精确了文本候选区域;重新设定损失函数的作用范围。实验结果表明,该方法有效地保证文本检测信息的完整性,较之现有方法明显地提高了文本检测的召回率和准确率,能够应用于文本检测的实际任务中。 展开更多
关键词 自然场景文本检测 特征金字塔网络 区域建议网络 注意力机制
在线阅读 下载PDF
注意力监督策略下的自然场景文本检测算法 被引量:5
15
作者 梁浩然 叶凌晨 +2 位作者 梁荣华 陈龙 吴昊 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2022年第7期1011-1019,共9页
已有的场景文本检测算法在处理任意形状的文本区域时,会将多余的背景区域也包含在内,为了自动学习聚焦任意形状的文本区域,提出一种注意力监督策略下的文本检测算法.首先使用深度残差网络作为骨架网络提取包含多尺度信息的特征图,然后... 已有的场景文本检测算法在处理任意形状的文本区域时,会将多余的背景区域也包含在内,为了自动学习聚焦任意形状的文本区域,提出一种注意力监督策略下的文本检测算法.首先使用深度残差网络作为骨架网络提取包含多尺度信息的特征图,然后通过注意力掩膜生成模块将融合特征图转换生成注意力掩膜,再通过背景抑制模块,利用注意力掩膜监督生成下一级特征图,最后经过一系列卷积操作生成分割掩膜,处理优化后得到最终的文本检测结果.实验表明,所提算法在ICDAR2015数据集上的多指标综合表现优越,其中F值相较对比算法提高了2.1%. 展开更多
关键词 场景文本检测 任意形状 背景抑制 注意力监督 分割掩膜
在线阅读 下载PDF
多方向自然场景文本检测 被引量:6
16
作者 何思楠 郭永金 张利 《计算机应用研究》 CSCD 北大核心 2018年第7期2193-2196,共4页
针对自然场景图像背景复杂和文本方向不确定的问题,提出一种多方向自然场景文本检测的方法。该方法利用颜色增强的最大稳定极值区域(C-MSER)方法对图像中的字符候选区域进行提取,并利用启发式规则和LIBSVM分类器对非字符区域进行消除;... 针对自然场景图像背景复杂和文本方向不确定的问题,提出一种多方向自然场景文本检测的方法。该方法利用颜色增强的最大稳定极值区域(C-MSER)方法对图像中的字符候选区域进行提取,并利用启发式规则和LIBSVM分类器对非字符区域进行消除;然后设计位置颜色模型将被误滤除的字符找回,并利用字符区域中心进行拟合估计文本行倾斜角度;最后通过一个CNN分类器得到精确的结果。该算法在两个标准数据集上(ICDAR2011和ICDAR2013)测试,得到F-score分别为0.81和0.82,证明了该方法的有效性。 展开更多
关键词 自然场景文本检测 颜色增强的最大稳定极值区域 特征提取 多方向估计 分类器
在线阅读 下载PDF
基于自适应注意力的任意形状场景文本检测 被引量:3
17
作者 刘倩 杨鹏 毛红梅 《计算机工程与设计》 北大核心 2023年第3期901-907,共7页
大量基于卷积神经网络的场景文本检测方法对于密集的长文本容易检测不全,且泛化能力较差。针对这些问题,提出一种面向自底向上的场景文本检测方法。使用自适应通道注意力机制(ACA),通过局部跨通道交互获得更具代表性的文本特征,提高深... 大量基于卷积神经网络的场景文本检测方法对于密集的长文本容易检测不全,且泛化能力较差。针对这些问题,提出一种面向自底向上的场景文本检测方法。使用自适应通道注意力机制(ACA),通过局部跨通道交互获得更具代表性的文本特征,提高深度卷积神经网络的性能;利用特征增强金字塔(FPEM)融合低层和高层信息进一步增强不同尺度的特征;为解决长文本尺度变化问题,提出一种加权感知损失(WAL),通过调整不同大小的文本实例的权重来增强鲁棒性。实验在CTW1500及MSRA-TD500标准数据集上验证了该方法的优越性。 展开更多
关键词 场景文本检测 自底向上 自适应注意力 特征增强金字塔 加权感知损失 任意形状 文本
在线阅读 下载PDF
基于注意力机制与深度多尺度特征融合的自然场景文本检测 被引量:3
18
作者 李雨 闫甜甜 +1 位作者 周东生 魏小鹏 《图学学报》 CSCD 北大核心 2023年第3期473-481,共9页
针对现有场景文本检测方法不能深入挖掘并充分融合多尺度文本实例判别性特征的问题,提出一种基于注意力机制与深度多尺度特征融合的自然场景文本检测方法。首先采用带有注意力增强的ResNeSt50作为骨干网络,提取文本实例在不同尺度上更... 针对现有场景文本检测方法不能深入挖掘并充分融合多尺度文本实例判别性特征的问题,提出一种基于注意力机制与深度多尺度特征融合的自然场景文本检测方法。首先采用带有注意力增强的ResNeSt50作为骨干网络,提取文本实例在不同尺度上更具判别力的特征表示;然后设计深度多尺度特征融合模块,将不同尺度的特征信息进行交互,自适应地学习不同尺度特征图对应的权重矩阵,用于融合文本实例在不同尺度特征图上具有判别力的特征信息,从而获得更具鲁棒性的多尺度融合特征图;最后利用自适应的二值化后处理模块生成更加精确的文本区域边界框。为评估其有效性,大量实验在ICDAR2015,ICDAR2013和CTW1500数据集上进行验证,结果表明该方法相较于其他先进的检测方法取得了有竞争力的检测结果,展现出良好的鲁棒性和泛化能力。 展开更多
关键词 自然场景文本检测 注意力机制 多尺度特征融合 二值化 自适应
在线阅读 下载PDF
基于文本三区域分割的场景文本检测方法 被引量:9
19
作者 李煌 王晓莉 项欣光 《计算机科学》 CSCD 北大核心 2020年第11期142-147,共6页
随着卷积神经网络的发展,场景文本检测也得到了快速发展。然而,场景文本检测仍然存在很多问题:一方面,许多检测方法都采用矩形框作为检测框,这对于图像中不规则的文本是不友好的;另一方面,部分方法获取的检测框无法分离相邻的文本实例,... 随着卷积神经网络的发展,场景文本检测也得到了快速发展。然而,场景文本检测仍然存在很多问题:一方面,许多检测方法都采用矩形框作为检测框,这对于图像中不规则的文本是不友好的;另一方面,部分方法获取的检测框无法分离相邻的文本实例,从而导致图像中相邻文本的误检测。为了解决这两个问题,文中提出了一种基于文本三区域分割的场景文本检测方法,将图像的文本实例分别映射到整体区域、核心区域和边框区域空间中,以获取图像的文本实例在上述3个区域的分割图,然后利用整体区域分割图和边框区域分割图来指导核心区域分割图的生成。文本的核心区域虽包含了图像中的文本位置、大小等信息,但是缺少边界信息。为了获取更加精确的检测结果,所提方法利用文本的边框区域来对核心区域进行监督学习。最后将基于文本的核心区域分割图像,产生契合文本核心的外接多边形,并进行一定比例的扩张,获取检测结果。实验结果表明,所提方法在ICDAR2015数据集上的准确率可达到83%,与现有的检测算法相比,其F值获得了1%以上的提升,而且该算法在弯曲文本的检测上亦有着优异的表现。 展开更多
关键词 场景文本检测 神经网络 实例分割 深度学习 计算机视觉
在线阅读 下载PDF
基于高分辨率卷积神经网络的场景文本检测模型 被引量:4
20
作者 陈淼妙 续晋华 《计算机应用与软件》 北大核心 2020年第10期138-144,共7页
卷积神经网络中常用的降采样在增大感受野的同时,减小了特征图的空间分辨率,导致大尺度文本在网络高层特征图中边界模糊,小尺度文本直接丢失。针对这种情况,设计一个主干网络,使其高层特征图具有较高的空间分辨率,用以提高模型对大尺度... 卷积神经网络中常用的降采样在增大感受野的同时,减小了特征图的空间分辨率,导致大尺度文本在网络高层特征图中边界模糊,小尺度文本直接丢失。针对这种情况,设计一个主干网络,使其高层特征图具有较高的空间分辨率,用以提高模型对大尺度文本的定位能力和小尺度文本的分类能力,减少对背景误检的情况,从而提高检测的召回率和准确率。实验结果表明,采用该主干网络可以有效提升模型对多尺度文本的检测能力,F值在ICDAR2015数据集上达到81.89%。 展开更多
关键词 场景文本检测 多尺度 卷积神经网络 特征融合 特征图分辨率
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部