期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
注意力机制在自然场景文字检测中的应用 被引量:14
1
作者 王延昭 顾晓东 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2021年第12期1908-1915,共8页
针对目前主流的基于分割的文字检测方法中由于需要复杂的后处理过程保证检测精度,通常难以实现高检测速度的问题,提出一种应用位置注意力模块和金字塔注意力网络2种注意力机制的方法.首先用金字塔注意力网络对图像进行特征提取及语义分... 针对目前主流的基于分割的文字检测方法中由于需要复杂的后处理过程保证检测精度,通常难以实现高检测速度的问题,提出一种应用位置注意力模块和金字塔注意力网络2种注意力机制的方法.首先用金字塔注意力网络对图像进行特征提取及语义分割;同时将位置注意力模块应用于高层特征,通过加强图像中相似物体的权重加强对文字的检测效果;最后进行简单有效的后处理,在实现较高检测准确度的前提下提高检测速度.实验结果表明,在Total-text数据集中,采用更轻量化的骨干网络时,所提方法在检测速度上优势明显;采用更深层的骨干网络时,所提方法的检测准确度领先2.0%. 展开更多
关键词 自然场景文字检测 神经网络 金字塔注意力网络 位置注意力机制
在线阅读 下载PDF
基于RetinaNet的场景文字检测算法 被引量:3
2
作者 金灵 张轶 《计算机应用与软件》 北大核心 2022年第2期201-207,共7页
针对场景文字区域尺度变化较大,具有较大的长宽比,且具有任意方向性等问题,提出一种基于神经网络的场景文字检测模型。基于直接回归方法设计,无需预先设置锚框,在多次层次构建特征,且在多个分支之间共享卷积核。实验阶段在多个数据集上... 针对场景文字区域尺度变化较大,具有较大的长宽比,且具有任意方向性等问题,提出一种基于神经网络的场景文字检测模型。基于直接回归方法设计,无需预先设置锚框,在多次层次构建特征,且在多个分支之间共享卷积核。实验阶段在多个数据集上验证了模型的有效性,相较于现有方法,该模型计算资源消耗更小,推理速度更快,整体性能更好。 展开更多
关键词 深度学习 计算机视觉 场景文字检测
在线阅读 下载PDF
基于FCN的多方向自然场景文字检测方法 被引量:13
3
作者 杨剑锋 王润民 +2 位作者 何璇 李秀梅 钱盛友 《计算机工程与应用》 CSCD 北大核心 2020年第2期164-170,共7页
传统的自然场景文字检测方法所采用的手工设计特征在应对复杂自然场景时缺乏鲁棒性。针对复杂自然场景中的多方向文字检测问题,提出了一种新的基于深度学习文字检测方法,采用全卷积网络(Fully Convolutional Networks,FCN)并融合多尺度... 传统的自然场景文字检测方法所采用的手工设计特征在应对复杂自然场景时缺乏鲁棒性。针对复杂自然场景中的多方向文字检测问题,提出了一种新的基于深度学习文字检测方法,采用全卷积网络(Fully Convolutional Networks,FCN)并融合多尺度文字特征图,结合语义分割的方法分割文字候选区域,利用分割得到的文字候选区域直接获取文字候选检测框并进行扩大补偿处理,对文字候选检测框进行后处理得到最终检测结果。该方法在ICDAR2013、ICDAR2015标准数据集进行了测评,实验结果表明该方法相比一些最新方法取得了更好的性能。 展开更多
关键词 自然场景文字检测 深度学习 全卷积网络 语义分割
在线阅读 下载PDF
基于改进Mask R-CNN的越南场景文字检测
4
作者 俸亚特 文益民 《计算机应用》 CSCD 北大核心 2021年第12期3551-3557,共7页
针对越南场景文字检测训练数据缺乏及越南文字声调符号检测不全的问题,在改进的实例分割网络MaskR-CNN的基础上,提出一种针对越南场景文字的检测算法。为了准确地分割带声调符号的越南场景文字,该算法仅使用P2特征层来分割文字区域,并... 针对越南场景文字检测训练数据缺乏及越南文字声调符号检测不全的问题,在改进的实例分割网络MaskR-CNN的基础上,提出一种针对越南场景文字的检测算法。为了准确地分割带声调符号的越南场景文字,该算法仅使用P2特征层来分割文字区域,并将文字区域的掩码矩阵大小从14×14调整为14×28以更好地适应文字区域。针对用常规非极大值抑制(NMS)算法不能剔除重复文字检测框的问题,设计了一个针对文字区域的文本区域过滤模块并添加在检测模块之后,以有效地剔除冗余检测框。使用模型联合训练的方法训练网络,训练过程包含两部分:第一部分为特征金字塔网络(FPN)和区域生成网络(RPN)的训练,训练使用的数据集为大规模公开的拉丁文字数据,目的是增强模型在不同场景下提取文字的泛化能力;第二部分为候选框坐标回归模块和区域分割模块的训练,此部分模型参数使用像素级标注的越南场景文字数据进行训练,使模型能对包括声调符号的越南文字区域进行分割。大量交叉验证实验和对比实验结果表明,与MaskR-CNN相比,所提算法在不同的交并比(IoU)阈值下都具有更好的准确率与召回率。 展开更多
关键词 MaskR-CNN 越南场景文字检测 声调符号 模型联合训练 分割模型 重复检测
在线阅读 下载PDF
场景文字识别技术研究综述 被引量:20
5
作者 王德青 吾守尔·斯拉木 许苗苗 《计算机工程与应用》 CSCD 北大核心 2020年第18期1-15,共15页
对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网... 对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网络、场景文字识别深度学习网络、端到端场景文字检测与识别深度学习网络,并总结了各类网络的结构特点、优势、局限性、应用场景以及实现成本,接着进行了综合分析;最后介绍了公开数据集,并探讨了场景文字识别技术的发展趋势及可能的研究方向。 展开更多
关键词 场景文字检测 文本识别 深度学习 端到端检测识别
在线阅读 下载PDF
面向混叠文字检测的单向投影Transformer方法 被引量:2
6
作者 冯智达 陈黎 《计算机应用》 CSCD 北大核心 2022年第12期3686-3691,共6页
针对基于分割的文字检测方法在混叠文字场景下性能下降的问题,提出了单向投影Transformer(SDPT)用于混叠文本检测。首先,使用深度残差网络(ResNet)和特征金字塔网络(FPN)提取并融合多尺度特征;然后,利用水平投影将特征图投影成向量序列... 针对基于分割的文字检测方法在混叠文字场景下性能下降的问题,提出了单向投影Transformer(SDPT)用于混叠文本检测。首先,使用深度残差网络(ResNet)和特征金字塔网络(FPN)提取并融合多尺度特征;然后,利用水平投影将特征图投影成向量序列,并送入Transformer模块进行建模,以挖掘文本行与行之间的关系;最后,使用多目标来进行联合优化。在合成数据集BDD-SynText和真实数据集RealText上进行了大量实验,结果表明,所提SDPT在高混叠度的文字检测下取得了最优的效果,而与PSENet等文本检测算法在相同骨干网络(ResNet50)条件下相比,在BDD-SynText上F1-Score(IoU75)至少提高了21.36个百分点,在RealText上的F1-Score(IoU75)至少提高了18.11个百分点,验证了所提方法对于混叠文字检测性能改善的重要作用。 展开更多
关键词 计算机视觉 深度学习 场景文字检测 混叠文字 投影 Transformer算法
在线阅读 下载PDF
适用于文字检测的候选框提取算法 被引量:2
7
作者 朱盈盈 张拯 +3 位作者 章成全 张兆翔 白翔 刘文予 《数据采集与处理》 CSCD 北大核心 2017年第6期1097-1106,共10页
在文字检测的相关研究中,针对文字的候选框提取方法并未得到广泛关注与深入挖掘。一方面由于文字本身结构和一般物体具有较强的差异性,另一方面由于文字对检测的精度要求高。本文提出了一种针对文字的候选框提取算法,该算法首先利用全... 在文字检测的相关研究中,针对文字的候选框提取方法并未得到广泛关注与深入挖掘。一方面由于文字本身结构和一般物体具有较强的差异性,另一方面由于文字对检测的精度要求高。本文提出了一种针对文字的候选框提取算法,该算法首先利用全卷积网络进行快速预测文字区域,有效地减少了候选框的搜索范围,然后针对文字特性对EdgeBox算法进行改进,使之适用于自然场景文字候选框的提取。此外,本文在两个自然场景文字检测的标准数据集上对该算法进行了评测,并与其他已有的候选框提取方法进行了比较。实验结果表明本文方法相较其他算法,具有更好的性能和鲁棒性。 展开更多
关键词 物体候选框 自然场景文字检测 全卷积网络 EdgeBox
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部