期刊文献+
共找到181篇文章
< 1 2 10 >
每页显示 20 50 100
基于特征过滤和自适应融合机制的不规则场景文本检测算法
1
作者 杨帅磊 李岐龙 +2 位作者 陈杰 凡高娟 张重生 《哈尔滨工业大学学报》 北大核心 2025年第10期165-170,共6页
自然场景图像中的文本存在背景复杂、形状各异、方向多样、光线多变等特点,为提升场景文本尤其是不规则场景文本的检测性能,提出一种基于特征过滤和自适应特征融合机制的不规则场景文本检测网络FGANet(feature guided adaptive network)... 自然场景图像中的文本存在背景复杂、形状各异、方向多样、光线多变等特点,为提升场景文本尤其是不规则场景文本的检测性能,提出一种基于特征过滤和自适应特征融合机制的不规则场景文本检测网络FGANet(feature guided adaptive network),其特征聚合引导模块通过空洞卷积扩大感受野、提升网络的特征表达能力,其自适应特征融合模块能够将深层的语义信息与浅层的细节信息进行综合利用,使算法获得更强的文本感知能力。结果表明,在场景文本检测方面,FGANet相较于对比算法,在ICDAR2015、CTW1500、MSRA-TD500和Total Text 4个基准数据集上的F值分别提升了2.4%、1.3%、1.8%和1.4%,性能提升较为显著。 展开更多
关键词 自然场景图像 场景文本检测 特征过滤 自适应特征融合 文本感知能力
在线阅读 下载PDF
基于掩码信息熵迁移的场景文本检测知识蒸馏
2
作者 陈建炜 沈英龙 +1 位作者 杨帆 赖永炫 《软件学报》 北大核心 2025年第9期4187-4206,共20页
自然场景文本检测的主流方法大多使用复杂且层数较多的网络来提升检测精度,需要较大的计算量和存储空间,难以部署到计算资源有限的嵌入式设备上.知识蒸馏可通过引入与教师网络相关的软目标信息,辅助训练轻量级的学生网络,实现模型压缩.... 自然场景文本检测的主流方法大多使用复杂且层数较多的网络来提升检测精度,需要较大的计算量和存储空间,难以部署到计算资源有限的嵌入式设备上.知识蒸馏可通过引入与教师网络相关的软目标信息,辅助训练轻量级的学生网络,实现模型压缩.然而,现有的知识蒸馏方法主要为图像分类任务而设计,提取教师网络输出的软化概率分布作为知识,其携带的信息量与类别数目高度相关,当应用于文本检测的二分类任务时会存在信息量不足的问题.为此,针对场景文本检测问题,定义一种新的信息熵知识,并以此为基础提出基于掩码信息熵迁移的知识蒸馏方法(mask entropy transfer,MaskET).MaskET在传统蒸馏方法的基础上引入信息熵知识,以增加迁移到学生网络的信息量;同时,为了消除图像中背景信息的干扰,MaskET通过添加掩码的方法,仅提取文本区域的信息熵知识.在ICDAR 2013、ICDAR 2015、TD500、TD-TR、Total-Text和CASIA-10K这6个公开标准数据集上的实验表明,MaskET方法优于基线模型和其他知识蒸馏方法.例如,Mask ET在CASIA-10K数据集上将基于MobileNetV3的DBNet的F1得分从65.3%提高到67.2%. 展开更多
关键词 自然场景 文本检测 知识蒸馏 信息熵
在线阅读 下载PDF
基于傅里叶中心线预测的任意形状文本检测方法
3
作者 白昆 王哲 +4 位作者 马龙 薛尧 李国栋 闫天 王晓田 《液晶与显示》 北大核心 2025年第6期905-914,共10页
文本检测技术已经非常成熟,但由于文本框的几何编码限制,检测任意形状的文本仍然是文本检测任务中的主要挑战。在自然场景中,文本呈现出多种形状,并且真实场景中的文本受到拍摄角度、背景物体的物理变形以及文本本身固有曲率的影响,仅... 文本检测技术已经非常成熟,但由于文本框的几何编码限制,检测任意形状的文本仍然是文本检测任务中的主要挑战。在自然场景中,文本呈现出多种形状,并且真实场景中的文本受到拍摄角度、背景物体的物理变形以及文本本身固有曲率的影响,仅使用矩形边界框不足以包含不规则的文本实例。为了改进检测任意形状文本的问题,我们提出了一种利用频域中的傅里叶变换来构建文本特征的方法,通过预测文本的中心线来重建预测框。预测的文本中心线不仅有助于重建复杂形状的文本框,还可以通过中心线校正辅助后续的文本识别过程。本文方法在具有挑战性的任意形状文本检测数据集CTW1500、TotalText上取得了非常有竞争力的性能。 展开更多
关键词 场景文本检测 深度神经网络 任意文本形状
在线阅读 下载PDF
基于高分辨扩展金字塔的场景文本检测
4
作者 王满利 窦泽亚 +2 位作者 蔡明哲 刘群坡 史艳楠 《电子与信息学报》 北大核心 2025年第7期2334-2346,共13页
文本检测作为计算机视觉领域一项重要分支,在文字翻译、自动驾驶和票据信息处理等方面具有重要的应用价值。当前文本检测算法仍无法解决实际拍摄图像的部分文本分辨率低、尺度变化大和有效特征不足的问题。针对上述待解决的问题,该文提... 文本检测作为计算机视觉领域一项重要分支,在文字翻译、自动驾驶和票据信息处理等方面具有重要的应用价值。当前文本检测算法仍无法解决实际拍摄图像的部分文本分辨率低、尺度变化大和有效特征不足的问题。针对上述待解决的问题,该文提出一种基于高分辨扩展金字塔的场景文本检测方法(HREPNet)。首先,构造一种改进型特征金字塔,引入高分辨扩展层和超分辨特征模块,有效增强文本分辨率特征,解决部分文本分辨率低的问题;同时,在主干网络传递特征过程中引入多尺度特征提取模块,通过多分支空洞卷积结构与注意力机制,充分获取文本多尺度特征,解决文本尺度变化大的问题;最后,提出高效特征融合模块,选择性融合高分辨特征和多尺度特征,从而减少模型的空间信息的丢失,解决有效特征不足的问题。实验结果表明,HREPNet在公开数据集ICDAR2015,CTW1500和Total-Text上综合指标F值分别提高了7.6%,5.5%和3.0%,在准确率召回率上都得到显著提升;此外,HREPNet对不同尺度和分辨率的文本检测效果均有明显提升,对小尺度和低分辨率文本提升尤为显著。 展开更多
关键词 文本检测 高分辨扩展金字塔 多尺度特征提取模块 高效特征融合模块
在线阅读 下载PDF
用于场景文本检测的非对称迭代细化预测网络
5
作者 连哲 殷雁君 +2 位作者 米增 智敏 徐巧枝 《计算机工程与应用》 北大核心 2025年第5期250-260,共11页
场景文本检测是图像处理领域的基础性研究工作,具有广泛的应用价值。DBNet作为该领域具有代表性的算法,重构文本实例的后处理过程过于简单,对纵横比显著变化的文本容易误检以及对小文本容易漏检。为解决以上问题,设计并提出用于场景文... 场景文本检测是图像处理领域的基础性研究工作,具有广泛的应用价值。DBNet作为该领域具有代表性的算法,重构文本实例的后处理过程过于简单,对纵横比显著变化的文本容易误检以及对小文本容易漏检。为解决以上问题,设计并提出用于场景文本检测的非对称迭代细化预测网络AIRPNet。模型基于ResNet50特征提取网络,将常规卷积替换为可变形卷积以适应不规则文本特征,并调整block堆叠数使得各层携带的特征更加合理。采用RFP的递归思想更充分地融合多层特征,设计非对称迭代细化预测模块构建更为准确的概率图,可微分二值化后处理重构文本实例边界。针对非对称迭代细化预测模块,设计多种结构进行探究。为评估提出模型的有效性,在三个数据集上与最先进的主流模型进行对比,在ICDAR2015、MSRA-TD500和CTW1500数据集中,分别取得88.7%、88.4%和84.9%的F-measure,实现或接近SOTA性能。实验结果表明,提出模型能够捕获较为准确的概率图,从而构建较为完整的文本边界框。 展开更多
关键词 文本检测 递归金字塔 非对称卷积 迭代细化预测 可微分二值化
在线阅读 下载PDF
基于深度学习的自然场景文本检测综述 被引量:7
6
作者 连哲 殷雁君 +1 位作者 云飞 智敏 《计算机工程》 CAS CSCD 北大核心 2024年第3期16-27,共12页
基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和... 基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和发展现状。接着,分析近年来基于深度学习的文本检测方法并将其分为基于检测框、基于分割、基于两者混合、其他4类,阐述4类经典和主流方法的基本思路和主要算法流程,归纳总结不同方法的使用机制、适用场景、优劣点及仿真实验结果和环境设置,明确不同方法之间的关联关系。然后,介绍自然场景文本检测的常用公共数据集和文本检测性能评估方法。最后,指出基于深度学习的自然场景文本检测技术目前所面临的主要挑战并对其未来发展方向进行展望。 展开更多
关键词 深度学习 计算机视觉 自然场景文本 文本检测 多方向文本检测 多尺度文本检测
在线阅读 下载PDF
结合Segformer与增强特征金字塔的文本检测方法 被引量:2
7
作者 张铭泉 张泽恩 +1 位作者 曹锦纲 邵绪强 《智能系统学报》 CSCD 北大核心 2024年第5期1111-1125,共15页
针对自然场景文本检测算法中的小尺度文本漏检、类文本像素误检以及边缘定位不准确的问题,提出一种基于Segformer和增强特征金字塔的文本检测模型。该模型首先采用基于混合Transformer(mix Trans-former,MiT)的编码器生成多尺度特征图;... 针对自然场景文本检测算法中的小尺度文本漏检、类文本像素误检以及边缘定位不准确的问题,提出一种基于Segformer和增强特征金字塔的文本检测模型。该模型首先采用基于混合Transformer(mix Trans-former,MiT)的编码器生成多尺度特征图;然后,在具有特征金字塔结构解码器的上采样部分,提出级联融合注意力模块,通过全局平均池化、全局最大池化和Ghost模块获取全局通道信息并保留文本特征;接着,在解码器的特征融合部分提出两级正交融合注意力模块,利用非对称卷积分别从水平和垂直方向进行信息增强;最后,利用可微分二值化对结果进行后处理。将本文方法在ICDAR2015、ShopSign1265和MTWI 3个数据集上进行实验,相比于其他8种方法,本文方法的F值均为最优,分别达到了87.8%、59.1%和74.8%。结果表明,本文方法有效提高了文本检测的准确率。 展开更多
关键词 文本检测 特征金字塔 注意力机制 Segformer Ghost模块 多尺度特征融合 平均池化 最大池化
在线阅读 下载PDF
基于多尺度注意力特征融合的场景文本检测 被引量:2
8
作者 厍向阳 刘哲 董立红 《计算机工程与应用》 CSCD 北大核心 2024年第1期198-206,共9页
针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networ... 针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networks,FPN)中,通过将多尺度注意力热图与底层特征通过横向连接相融合,使检测器的不同层级专注于特定尺度的目标,并利用相邻层注意力热图之间的关系实现了FPN结构中的纵向特征共享,避免了不同层之间梯度计算的不一致性问题。实验结果表明:在ICDAR2015数据集上,该方法的准确率、召回率和F值分别达到了88.3%、83.07%和85.61%,在CTW1500和Total-Text弯曲文本数据集上相较现有方法均有良好表现。 展开更多
关键词 场景文本检测 Mask R-CNN Swin Transformer 注意力机制 多尺度特征融合
在线阅读 下载PDF
基于链接关系预测的弯曲密集型商品文本检测 被引量:1
9
作者 耿磊 李嘉琛 +2 位作者 刘彦北 李月龙 李晓捷 《天津工业大学学报》 CAS 北大核心 2024年第4期50-59,74,共11页
针对商品包装文本检测任务中弯曲密集型文本导致的错检、漏检问题,提出了一种由2个子网络组成的基于链接关系预测的文本检测框架(text detection network based on relational prediction,RPTNet)。在文本组件检测网络中,下采样采用卷... 针对商品包装文本检测任务中弯曲密集型文本导致的错检、漏检问题,提出了一种由2个子网络组成的基于链接关系预测的文本检测框架(text detection network based on relational prediction,RPTNet)。在文本组件检测网络中,下采样采用卷积神经网络和自注意力并行的双分支结构提取局部和全局特征,并加入空洞特征增强模块(DFM)减少深层特征图在降维过程中信息的丢失;上采样采用特征金字塔与多级注意力融合模块(MAFM)相结合的方式进行多级特征融合以增强文本特征间的潜在联系,通过文本检测器从上采样输出的特征图中检测文本组件;在链接关系预测网络中,采用基于图卷积网络的关系推理框架预测文本组件间的深层相似度,采用双向长短时记忆网络将文本组件聚合为文本实例。为验证RRNet的检测性能,构建了一个由商品包装图片组成的文本检测数据集(text detection dataset composed of commodity packaging,CPTD1500)。实验结果表明:RPTNet不仅在公开文本数据集CTW-1500和Total-Text上取得了优异的性能,而且在CPTD1500数据集上的召回率和F值分别达到了85.4%和87.5%,均优于当前主流算法。 展开更多
关键词 文本检测 卷积神经网络 自注意力 特征融合 图卷积网络 双向长短时记忆网络
在线阅读 下载PDF
一种基于特征增强的场景文本检测算法 被引量:1
10
作者 高楠 张雷 +2 位作者 梁荣华 陈朋 付政 《计算机科学》 CSCD 北大核心 2024年第6期256-263,共8页
针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能... 针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能够更好地融合不同语义和尺度的特征图信息,从而提高文本信息的表征能力。同时,考虑到网络深层特征图在上采样融合过程中出现语义信息损失的问题,提出了多尺度空间感知模块(Multi-scale Spatial Perception Module,MSPM),通过扩大感受野来获取更大感受野的上下文信息,增强深层特征图的文本语义信息特征,从而有效地减少文本漏检、误检。为了评估所提算法的有效性,在公开数据集ICDAR2015,CTW1500以及MSRA-TD500上进行实验,所提方法综合指标F值分别达到了82.8%,83.4%和85.3%。实验结果表明,该算法在不同数据集上都具有良好的检测能力。 展开更多
关键词 深度学习 场景文本检测 注意力机制 多尺度特征融合 空洞卷积
在线阅读 下载PDF
改进FCENet的自然场景文本检测算法
11
作者 周燕 廖俊玮 +2 位作者 刘翔宇 周月霞 曾凡智 《计算机工程与应用》 CSCD 北大核心 2024年第3期228-236,共9页
针对自然场景文本检测中由于背景复杂、尺度多变、形状弯曲等造成的检测难题,提出了一种改进FCENet(Fourier contour embedding network)的场景文本检测算法。该算法基于FCENet并引入了多尺度残差特征增强模块和多尺度注意力特征融合模... 针对自然场景文本检测中由于背景复杂、尺度多变、形状弯曲等造成的检测难题,提出了一种改进FCENet(Fourier contour embedding network)的场景文本检测算法。该算法基于FCENet并引入了多尺度残差特征增强模块和多尺度注意力特征融合模块。多尺度残差特征增强模块作为骨干网络顶层的残差分支,增强了特征金字塔结构自上而下的高层语义信息流动,提高了文本像素分类能力,有效减少误检现象。多尺度注意力特征融合模块使不同语义和尺度的特征能够更好地融合,结合自底向上的特征融合网络,有效避免文本过度分割并提高了弯曲文本的检测能力。实验结果表明,该方法在弯曲文本数据集CTW1500和Total-Text上的综合指标F值分别达到了86.2%和86.5%,相比原算法FCENet分别提升了1.1和0.7个百分点。 展开更多
关键词 自然场景文本检测 特征融合 特征增强 注意力机制 FCENet
在线阅读 下载PDF
摘要AI文本检测中“猫鼠游戏”的行为界定和能力分析 被引量:5
12
作者 李启正 胡崴琳 祝成炎 《情报杂志》 CSSCI 北大核心 2024年第11期139-143,138,共6页
[研究目的]辨别学术论文中的AI内容已成为学术出版界面临的新问题。研究人类对AI文本的界定依据和分辨能力,以及机器猫(AI文本检测工具)对AI鼠(AI文本)的检测能力,为学术出版中AI文本检测提供理论参考。[研究方法]使用GPT-3.5-Turbo、GP... [研究目的]辨别学术论文中的AI内容已成为学术出版界面临的新问题。研究人类对AI文本的界定依据和分辨能力,以及机器猫(AI文本检测工具)对AI鼠(AI文本)的检测能力,为学术出版中AI文本检测提供理论参考。[研究方法]使用GPT-3.5-Turbo、GPT-4和GPT-4-Turbo三个不同版本的ChatGPT对中文权威学术期刊《计算机学报》的150篇中文论文进行了摘要AI生成和AI改写;对英文权威学术期刊Artificial intelligence的150篇英文论文进行了摘要AI翻译,分析人类和4款主流AI文本检测工具对于AI生成摘要、通过AI改写和AI翻译的伪装摘要的识别能力。[研究结论]根据调查问卷结果统计,人类一般会从直觉、表达习惯、逻辑性、语句过渡和数据合理性5个方面来界定AI文本。该实验研究范围内,人类对AI生成摘要、AI改写摘要和AI翻译摘要的分辨能力有限,识别率在50%~65%之间;而该文选用的4款AI文本检测工具识别率均在80%左右,但对于由高版本的GPT-4-Turbo模型生成的摘要,以及经过ChatGPT改写或翻译的摘要,目前主流AI文本检测工具也都表现不佳。因此在当前的学术出版过程中,出版者还应采用多种方式识别AI文本。 展开更多
关键词 摘要 AI文本检测 ChatGPT AIGC 大语言模型 学术不端
在线阅读 下载PDF
多尺度池化和双向特征融合的场景文本检测 被引量:2
13
作者 魏哲亮 李岳阳 罗海驰 《计算机工程与应用》 CSCD 北大核心 2024年第2期154-161,共8页
针对自然场景中文字背景复杂多样、形态大小各异的问题,提出了一种新的基于分割的场景文本检测网络。通过构建多尺度池化和双向特征融合两个模块来提升网络性能。根据文本实例的特点,多尺度池化模块使用不同长宽比窗口的空间池来捕获不... 针对自然场景中文字背景复杂多样、形态大小各异的问题,提出了一种新的基于分割的场景文本检测网络。通过构建多尺度池化和双向特征融合两个模块来提升网络性能。根据文本实例的特点,多尺度池化模块使用不同长宽比窗口的空间池来捕获不同距离上文本信息的依赖关系,指导网络得到更加准确的分割结果。双向特征融合模块构建了两条不同方向的融合路径,以更好地利用主干网络的不同尺度特征,提升网络对不同尺度文本的检测性能。实验结果证明了所提方法的有效性,在ICDAR2015、MSRA-TD500和Total-Text这三个公开数据集上,分别取得了87.7%、86.7%和85.5%的F-measure值。 展开更多
关键词 文本检测 图像分割 多尺度池化 双向特征融合
在线阅读 下载PDF
基于增强特征提取网络与语义特征融合的多方向文本检测 被引量:2
14
作者 吕伶 李华 王武 《图学学报》 CSCD 北大核心 2024年第1期56-64,共9页
针对自然场景文本长度不定、角度倾斜等难题,提出了一种基于增强特征提取网络与语义特征融合的文本检测方法。通过结合可变形卷积与空洞卷积,设计了一种增强扩张残差模块EDRM(Enhanced Dilated Residual Module),将其应用于ResNet18的co... 针对自然场景文本长度不定、角度倾斜等难题,提出了一种基于增强特征提取网络与语义特征融合的文本检测方法。通过结合可变形卷积与空洞卷积,设计了一种增强扩张残差模块EDRM(Enhanced Dilated Residual Module),将其应用于ResNet18的conv4_x与conv5_x层,并以此作为骨干网络,在改善网络特征提取能力的同时提高特征图像分辨率,减少空间信息丢失。其次,针对现有算法提取文本语义特征仍不充分的问题,将双向长短期记忆网络BiLSTM(Bi-directional Long Short-Term Memory)引入特征融合部分,增强融合特征图对自然场景文本的表征能力以及特征序列的关联性,同时提高模型的文本定位能力。在多方向文本数据集ICDAR2015、长文本数据集MSRA-TD500上对模型展开评估,实验结果表明,该算法与当下高效的DBNet算法相比,F值分别提升1.8%、3.3%,表现出良好的竞争力。 展开更多
关键词 可变形卷积 空洞卷积 文本检测 语义特征 双向长短期记忆网络
在线阅读 下载PDF
一种基于信息熵迁移的文本检测模型自蒸馏方法 被引量:1
15
作者 陈建炜 杨帆 赖永炫 《自动化学报》 EI CAS CSCD 北大核心 2024年第11期2128-2139,共12页
前沿的自然场景文本检测方法大多基于全卷积语义分割网络,利用像素级分类结果有效检测任意形状的文本,其主要缺点是模型大、推理时间长、内存占用高,这在实际应用中限制了其部署.提出一种基于信息熵迁移的自蒸馏训练方法(Self-distillat... 前沿的自然场景文本检测方法大多基于全卷积语义分割网络,利用像素级分类结果有效检测任意形状的文本,其主要缺点是模型大、推理时间长、内存占用高,这在实际应用中限制了其部署.提出一种基于信息熵迁移的自蒸馏训练方法(Self-distillation via entropy transfer,SDET),利用文本检测网络深层网络输出的分割图(Segmentation map,SM)信息熵作为待迁移知识,通过辅助网络将信息熵反馈给浅层网络.与依赖教师网络的知识蒸馏(Knowledge distillation,KD)不同,SDET仅在训练阶段增加一个辅助网络,以微小的额外训练代价实现无需教师网络的自蒸馏(Self-distillation,SD).在多个自然场景文本检测的标准数据集上的实验结果表明,SDET在基线文本检测网络的召回率和F1得分上,能显著优于其他蒸馏方法. 展开更多
关键词 自然场景 文本检测 知识蒸馏 自蒸馏 信息熵
在线阅读 下载PDF
基于多边形特征池化与融合的复杂文本检测 被引量:1
16
作者 张相南 高新波 田春娜 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第3期113-123,共11页
文本检测在图像理解中发挥着重要的作用。基于深度学习的文本检测是当前的主流算法,包括单阶段方法和双阶段方法两类,而且后者的检测精度往往高于前者。双阶段的检测方法通常包含感兴趣区域特征池化操作,为进一步的检测和识别任务提供... 文本检测在图像理解中发挥着重要的作用。基于深度学习的文本检测是当前的主流算法,包括单阶段方法和双阶段方法两类,而且后者的检测精度往往高于前者。双阶段的检测方法通常包含感兴趣区域特征池化操作,为进一步的检测和识别任务提供特定维度的局部区域特征。然而对于弯曲文本等复杂文本区域来说,现有的基于矩形感兴趣区域的池化方法不再适用,而基于点特征替代区域特征的方法又损失了空间信息。针对该问题,提出了一种基于多边形特征池化和Transformer的复杂文本区域检测方法。首先,将复杂文本区域检测中感兴趣区域进行多边形特征池化,将池化操作的区域形状从矩形拓展到多边形并且不需要借助其他形状进行拟合,即可将多边形区域对应的特征池化为固定维度的特征序列,避免了拟合过程中出现误差。进而,将池化后的特征视为具有空间关系的序列,然后利用Transformer融合视觉特征之间的上下文关系,降低训练难度,提升检测精确度。在包含弯曲文本等复杂文本情况的ICDAR2015、MLT、Total Text和CTW1500数据集上的测试实验结果表明,提出的双阶段检测算法能更好地提取感兴趣区域特征,并取得了比现有方法更好的检测结果。 展开更多
关键词 文本检测 双阶段方法 多边形 特征池化 TRANSFORMER
在线阅读 下载PDF
基于像素聚合的自然场景文本检测模型
17
作者 张华东 钟羽中 +1 位作者 涂海燕 佃松宜 《组合机床与自动化加工技术》 北大核心 2024年第11期13-17,23,共6页
针对自然场景文本检测面临的文本形状差异大、场景复杂干扰多等诸多挑战,提出了一种基于像素聚合的自然场景文本检测模型。首先,设计了上采样和长短跳跃的嵌套巢式连接的特征融合模块,通过融合残差网络ResNet18提取的多尺度、多阶段的特... 针对自然场景文本检测面临的文本形状差异大、场景复杂干扰多等诸多挑战,提出了一种基于像素聚合的自然场景文本检测模型。首先,设计了上采样和长短跳跃的嵌套巢式连接的特征融合模块,通过融合残差网络ResNet18提取的多尺度、多阶段的特征,增强网络特征提取的能力;其次,基于聚类的思想,引入像素聚合约束外围像素与文本中心区域的距离,实现复杂自然场景下的任意形状文本描述;最后,通过轻量级文本检测头实现像素级的字符分割,提高模型的效率。在ICDAR2015、CTW1500以及构建的工业字符数据集上对所提模型进行验证,结果表明该模型能胜任复杂自然环境下的文本检测任务,且在检测精度和检测效率上均优于现有先进文本检测器。 展开更多
关键词 特征融合 像素聚合 文本检测 字符分割
在线阅读 下载PDF
面向网络欺凌文本检测模型的算法解释及其故事化呈现研究 被引量:2
18
作者 靳庆文 李胡蓉 徐红霞 《现代情报》 CSSCI 北大核心 2024年第9期59-70,共12页
[目的/意义]利用可解释性技术与故事化方法研究网络欺凌检测有助于识别欺凌内容、参与网络言论治理以及净化网络生态。[方法/过程]详细分析LIME解释算法的选择依据与文本解释原理,并提出LIME算法在网络欺凌检测模型中的“钻石结构式”... [目的/意义]利用可解释性技术与故事化方法研究网络欺凌检测有助于识别欺凌内容、参与网络言论治理以及净化网络生态。[方法/过程]详细分析LIME解释算法的选择依据与文本解释原理,并提出LIME算法在网络欺凌检测模型中的“钻石结构式”应用流程,进一步构建了“数据层—模型层—解释层—叙事层”的故事化呈现框架,最后通过实验验证了该框架的有效性。[结果/结论]可解释性技术辅助网络欺凌检测模型有利于提高模型应用价值与可信度,权衡模型准确性与可解释性二者的关系,而基于数据分析及解释结果的故事化呈现方法为网络信息平台数据治理提供可信、可靠、可理解依据。 展开更多
关键词 网络欺凌 文本检测 LIME算法 算法解释 数据故事化
在线阅读 下载PDF
自然场景文本检测中可微分二值化技术综述 被引量:2
19
作者 连哲 殷雁君 +1 位作者 智敏 徐巧枝 《计算机科学与探索》 CSCD 北大核心 2024年第9期2239-2260,共22页
自然场景中包含的丰富文本对理解现实世界具有重要意义,但由于自然场景文本的多样性和复杂性,检测任务变得困难。随着智能时代的兴起,深度学习技术为自然场景文本检测带来突破性进展,可微分二值化网络DBNet的提出,更是推动了文本检测实... 自然场景中包含的丰富文本对理解现实世界具有重要意义,但由于自然场景文本的多样性和复杂性,检测任务变得困难。随着智能时代的兴起,深度学习技术为自然场景文本检测带来突破性进展,可微分二值化网络DBNet的提出,更是推动了文本检测实时性需求的研究进步,许多研究者基于可微分二值化技术,进行了具有创新性和实用性的研究,并取得丰硕成果。对近年来基于可微分二值化技术的文本检测算法研究进行了深入的分析和总结。简要介绍DBNet模型的背景、工作原理、优势与劣势,根据技术差异将基于微分二值化技术的算法分为特征提取、特征融合、后处理、整体架构以及训练策略五类,对每类方法的改进方式进行详细的图示说明,并对各类技术方法的机制进行详细阐述,对所有方法进行分析总结。介绍了常用公开数据集和文本检测性能评估指标,汇总不同方法的仿真实验结果,列举几个具有实际意义的应用场景。对自然场景文本检测领域的未来发展方向进行了思考,并梳理面对的挑战和亟待解决的问题。 展开更多
关键词 文本检测 深度学习 计算机视觉 可微分二值化
在线阅读 下载PDF
基于高阶图卷积推理网络的任意形状文本检测 被引量:1
20
作者 刘平 姜永峰 张良 《计算机工程与应用》 CSCD 北大核心 2024年第1期263-270,共8页
通用场景文本检测被广泛应用于地图导航、无人驾驶等多个领域。场景文本方向各异且形状复杂多变,使得文本检测难度大。针对这一问题,提出一种高阶图卷积推理网络。以文本检测框架DRRG为基础,设计高阶图方案,提出高阶图卷积推理网络,扩... 通用场景文本检测被广泛应用于地图导航、无人驾驶等多个领域。场景文本方向各异且形状复杂多变,使得文本检测难度大。针对这一问题,提出一种高阶图卷积推理网络。以文本检测框架DRRG为基础,设计高阶图方案,提出高阶图卷积推理网络,扩展了推理范围,有效组合高阶邻居提供的辅助信息。改进一阶邻居的设置,降低无关组件的干扰,提高了反向传播和组件链接的效率。引入SE聚合模块为每个节点独立且自适应地生成聚合方案,进一步提高了对高阶信息的利用率。实验结果表明,改进后的网络在Total-Text、CTW-1500和ICDAR2015数据集上的平均精度(F1)分别提升了1.4、1.05和1.26个百分点。 展开更多
关键词 图像处理 文本检测 高阶图卷积网络 关系推理网络 SE聚合
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部