在复杂自然场景的端到端文本识别中,由于文本和背景难以区分,文本检测的位置信息和识别的语义信息不匹配,无法有效利用检测和识别之间的相关性.针对该问题,本文提出双域感知下多方显式信息协同的自然场景端到端文本识别方法(Multi-party...在复杂自然场景的端到端文本识别中,由于文本和背景难以区分,文本检测的位置信息和识别的语义信息不匹配,无法有效利用检测和识别之间的相关性.针对该问题,本文提出双域感知下多方显式信息协同的自然场景端到端文本识别方法(Multi-party Synergetic explicit Information with Dual-domain Awareness text spotting,MSIDA),通过强化文本区域特征和边缘纹理,利用文本检测和识别特征之间的协同作用提高端到端文本识别性能.首先,设计融合文本空间和方向信息的双域感知模块(Dual-Domain Awareness,DDA),增强文本实例的视觉特征信息;其次,提出多方显式信息协同模块(Multi-party Explicit Information Synergy,MEIS)提取编码特征中的显式信息,通过匹配对齐用于检测和识别的位置、分类和字符多方信息生成候选文本实例;最后,协同特征通过解码器引导可学习的查询序列获得文本检测和识别的结果 .相比最新的DeepSolo(Decoder with explicit points Solo)方法,在Total-Text、ICDAR 2015和CTW1500数据集上,MSIDA模型的准确率分别提升0.8%、0.8%和0.4%.代码和数据集在https://github.com/msida2024/MSIDA.git可以获取.展开更多
为了有效检测识别被篡改的古籍文字图像,提出一种可用于古籍文字图像篡改的检测识别模型MDAS-Net。首先在边缘监督分支中提出一种全新的特征融合方式即混合注意力块,以更好地提取图像中的多尺度目标信息;其次,针对边缘监督分支和噪声敏...为了有效检测识别被篡改的古籍文字图像,提出一种可用于古籍文字图像篡改的检测识别模型MDAS-Net。首先在边缘监督分支中提出一种全新的特征融合方式即混合注意力块,以更好地提取图像中的多尺度目标信息;其次,针对边缘监督分支和噪声敏感分支的特征融合设计一种特征传递模块E-2-N/N-2-E Help Block,促进2个分支间的信息交流,以得到更高质量的融合特征。为了验证模型的有效性,创建古籍图像篡改数据集,并联合篡改图像文本数据集(TTI)进行对比实验和消融实验。结果表明,MDAS-Net模型在古籍文字图像篡改区域检测效果良好,受试者工作特性曲线下的面积(AUC)达到了0.852,F_(1)值达到了0.784,并证明了MDAS-Net在检测古籍文字图像篡改方面的实用性。展开更多
文摘在复杂自然场景的端到端文本识别中,由于文本和背景难以区分,文本检测的位置信息和识别的语义信息不匹配,无法有效利用检测和识别之间的相关性.针对该问题,本文提出双域感知下多方显式信息协同的自然场景端到端文本识别方法(Multi-party Synergetic explicit Information with Dual-domain Awareness text spotting,MSIDA),通过强化文本区域特征和边缘纹理,利用文本检测和识别特征之间的协同作用提高端到端文本识别性能.首先,设计融合文本空间和方向信息的双域感知模块(Dual-Domain Awareness,DDA),增强文本实例的视觉特征信息;其次,提出多方显式信息协同模块(Multi-party Explicit Information Synergy,MEIS)提取编码特征中的显式信息,通过匹配对齐用于检测和识别的位置、分类和字符多方信息生成候选文本实例;最后,协同特征通过解码器引导可学习的查询序列获得文本检测和识别的结果 .相比最新的DeepSolo(Decoder with explicit points Solo)方法,在Total-Text、ICDAR 2015和CTW1500数据集上,MSIDA模型的准确率分别提升0.8%、0.8%和0.4%.代码和数据集在https://github.com/msida2024/MSIDA.git可以获取.
文摘为了有效检测识别被篡改的古籍文字图像,提出一种可用于古籍文字图像篡改的检测识别模型MDAS-Net。首先在边缘监督分支中提出一种全新的特征融合方式即混合注意力块,以更好地提取图像中的多尺度目标信息;其次,针对边缘监督分支和噪声敏感分支的特征融合设计一种特征传递模块E-2-N/N-2-E Help Block,促进2个分支间的信息交流,以得到更高质量的融合特征。为了验证模型的有效性,创建古籍图像篡改数据集,并联合篡改图像文本数据集(TTI)进行对比实验和消融实验。结果表明,MDAS-Net模型在古籍文字图像篡改区域检测效果良好,受试者工作特性曲线下的面积(AUC)达到了0.852,F_(1)值达到了0.784,并证明了MDAS-Net在检测古籍文字图像篡改方面的实用性。