针对复杂环境下含标签货物实时记录困难的问题,提出一种面向视觉物联网(visual Internet of Things,VIoT)的文本检测方法。在视觉物联网中设计并引入基于全局上下文注意力和坐标注意力的文本检测网络(text detection network based on g...针对复杂环境下含标签货物实时记录困难的问题,提出一种面向视觉物联网(visual Internet of Things,VIoT)的文本检测方法。在视觉物联网中设计并引入基于全局上下文注意力和坐标注意力的文本检测网络(text detection network based on global context attention and coordinate attention,GCANet),首先提出一种改进型坐标注意力模块,通过水平和垂直2个并行的一维池化操作,避免了因二维全局池化造成的位置信息丢失;然后引入全局上下文注意力模块,避免在复杂的背景对文本检测的影响,并防止密集或较远间隔的文本被错误地检测。该系统中提出的GCANet在公共数据集ICDAR2015、MSRA-TD500和Total-Text上的综合指标F值分别达到87.4%、86.9%和86.3%。在工业标签数据集Label-Text上平均准确率、平均召回率和平均F值分别达到93.4%、90.9%和92.1%。此外,GCANet在矿井下的标签数据集Mine-Text上准确率、召回率和F值分别达到94.4%、84.9%和89.9%。实验结果表明,本文提出的面向视觉物联网的文本检测方法效果优异。展开更多
文摘针对复杂环境下含标签货物实时记录困难的问题,提出一种面向视觉物联网(visual Internet of Things,VIoT)的文本检测方法。在视觉物联网中设计并引入基于全局上下文注意力和坐标注意力的文本检测网络(text detection network based on global context attention and coordinate attention,GCANet),首先提出一种改进型坐标注意力模块,通过水平和垂直2个并行的一维池化操作,避免了因二维全局池化造成的位置信息丢失;然后引入全局上下文注意力模块,避免在复杂的背景对文本检测的影响,并防止密集或较远间隔的文本被错误地检测。该系统中提出的GCANet在公共数据集ICDAR2015、MSRA-TD500和Total-Text上的综合指标F值分别达到87.4%、86.9%和86.3%。在工业标签数据集Label-Text上平均准确率、平均召回率和平均F值分别达到93.4%、90.9%和92.1%。此外,GCANet在矿井下的标签数据集Mine-Text上准确率、召回率和F值分别达到94.4%、84.9%和89.9%。实验结果表明,本文提出的面向视觉物联网的文本检测方法效果优异。