为有效利用PDF文献中的非结构化文本数据,面向费托合成催化材料领域文献,设计了关键信息抽取流水线从PDF文献中抽取表格及其相应注释等关键信息。以微分二值化网络(differentiable binarization network, DBNet)为基准模型,通过引入自...为有效利用PDF文献中的非结构化文本数据,面向费托合成催化材料领域文献,设计了关键信息抽取流水线从PDF文献中抽取表格及其相应注释等关键信息。以微分二值化网络(differentiable binarization network, DBNet)为基准模型,通过引入自适应空间注意力(adaptive spatial attention, ASA)模块,提出了DB-ASA文本检测模型,提高了检测精度。采用单视觉文本识别模型(scene text recognition with a single visual model, SVTR)进行文本识别,结合领域字典文件在自建数据集上对模型进行微调,文本识别准确率可达93.87%。展开更多
该文提出一种低复杂度的迭代大数逻辑LDPC译码算法,在迭代过程中所有的译码信息都以二元形式进行传递、处理和迭代更新。所提算法不需要计算外信息,而是利用Tanner图上伴随式的对错状态来评判节点可靠度。与现有的几种迭代大数逻辑译码...该文提出一种低复杂度的迭代大数逻辑LDPC译码算法,在迭代过程中所有的译码信息都以二元形式进行传递、处理和迭代更新。所提算法不需要计算外信息,而是利用Tanner图上伴随式的对错状态来评判节点可靠度。与现有的几种迭代大数逻辑译码算法相比,该文算法也不需要信息修正处理,避免了相应的实数乘法操作,具有很低的译码复杂度。此外,该文引入一种特殊的量化处理函数,并给出了基于离散密度进化的参数优化过程。实验仿真表明,该文所提算法与原算法相比,在AWGN信道下可获得约0.3~0.4 d B的性能提升。同时,由于节点间交换传递的译码信息都是基于1个比特位的二元信息,也非常便于硬件的设计与实现。展开更多
文摘为有效利用PDF文献中的非结构化文本数据,面向费托合成催化材料领域文献,设计了关键信息抽取流水线从PDF文献中抽取表格及其相应注释等关键信息。以微分二值化网络(differentiable binarization network, DBNet)为基准模型,通过引入自适应空间注意力(adaptive spatial attention, ASA)模块,提出了DB-ASA文本检测模型,提高了检测精度。采用单视觉文本识别模型(scene text recognition with a single visual model, SVTR)进行文本识别,结合领域字典文件在自建数据集上对模型进行微调,文本识别准确率可达93.87%。
文摘该文提出一种低复杂度的迭代大数逻辑LDPC译码算法,在迭代过程中所有的译码信息都以二元形式进行传递、处理和迭代更新。所提算法不需要计算外信息,而是利用Tanner图上伴随式的对错状态来评判节点可靠度。与现有的几种迭代大数逻辑译码算法相比,该文算法也不需要信息修正处理,避免了相应的实数乘法操作,具有很低的译码复杂度。此外,该文引入一种特殊的量化处理函数,并给出了基于离散密度进化的参数优化过程。实验仿真表明,该文所提算法与原算法相比,在AWGN信道下可获得约0.3~0.4 d B的性能提升。同时,由于节点间交换传递的译码信息都是基于1个比特位的二元信息,也非常便于硬件的设计与实现。