针对互联网开放数据中文本表述模糊、实体边界不清等问题,构建航天语料库Space-Corpus,提出一种基于BERT+Bi-LSTM+CRF的航天领域命名实体识别模型。基于微调的多层双向Transformer编码器(bidirectional encoder representations from tr...针对互联网开放数据中文本表述模糊、实体边界不清等问题,构建航天语料库Space-Corpus,提出一种基于BERT+Bi-LSTM+CRF的航天领域命名实体识别模型。基于微调的多层双向Transformer编码器(bidirectional encoder representations from transformer,BERT)模型生成输入语料的向量化表示,结合双向长短期记忆网络(bi-directional long short-term memory,Bi-LSTM)获取上下文特征,通过条件随机场(conditional random field,CRF)层进行序列解码标注,输出得分最高的预测标签。实验结果表明,该模型在Space-Corpus语料库上较基于BERT模型、基于BERT+Bi-LSTM以及基于CNN+Bi-LSTM+CRF识别模型的准确率、召回率及F1值均有提升。展开更多
文摘针对互联网开放数据中文本表述模糊、实体边界不清等问题,构建航天语料库Space-Corpus,提出一种基于BERT+Bi-LSTM+CRF的航天领域命名实体识别模型。基于微调的多层双向Transformer编码器(bidirectional encoder representations from transformer,BERT)模型生成输入语料的向量化表示,结合双向长短期记忆网络(bi-directional long short-term memory,Bi-LSTM)获取上下文特征,通过条件随机场(conditional random field,CRF)层进行序列解码标注,输出得分最高的预测标签。实验结果表明,该模型在Space-Corpus语料库上较基于BERT模型、基于BERT+Bi-LSTM以及基于CNN+Bi-LSTM+CRF识别模型的准确率、召回率及F1值均有提升。