为有效解决构建电力运检知识图谱的关键步骤之一的电力运检命名实体识别问题,通过构建一种基于Stacking多模型融合的隐马尔可夫-条件随机场-双向长短期记忆网络(hidden Markov-conditional random fields-bi-directional long short-ter...为有效解决构建电力运检知识图谱的关键步骤之一的电力运检命名实体识别问题,通过构建一种基于Stacking多模型融合的隐马尔可夫-条件随机场-双向长短期记忆网络(hidden Markov-conditional random fields-bi-directional long short-term,HCB)模型方法研究了电力运检命名实体识别问题。HCB模型分为两层,第一层使用隐马尔可夫模型(hidden Markov model,HMM)、条件随机场(conditional random fields,CRF)和双向长短期记忆网络(bi-directional long short-term memory,Bi-LSTM)模型进行训练预测,再将预测结果输入第二层的CRF模型进行训练,经过双层模型训练预测得出最后的命名实体。结果表明:在电力运检命名实体识别问题上HCB模型的精确率、召回率及F1值等指标明显优于单模型以及其他的融合模型。可见HCB模型能有效解决电力运检命名实体识别问题。展开更多
文摘该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。
文摘为有效解决构建电力运检知识图谱的关键步骤之一的电力运检命名实体识别问题,通过构建一种基于Stacking多模型融合的隐马尔可夫-条件随机场-双向长短期记忆网络(hidden Markov-conditional random fields-bi-directional long short-term,HCB)模型方法研究了电力运检命名实体识别问题。HCB模型分为两层,第一层使用隐马尔可夫模型(hidden Markov model,HMM)、条件随机场(conditional random fields,CRF)和双向长短期记忆网络(bi-directional long short-term memory,Bi-LSTM)模型进行训练预测,再将预测结果输入第二层的CRF模型进行训练,经过双层模型训练预测得出最后的命名实体。结果表明:在电力运检命名实体识别问题上HCB模型的精确率、召回率及F1值等指标明显优于单模型以及其他的融合模型。可见HCB模型能有效解决电力运检命名实体识别问题。