随着农业领域人工智能的研究不断深入,农业文本中命名实体识别是其他任务开展的基础之一。鉴于农业领域缺乏公开语料库,本文构建了自己的农业文本的注释语料库。针对目前存在的文本语义表达不足、缺乏语境特征、词向量多样性表达困难等...随着农业领域人工智能的研究不断深入,农业文本中命名实体识别是其他任务开展的基础之一。鉴于农业领域缺乏公开语料库,本文构建了自己的农业文本的注释语料库。针对目前存在的文本语义表达不足、缺乏语境特征、词向量多样性表达困难等问题,本文提出了基于XLNet(Generalized Autoregressive Pretraining for Language Understanding,XLNet)的农业命名实体识别模型XLNet-IDCNN-CRF。嵌入层XLNet对于输入文本进行向量化表示,丰富文本的语义信息,缓解一词多义问题,通过编码层迭代膨胀卷积神经网络(Iterated Dilated Convolutional Neural Network,IDCNN)并行计算减少训练时间,获取文本特征信息,结合起来输入到输出层条件随机场模型(Conditional Random Field,CRF)识别标签信息,输出最优序列。本文在自建语料库上准确率达到95.58%,召回率92.36%,F1值93.91%,对比优于其他模型。实验结果表明,XLNet-IDCNNCRF模型能够较好地完成农业命名实体识别任务。展开更多
语言模型的建立对挖掘句子内部语义信息有着直接的影响,为了提高中文命名实体识别率,字的语义表示是关键所在。针对传统的中文命名实体识别算法没有充分挖掘到句子内部的隐藏信息问题,该文利用LSTM提取经过大规模语料预训练生成的字向...语言模型的建立对挖掘句子内部语义信息有着直接的影响,为了提高中文命名实体识别率,字的语义表示是关键所在。针对传统的中文命名实体识别算法没有充分挖掘到句子内部的隐藏信息问题,该文利用LSTM提取经过大规模语料预训练生成的字向量特征,同时将词向量预测矩阵传入到字向量特征提取阶段,通过矩阵运算融合为词向量特征,并进一步利用CNN提取词语之间的空间信息,将其与得到的词向量特征整合到一起输入语言模型XLnet(Generalized autoregressive pretraining for language understanding)中,然后经过BiGRU-CRF输出最优标签序列,提出了CAW-XLnet-BiGRU-CRF网络框架。并与其他的语言模型作了对比分析,实验结果表明,该框架解决了挖掘内部隐藏信息不充分问题,在《人民日报》1998年1月份数据集上的F1值达到了95.73%,能够较好地应用于中文命名实体识别任务。展开更多
文摘随着农业领域人工智能的研究不断深入,农业文本中命名实体识别是其他任务开展的基础之一。鉴于农业领域缺乏公开语料库,本文构建了自己的农业文本的注释语料库。针对目前存在的文本语义表达不足、缺乏语境特征、词向量多样性表达困难等问题,本文提出了基于XLNet(Generalized Autoregressive Pretraining for Language Understanding,XLNet)的农业命名实体识别模型XLNet-IDCNN-CRF。嵌入层XLNet对于输入文本进行向量化表示,丰富文本的语义信息,缓解一词多义问题,通过编码层迭代膨胀卷积神经网络(Iterated Dilated Convolutional Neural Network,IDCNN)并行计算减少训练时间,获取文本特征信息,结合起来输入到输出层条件随机场模型(Conditional Random Field,CRF)识别标签信息,输出最优序列。本文在自建语料库上准确率达到95.58%,召回率92.36%,F1值93.91%,对比优于其他模型。实验结果表明,XLNet-IDCNNCRF模型能够较好地完成农业命名实体识别任务。
文摘语言模型的建立对挖掘句子内部语义信息有着直接的影响,为了提高中文命名实体识别率,字的语义表示是关键所在。针对传统的中文命名实体识别算法没有充分挖掘到句子内部的隐藏信息问题,该文利用LSTM提取经过大规模语料预训练生成的字向量特征,同时将词向量预测矩阵传入到字向量特征提取阶段,通过矩阵运算融合为词向量特征,并进一步利用CNN提取词语之间的空间信息,将其与得到的词向量特征整合到一起输入语言模型XLnet(Generalized autoregressive pretraining for language understanding)中,然后经过BiGRU-CRF输出最优标签序列,提出了CAW-XLnet-BiGRU-CRF网络框架。并与其他的语言模型作了对比分析,实验结果表明,该框架解决了挖掘内部隐藏信息不充分问题,在《人民日报》1998年1月份数据集上的F1值达到了95.73%,能够较好地应用于中文命名实体识别任务。