命名实体识别是自然语言处理的核心任务。在基于深度学习的中文命名实体识别方法中,静态字向量无法表征字的多义性。针对该问题,提出了基于XLnet嵌入的中文命名实体识别方法。该方法首先通过XLnet(Generalized Autoregressive Pretraini...命名实体识别是自然语言处理的核心任务。在基于深度学习的中文命名实体识别方法中,静态字向量无法表征字的多义性。针对该问题,提出了基于XLnet嵌入的中文命名实体识别方法。该方法首先通过XLnet(Generalized Autoregressive Pretraining for Language Understanding,XLnet)模型获取字级别的上下文表示。其次,利用BiLSTM-CRF模型获取文本依赖信息和标签信息。实验结果表明,该方法在人民日报、MSRA、Boson等3种数据集上分别达到91.9%、89.8%、74%的F1值,均高于其他主流的中文命名实体识别方法。展开更多
文摘命名实体识别是自然语言处理的核心任务。在基于深度学习的中文命名实体识别方法中,静态字向量无法表征字的多义性。针对该问题,提出了基于XLnet嵌入的中文命名实体识别方法。该方法首先通过XLnet(Generalized Autoregressive Pretraining for Language Understanding,XLnet)模型获取字级别的上下文表示。其次,利用BiLSTM-CRF模型获取文本依赖信息和标签信息。实验结果表明,该方法在人民日报、MSRA、Boson等3种数据集上分别达到91.9%、89.8%、74%的F1值,均高于其他主流的中文命名实体识别方法。
文摘针对中文网络安全领域缺乏公开数据集和有效的命名实体识别(Named Entity Recognition,NER)方法,提出一种融合汉字多源信息的网络安全NER方法。通过构建数据集中所有字符的偏旁和字频向量表,增强了中文字向量的特征表达能力,嵌入到改进的词汇融合模型中进行字向量与词向量的融合,输入到条件随机场(Conditional Random Fields,CRF)进行解码。实验结果表明,该方法在保持较快解码速度和占用较低计算机资源的情况下,在网络安全数据集上,其准确率、召回率和F1值分别为0.8649、0.8402和0.8523,均优于现有模型,能够为后续网络安全知识图谱的构建提供支撑。